728x90
R을 사용하여 가설검정하기 - T 테스트
1. 가설 세우기 예시데이터를 불러온다. library(dplyr) library(ggplot2) r
- R - 통계 언어
- · 2022. 6. 1.
R 데이터프레임 만들기, 엑셀파일 불러오기, 패키지안의 특정 데이터 data.frame화
데이터 분석에 가장 기본이 되는 데이터프레임 생성하는 법 a
- R - 통계 언어
- · 2022. 5. 30.
728x90
Decision Tree 정의 Decision Tree란 직역하면 의사결정나무라는 뜻이다. 여러 테스트 결과를 놓고 예, 아니오로 데이터를 결정한다. Decision Tree의 모형을 노드라고 표현하며 상위에 있는 모형을 부모노드, 부모노드와 이어져 있는 의사나무결정을 자식노드라고 한다. 가장 좋은 Decision Tree의 모형은 최소한의 노드 수. 즉 가장 작은 나무 모양 Decision Tree의 단점은 데이터를 여러 분류의 카테고리로 나누어 적용한 값을 예측하기 때문에 overfitting이 일어날 가능성이 높다. 즉, Decision Tree의 모델을 다른 데이터에 적용할 때 일반화가 어렵다는 단점이 있다. Random Forest 정의 이런 Decision Tree의 단점을 보완한 것이 랜덤포..
정의 개념을 알기위해 선형회귀분석과 Logistic 회귀분석의 차이점을 알아보자 선형회귀분석은 종속변수가 어떤 값이라도 가질 수 있지만 연속형 숫자여야만 하고 (int값) Logistic 회귀분석은 종속변수에 제한값이 있지만 (가질 수 없는 값이 존재) 종속변수가 범주형 자료여도 적용이 가능하다. 범주형 자료와 연속형 자료의 차이점은 아래의 블로그를 참조 [통계] 자료의 형태 - 범주형 자료, 수치형 자료, 척도 통계 분석을 시작하기 전에 자료의 형태를 파악하는 것은 필수적입니다. 수집된 자료는 크게 범주형 자료와... blog.naver.com 위를 표로 설명하면 아래와 같다. Logistic 회귀분석의 종류 종류에는 여러가지가 있지만 그 중 대표적인 Boosting Logistic Regression..
1. 가설 세우기 예시데이터를 불러온다. library(dplyr) library(ggplot2) r
이상치, 극단치란 다른 값의 패턴에 벗어난 값. 즉 분포에 비해 값이 비상식적으로 작거나 큰 값을 말한다. 이 값들에는 두가지 경우가 있는데 1) 비상식적인 값이나 2)극단적으로 작거나 큰 값이다 1) 비상식적인 값은 결측치로 취급하여 제외하고 2)극단적으로 작은 값이나 큰 값은 전체 분포 데이터의 정상범위내로 대체하여 입력한다 1) 비상식적인 값 제거 방법 결측치를 추가하고 제거하는 순서의 코드는 아래와 같다. library(dplyr) #데이터프레임 예시 outlier % group_by(gender) %>% summarise(mean_scr = mean(score)) 2) 극단치의 값을 변경한 후 산술 방법 일단 극단치를 찾기 위해 boxplot을 사용해서 극단치의 값을 찾는다. #예시 데이터 할당..
결측치 찾기 데이터프레임내의 결측치는 NA로 배정된다. 데이터프레임을 만들 때 결측치를 넣으려면 NA를 입력하고 쌍따옴표를 생략한다. df % filter(!is.na(score)) #연산자도 사용가능 df %>% filter(!is.na(score) & !is.na(gender)) 일일이 다 해줄수도 있지만 한번에 제거해주기 위해서는 아래의 함수 사용 #만약 결측치 행이 100개가 있다면 너무 불편하므로 na.omit이란 함수를 대신 사용 #이 함수는 각각의 행에 하나라도 결측치가 있다면 그 행을 전부 제외해주고 출력해준다 #단 데이터손실이 많기 때문에 잘 쓰지는 않음 na.omit(df) 알아서 결측치를 제외해주고 연산을 해주는 na.rm 옵션 사용 #알아서 결측치를 제외하고 연산을 해주는 na.rm..
데이터로 그래프를 그릴 때 아래의 순서를 참고한다. 1. 배경설정 - 축 2. 그래프 추가 - 막대, 점, 선 등 3. 설정 추가 - 막대 컬러, 축 범위 설정 등 약간 stack같이 순차적으로 쌓아가는 것이 Flutter의 Stact Widget같이 이해하면 좋을 것 같다. R에서 그래프를 그릴때 2가지 함수를 사용하는데 함수들은 기능이 아래와 같다. qplot(): 전처리단계, 간단한 문법과 기능을 통한 데이터확인용 ggplot(): 색, 크기, 폰트 등 다양한 기능을 조작 가능한 최종 보고용 산점도 만들어보기 #aes로 일단 축을 먼저 설정 #이 코드를 실행하면 배경이 먼저 만들어진다 ggplot(data = mpg, aes(x = displ, y = hwy)) # geom_point를 붙여서 점을..
예시 데이터를 불러오기 위해 라이브러리 ggplot2을 불러오고 그 안의 mpg데이터를 불러오자 library(ggplot2) mpg 데이터 column에 접근하기 위해서 $표시를 사용하고 그 column값이 iterable이면 아래와 같이 연산이 가능하다. mpg$total = 20, "B", "C")) 만들어진 pass or fail데이터 개수를 세보려면 아래의 코드 table을 사용한다. table(mpg$test) #fail pass #106 128
데이터 분석에 가장 기본이 되는 데이터프레임 생성하는 법 a