728x90
반응형
R을 사용하여 가설검정하기 - T 테스트
1. 가설 세우기 예시데이터를 불러온다. library(dplyr) library(ggplot2) r
- R - 통계 언어
- · 2022. 6. 1.
728x90
반응형
Decision Tree 정의 Decision Tree란 직역하면 의사결정나무라는 뜻이다. 여러 테스트 결과를 놓고 예, 아니오로 데이터를 결정한다. Decision Tree의 모형을 노드라고 표현하며 상위에 있는 모형을 부모노드, 부모노드와 이어져 있는 의사나무결정을 자식노드라고 한다. 가장 좋은 Decision Tree의 모형은 최소한의 노드 수. 즉 가장 작은 나무 모양 Decision Tree의 단점은 데이터를 여러 분류의 카테고리로 나누어 적용한 값을 예측하기 때문에 overfitting이 일어날 가능성이 높다. 즉, Decision Tree의 모델을 다른 데이터에 적용할 때 일반화가 어렵다는 단점이 있다. Random Forest 정의 이런 Decision Tree의 단점을 보완한 것이 랜덤포..
정의 개념을 알기위해 선형회귀분석과 Logistic 회귀분석의 차이점을 알아보자 선형회귀분석은 종속변수가 어떤 값이라도 가질 수 있지만 연속형 숫자여야만 하고 (int값) Logistic 회귀분석은 종속변수에 제한값이 있지만 (가질 수 없는 값이 존재) 종속변수가 범주형 자료여도 적용이 가능하다. 범주형 자료와 연속형 자료의 차이점은 아래의 블로그를 참조 [통계] 자료의 형태 - 범주형 자료, 수치형 자료, 척도 통계 분석을 시작하기 전에 자료의 형태를 파악하는 것은 필수적입니다. 수집된 자료는 크게 범주형 자료와... blog.naver.com 위를 표로 설명하면 아래와 같다. Logistic 회귀분석의 종류 종류에는 여러가지가 있지만 그 중 대표적인 Boosting Logistic Regression..
데이터셋이 30개가 넘을 때 검정하는 방법이다. 30개가 넘기 때문에 정규분포를 따르는 것이 전제조건화 되어있다. 따라서 가설을 세우고 Z-test를 한 후에 결론을 도출한다 1. 가설검정 귀무가설: a그룹의 평균 키가 b평균키와 차이가 없다 대립가설: b그룹의 평균 키가 a그룹 평균키보다 크다 r
대응표본 t 검정이란 특정한 사람이 두 그룹에 모두 속하는 경우 예시로 중간고사와 기말고사의 시험 결과를 본 학생이 있을 수 있다. 두 결과가 모두 같은 사람에게서 나왔기 때문 before, after 개념 t검정과의 차이는 대응표본 t검정같은 경우 before, after의 차이를 계산한다 그리고 t검정에는 분산 동질성 검사가 없고 정규성 검정이후에 바로 T test를 시행하여 결론을 낸다 그 이유는 집단간의 차이를 구하기 때문에 각각의 집단의 분포를 볼 필요가 없다. 만약 집단이 2개 이상이라면 분산 동질성 검사를 하여 분산이 동일한지 체크하여야 한다. 1. 가설 설정 r mean(a) [1] 10500 > mean(b) [1] 23800 위의 데이터를 토대로 귀무가설은 after와 before의 평..
1. 가설 세우기 예시데이터를 불러온다. library(dplyr) library(ggplot2) r
이상치, 극단치란 다른 값의 패턴에 벗어난 값. 즉 분포에 비해 값이 비상식적으로 작거나 큰 값을 말한다. 이 값들에는 두가지 경우가 있는데 1) 비상식적인 값이나 2)극단적으로 작거나 큰 값이다 1) 비상식적인 값은 결측치로 취급하여 제외하고 2)극단적으로 작은 값이나 큰 값은 전체 분포 데이터의 정상범위내로 대체하여 입력한다 1) 비상식적인 값 제거 방법 결측치를 추가하고 제거하는 순서의 코드는 아래와 같다. library(dplyr) #데이터프레임 예시 outlier % group_by(gender) %>% summarise(mean_scr = mean(score)) 2) 극단치의 값을 변경한 후 산술 방법 일단 극단치를 찾기 위해 boxplot을 사용해서 극단치의 값을 찾는다. #예시 데이터 할당..
결측치 찾기 데이터프레임내의 결측치는 NA로 배정된다. 데이터프레임을 만들 때 결측치를 넣으려면 NA를 입력하고 쌍따옴표를 생략한다. df % filter(!is.na(score)) #연산자도 사용가능 df %>% filter(!is.na(score) & !is.na(gender)) 일일이 다 해줄수도 있지만 한번에 제거해주기 위해서는 아래의 함수 사용 #만약 결측치 행이 100개가 있다면 너무 불편하므로 na.omit이란 함수를 대신 사용 #이 함수는 각각의 행에 하나라도 결측치가 있다면 그 행을 전부 제외해주고 출력해준다 #단 데이터손실이 많기 때문에 잘 쓰지는 않음 na.omit(df) 알아서 결측치를 제외해주고 연산을 해주는 na.rm 옵션 사용 #알아서 결측치를 제외하고 연산을 해주는 na.rm..
데이터로 그래프를 그릴 때 아래의 순서를 참고한다. 1. 배경설정 - 축 2. 그래프 추가 - 막대, 점, 선 등 3. 설정 추가 - 막대 컬러, 축 범위 설정 등 약간 stack같이 순차적으로 쌓아가는 것이 Flutter의 Stact Widget같이 이해하면 좋을 것 같다. R에서 그래프를 그릴때 2가지 함수를 사용하는데 함수들은 기능이 아래와 같다. qplot(): 전처리단계, 간단한 문법과 기능을 통한 데이터확인용 ggplot(): 색, 크기, 폰트 등 다양한 기능을 조작 가능한 최종 보고용 산점도 만들어보기 #aes로 일단 축을 먼저 설정 #이 코드를 실행하면 배경이 먼저 만들어진다 ggplot(data = mpg, aes(x = displ, y = hwy)) # geom_point를 붙여서 점을..