728x90
R을 사용하여 가설검정하기 - T 테스트
1. 가설 세우기 예시데이터를 불러온다. library(dplyr) library(ggplot2) r
- R - 통계 언어
- · 2022. 6. 1.
R 데이터프레임 만들기, 엑셀파일 불러오기, 패키지안의 특정 데이터 data.frame화
데이터 분석에 가장 기본이 되는 데이터프레임 생성하는 법 a
- R - 통계 언어
- · 2022. 5. 30.
728x90
대응표본 t 검정이란 특정한 사람이 두 그룹에 모두 속하는 경우 예시로 중간고사와 기말고사의 시험 결과를 본 학생이 있을 수 있다. 두 결과가 모두 같은 사람에게서 나왔기 때문 before, after 개념 t검정과의 차이는 대응표본 t검정같은 경우 before, after의 차이를 계산한다 그리고 t검정에는 분산 동질성 검사가 없고 정규성 검정이후에 바로 T test를 시행하여 결론을 낸다 그 이유는 집단간의 차이를 구하기 때문에 각각의 집단의 분포를 볼 필요가 없다. 만약 집단이 2개 이상이라면 분산 동질성 검사를 하여 분산이 동일한지 체크하여야 한다. 1. 가설 설정 r mean(a) [1] 10500 > mean(b) [1] 23800 위의 데이터를 토대로 귀무가설은 after와 before의 평..
1. 가설 세우기 예시데이터를 불러온다. library(dplyr) library(ggplot2) r
이상치, 극단치란 다른 값의 패턴에 벗어난 값. 즉 분포에 비해 값이 비상식적으로 작거나 큰 값을 말한다. 이 값들에는 두가지 경우가 있는데 1) 비상식적인 값이나 2)극단적으로 작거나 큰 값이다 1) 비상식적인 값은 결측치로 취급하여 제외하고 2)극단적으로 작은 값이나 큰 값은 전체 분포 데이터의 정상범위내로 대체하여 입력한다 1) 비상식적인 값 제거 방법 결측치를 추가하고 제거하는 순서의 코드는 아래와 같다. library(dplyr) #데이터프레임 예시 outlier % group_by(gender) %>% summarise(mean_scr = mean(score)) 2) 극단치의 값을 변경한 후 산술 방법 일단 극단치를 찾기 위해 boxplot을 사용해서 극단치의 값을 찾는다. #예시 데이터 할당..
결측치 찾기 데이터프레임내의 결측치는 NA로 배정된다. 데이터프레임을 만들 때 결측치를 넣으려면 NA를 입력하고 쌍따옴표를 생략한다. df % filter(!is.na(score)) #연산자도 사용가능 df %>% filter(!is.na(score) & !is.na(gender)) 일일이 다 해줄수도 있지만 한번에 제거해주기 위해서는 아래의 함수 사용 #만약 결측치 행이 100개가 있다면 너무 불편하므로 na.omit이란 함수를 대신 사용 #이 함수는 각각의 행에 하나라도 결측치가 있다면 그 행을 전부 제외해주고 출력해준다 #단 데이터손실이 많기 때문에 잘 쓰지는 않음 na.omit(df) 알아서 결측치를 제외해주고 연산을 해주는 na.rm 옵션 사용 #알아서 결측치를 제외하고 연산을 해주는 na.rm..
데이터로 그래프를 그릴 때 아래의 순서를 참고한다. 1. 배경설정 - 축 2. 그래프 추가 - 막대, 점, 선 등 3. 설정 추가 - 막대 컬러, 축 범위 설정 등 약간 stack같이 순차적으로 쌓아가는 것이 Flutter의 Stact Widget같이 이해하면 좋을 것 같다. R에서 그래프를 그릴때 2가지 함수를 사용하는데 함수들은 기능이 아래와 같다. qplot(): 전처리단계, 간단한 문법과 기능을 통한 데이터확인용 ggplot(): 색, 크기, 폰트 등 다양한 기능을 조작 가능한 최종 보고용 산점도 만들어보기 #aes로 일단 축을 먼저 설정 #이 코드를 실행하면 배경이 먼저 만들어진다 ggplot(data = mpg, aes(x = displ, y = hwy)) # geom_point를 붙여서 점을..
데이터 전처리 필수 library인 dplyr의 내장 함수들 filter() #행 추출 select() #열(변수) 추출 arrange() #정렬 - sort mutate() #변수 추가 summarise() #통계치 산출 group_by() #집단별로 나누기 left_join() #데이터 합치기 - left니까 열 bind_rows() #데이터 합치기 - 행 위의 함수들 사용법 1. filter csv 파일을 하나 가져왔다고 가정을 하고 #class 가 1인 열만 불러오기 d %>% filter(class == 1) #class가 1이 아닌 열만 불러오기 d %>% filter(class != 1) # & = and 연산자 d %>% filter(math > 100 | english > 60) # | ..
예시 데이터를 불러오기 위해 라이브러리 ggplot2을 불러오고 그 안의 mpg데이터를 불러오자 library(ggplot2) mpg 데이터 column에 접근하기 위해서 $표시를 사용하고 그 column값이 iterable이면 아래와 같이 연산이 가능하다. mpg$total = 20, "B", "C")) 만들어진 pass or fail데이터 개수를 세보려면 아래의 코드 table을 사용한다. table(mpg$test) #fail pass #106 128
데이터 분석에 가장 기본이 되는 데이터프레임 생성하는 법 a