R 데이터 내 이상치, 극단치 제거하는 법
이상치, 극단치란 다른 값의 패턴에 벗어난 값. 즉 분포에 비해 값이 비상식적으로 작거나 큰 값을 말한다. 이 값들에는 두가지 경우가 있는데 1) 비상식적인 값이나 2)극단적으로 작거나 큰 값이다 1) 비상식적인 값은 결측치로 취급하여 제외하고 2)극단적으로 작은 값이나 큰 값은 전체 분포 데이터의 정상범위내로 대체하여 입력한다 1) 비상식적인 값 제거 방법 결측치를 추가하고 제거하는 순서의 코드는 아래와 같다. library(dplyr) #데이터프레임 예시 outlier % group_by(gender) %>% summarise(mean_scr = mean(score)) 2) 극단치의 값을 변경한 후 산술 방법 일단 극단치를 찾기 위해 boxplot을 사용해서 극단치의 값을 찾는다. #예시 데이터 할당..