R - 통계 언어

R 시작해보기 - 처음 세팅부터 package설치, library 불러오기까지

티멀 2022. 5. 30. 20:13
728x90
반응형

1. 개발환경 구축

R을 사용하기 위해서는 파이썬이나 자바와 동일하게 R언어와 인터프리터를 설치해야 한다.

아래 두개의 파일을 설치하는데 모든 설정은 default로 전부 놔두고 확인만 클릭해서 설치

 

윈도우, mac인지 본인 컴퓨터 잘 맞춰서 다운받자

R언어의 버전은 제일 최신으로 받아서 설치

 

The Comprehensive R Archive Network

 

cran.yu.ac.kr

 

RStudio

Take control of your R code

www.rstudio.com

 

 

2. 패키지 다운로드 및 실행

다 다운받고 Rstudio를 켜서 빈 코드 입력창에 아래의 패키지를 다운.

R코드의 실행은 Ctrl + Enter를 치면 순차적으로 실행된다.

install.packages("dplyr")
install.packages("ggplot2")

 

다운이 다 되었다면 아래의 코드를 입력해서 잘 받아졌는지 확인하자

library(dplyr)
library(ggplot2)

 

다 설치를 했다면 아래의 데이터를 불러오는 코드를 작성하여 실행한다.

코드주석에 나와있는 대로 해당 코드의 사용법을 익히면 된다.

만약 R이 처음이고 행열의 개념이 어렵다면 파이썬의 numpy, pandas 사용법을 먼저 익히고 오는 것을 추천

#데이터의 head를 추출
#즉, 데이터를 콘솔에 띄운다.
head(mpg)

#데이터행의 속성 설명.
#chr, num, int
str(mpg)

#데이터의 행열 표시
dim(mpg)

#모든 데이터의 요약 통계량을 구한다. 
#pandas DataFrame의 .describe와 같은 개념
summary(mpg)

#콘솔말고 화면에 DataFrame, 엑셀식으로 직접 볼 수 있음
View(mpg)

 

이제 R을 사용할 준비가 끝났으니 주어진 mpg데이터를 사용해서 연비(hwy) 좋은 제조사 순으로 내림차순으로 정렬하는 코드를 입력해보자.

코드의 해석은 주석과 같다.

#회사별 연비 높은순 정렬
mpg %>%
  #group_by로 제조사별 그룹화 시킨 후
  group_by(manufacturer) %>%
  #연비의 평균값을 정리해서
  summarise(mean.hwy=mean(hwy)) %>%
  #desc, 즉 내림차 순으로 hwy, 연비를 정렬하여 출력
  arrange(desc(mean.hwy))
mpg %>%
  #필터를 ford라는 회사로만 지정
  filter(manufacturer=="ford") %>%
  #model을 그룹으로 묶어서 모델명 연비 조회
  group_by(model) %>%
  #모델명 연비 내림차순 출력
  arrange(desc(hwy))

 

아래와 같은 회귀분석 코드를 입력하면 아래와 같이 결과물이 출력된다.

#회귀분석, 배기량이 연비에 미치는 영향 회귀분석
#l은 소문자 엘
lm.mpg <- lm(data=mpg, hwy ~ displ)
summary(lm.mpg)

Coefficients:

Estimate Std. Error t value Pr(>|t|)    
(Intercept)  35.6977     0.7204   49.55   <2e-16 ***
displ        -3.5306     0.1945  -18.15   <2e-16 ***

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.836 on 232 degrees of freedom
Multiple R-squared:  0.5868, Adjusted R-squared:  0.585 

 

 

displ의 의미는 기울기이고 한 단위가 변화할 때마다 -3.5306씩 변화한다는 의미.

따라서 이 출력의 의미는 배기량이 1이 줄어들때마다 고속도로 연비가 3.5씩 감소한다는 의미이다.

 

Pr(>|t|)는 Probabililty, 즉 이 회귀분석식이 타당한지 가능성을 보여주는 지표인데 이 회귀분석에는 2e-16, 즉 0.00000...이 16개 붙어있다고 볼 수 있다. 

통계 검증은 5% 미만인 분석이 확률적으로 유의하다 고 볼 수 있으므로, 5%보다 훨신 작은 0.000...02이 나온 두 변수의 관계가 확률적으로 유의하다고 결론을 내릴 수 있다.

 

배기량이 고속도로 연비의 몇%를 설명해주는 지표는 Multiple R-squared인데 여기서의 결과물은 0.5868, 즉 배기량이 고속도로 연비의 58.7%를 설명해준다고 해석할 수 있다.

 

3. 그래프 만들기 - 시각화하기

위의 설명을 봐도 글로 설명되있기 때문에 도통 보기가 싫을 수 있다.

위의 설명을 보다 시각적으로 표현하기 위해서 아래의 코드를 입력해서 배기량과 연비의 산점도를 만들어보자

qplot(data = mpg, x=displ, y=hwy)

위의 코드대로 실행하면 위의 산점도가 출력이된다.

 

보다 자세한 내용과 코드 사용법은 계속해서 업데이트 예정...

728x90
반응형