본문 바로가기
Programming/R

R graphics - density, Q-Q, boxplot

by 휴/Hue 2022. 7. 29.

1. Density

vcd 패키지 설치: 범주형 변수들의 시각화와 분석을 위한 툴이다.

vcd 패키지 안에 Arthritis(관절염?) 데이터셋이 있다.

density: 확률밀도, 전체 합은 1

age를 밀도로 묶고 plot그래프를 그렸다. >> 어떤 나이대에 데이터가 밀접해있는 지 알 수 있다.

library('vcd')
summary(Arthritis)
head(Arthritis)

with(Arthritis, plot(density(Age)))

2. 밀도 그래프 그리기

먼저 mpg.highway 변수에 대한 값들을 히스토그램으로 표현한다.

probability = t : 확률밀도로 표시(y축)

밀도 라인을 넣으려면 lines(density(mpg.highway))

#밀도 그래프
with(Cars93, 
     hist(MPG.highway, probability=T, 
     main='MPG in Highway', xlab='MPG in highway'))
with(Cars93, lines(density(MPG.highway), col='yellowgreen', lwd='2'))

3. Q-Q

Quantile-Quantile 그림은 자료가 특정 분포를 따르는지 확인하기 위해 사용한다.

y = x 직선상에 데이터들이 위치하면 특정 분포를 따른다고 해석할 수 있다.

 

turn.circle 컬럼 상의 데이터들이 정규분포를 따르는 지 알기위해 q-q그림을 그려본다.

qqnorm은 데이터들을 작은 원으로 표시하기 때문에 qqline을 그려서 비교해 볼 수 있다.

#Q-Q그림 - 4분위수랑 다른 개념임
qqnorm(Cars93$Turn.circle, main='Q-Q plot of Turn.circle \n (U-turn space)')
qqline(Cars93$Turn.circle, col='orange', lwd='2')

4. Box plot (상자그림)

4분위수를 그래프로 표현해서 데이터의 분포정도를 알 수 있다.

각 분위수는 전체의 25%까지 해당되는 값이다.

그래서 Q2는 전체의 50%이기 때문에 중심값(median)을 나타낸다.

Q3-Q1값은 전체 데이터의 절반이다. = IQR(interquartile range)

 

범위를 벗어나는 값은 작은 원으로 표시한다.

 

'Programming > R' 카테고리의 다른 글

Jupyter에서 R 사용하기  (0) 2022.10.28
R graphics - pie chart  (0) 2022.07.27
R graphics - 막대그림(barplot)  (0) 2022.07.26