1. Density
vcd 패키지 설치: 범주형 변수들의 시각화와 분석을 위한 툴이다.
vcd 패키지 안에 Arthritis(관절염?) 데이터셋이 있다.
density: 확률밀도, 전체 합은 1
age를 밀도로 묶고 plot그래프를 그렸다. >> 어떤 나이대에 데이터가 밀접해있는 지 알 수 있다.
library('vcd')
summary(Arthritis)
head(Arthritis)
with(Arthritis, plot(density(Age)))
2. 밀도 그래프 그리기
먼저 mpg.highway 변수에 대한 값들을 히스토그램으로 표현한다.
probability = t : 확률밀도로 표시(y축)
밀도 라인을 넣으려면 lines(density(mpg.highway))
#밀도 그래프
with(Cars93,
hist(MPG.highway, probability=T,
main='MPG in Highway', xlab='MPG in highway'))
with(Cars93, lines(density(MPG.highway), col='yellowgreen', lwd='2'))
3. Q-Q
Quantile-Quantile 그림은 자료가 특정 분포를 따르는지 확인하기 위해 사용한다.
y = x 직선상에 데이터들이 위치하면 특정 분포를 따른다고 해석할 수 있다.
turn.circle 컬럼 상의 데이터들이 정규분포를 따르는 지 알기위해 q-q그림을 그려본다.
qqnorm은 데이터들을 작은 원으로 표시하기 때문에 qqline을 그려서 비교해 볼 수 있다.
#Q-Q그림 - 4분위수랑 다른 개념임
qqnorm(Cars93$Turn.circle, main='Q-Q plot of Turn.circle \n (U-turn space)')
qqline(Cars93$Turn.circle, col='orange', lwd='2')
4. Box plot (상자그림)
4분위수를 그래프로 표현해서 데이터의 분포정도를 알 수 있다.
각 분위수는 전체의 25%까지 해당되는 값이다.
그래서 Q2는 전체의 50%이기 때문에 중심값(median)을 나타낸다.
Q3-Q1값은 전체 데이터의 절반이다. = IQR(interquartile range)
범위를 벗어나는 값은 작은 원으로 표시한다.
'Programming > R' 카테고리의 다른 글
Jupyter에서 R 사용하기 (0) | 2022.10.28 |
---|---|
R graphics - pie chart (0) | 2022.07.27 |
R graphics - 막대그림(barplot) (0) | 2022.07.26 |