데이터다루기

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

Hee'World

데이터다루기 본문

Programming/R

데이터다루기

Jonghee Jeon 2015. 5. 2. 21:15

데이터다루기

수치 변수파악

str() - 데이터 프레임의 구조나 벡터나 리스트를 포함한 R 데이터 구조를 표시하는 방법을 제공.

> str(iris)

'data.frame': 150 obs. of 5 variables:

$ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...

$ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...

$ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...

$ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...

$ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

150obs는 150개의 관측이나 자료를 포함하고

5 variables는 5개의 속성이 있다는 것

변수 뒤에 num은 숫자 타입, (int는 정수타입, chr은 문자타입)

중심 경향 측정 : 평균과 중앙값

데이터의 퍼짐 측정 : 사분위수와 5개 수의 요약

1. 최소

2. 1사분위수

3. 중앙값 또는, 2사분위수

4. 3사분위수

5. 최대값

summary() - 일반적인 요약 통계를 보여준다.

> summary(iris)

Sepal.Length Sepal.Width Petal.Length Petal.Width Species

Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :50

1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 versicolor:50

Median :5.800 Median :3.000 Median :4.350 Median :1.300 virginica :50

Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199

3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800

Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500

range() -> 값의 최대와 최솟값을 반환

diff() -> 값의 차이를 반환

IQR() -> Q1과 Q3의 차를 반환

quantile() -> 5개 수 요약을 반환

수치 변환 : boxplot

boxplot()

수치 변환 시각화 : histogram

히스토그램은 수치 변수의 퍼짐을 시각적으로 나타내는 방법

수치 데이터의 이해 : 균등 분포와 정규 분포

중앙 경향과 퍼짐을 나타내는 히스토그램, 박스플롯, 통걔는 번수 값의 분포를 살펴볼수 있다. 변수의 분포는 어떻게 변수가 여러 가지 범위 안에 있는지를 묘사한다.

퍼짐 측정 : 분산과 표준 편차

범주형 변수 파악

중심 경향 측정 : 최빈값

변수 사이 관계 살펴보기

관계 시각화 : 산포도

plot(x,y,main,xlab,ylab)

관계 살펴보기 : 이원 교차표

gmodels패키지

usedcars$conservative <- usedcars$color %in% c("Black","Gray","Silver","White")

%in% -> 연산자 왼쪽에 있는 벡터의 각 값이 오른쪽에 벡터에서 값을 찾을 수 있는지에 따라 TRUE, FALSE를 반환

- R을 활용한 머신러닝 -

저작자표시 (새창열림)

'Programming > R' 카테고리의 다른 글

kNN 알고리즘 (0)	2015.05.03
머신 러닝의 기본단계 (0)	2015.05.03
[R 머신러닝] 데이터에 맞는 알고리즘 (0)	2015.05.02
가설과 검정 (0)	2015.03.28
R의 기술통계 명령어 (0)	2015.03.28

'Programming/R' Related Articles

Comments

Hee'World

데이터다루기 본문

데이터다루기

'Programming > R' 카테고리의 다른 글

티스토리툴바