관리 메뉴

Hee'World

데이터다루기 본문

Programming/R

데이터다루기

Jonghee Jeon 2015. 5. 2. 21:15

데이터다루기


수치 변수파악

str() - 데이터 프레임의 구조나 벡터나 리스트를 포함한 R 데이터 구조를 표시하는 방법을 제공.


> str(iris)

'data.frame': 150 obs. of  5 variables:

 $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...

 $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...

 $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...

 $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...

 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...


150obs는 150개의 관측이나 자료를 포함하고 

 5 variables는 5개의 속성이 있다는 것

변수 뒤에 num은 숫자 타입, (int는 정수타입, chr은 문자타입)


중심 경향 측정 : 평균과 중앙값
데이터의 퍼짐 측정 : 사분위수와 5개 수의 요약
1. 최소
2. 1사분위수
3. 중앙값 또는, 2사분위수
4. 3사분위수
5. 최대값


summary() - 일반적인 요약 통계를 보여준다.

> summary(iris)

  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width          Species  

 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100   setosa    :50  

 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300   versicolor:50  

 Median :5.800   Median :3.000   Median :4.350   Median :1.300   virginica :50  

 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199                  

 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800                  

 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500                  


range() -> 값의 최대와 최솟값을 반환
diff() -> 값의 차이를 반환
IQR() -> Q1과 Q3의 차를 반환
quantile() -> 5개 수 요약을 반환

수치 변환 : boxplot
boxplot() 
수치 변환 시각화 : histogram
히스토그램은 수치 변수의 퍼짐을 시각적으로 나타내는 방법

수치 데이터의 이해 : 균등 분포와 정규 분포
중앙 경향과 퍼짐을 나타내는 히스토그램, 박스플롯, 통걔는 번수 값의 분포를 살펴볼수 있다. 변수의 분포는 어떻게 변수가 여러 가지 범위 안에 있는지를 묘사한다.

퍼짐 측정 : 분산과 표준 편차

범주형 변수 파악
중심 경향 측정 : 최빈값

변수 사이 관계 살펴보기
관계 시각화 : 산포도
plot(x,y,main,xlab,ylab)
관계 살펴보기 : 이원 교차표
gmodels패키지
usedcars$conservative <- usedcars$color %in% c("Black","Gray","Silver","White")
%in% -> 연산자 왼쪽에 있는 벡터의 각 값이 오른쪽에 벡터에서 값을 찾을 수 있는지에 따라 TRUE, FALSE를 반환


 - R을 활용한 머신러닝 - 



'Programming > R' 카테고리의 다른 글

kNN 알고리즘  (0) 2015.05.03
머신 러닝의 기본단계  (0) 2015.05.03
[R 머신러닝] 데이터에 맞는 알고리즘  (0) 2015.05.02
가설과 검정  (0) 2015.03.28
R의 기술통계 명령어  (0) 2015.03.28
Comments