Programming/Python

Python을 이용한 기초통계

Jonghee Jeon 2020. 5. 3. 17:05

통계학(統計學, 영어: statistics)은 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야이다. 근대 과학으로서의 통계학은 19세기 중반 벨기에 케틀레가 독일의 "국상학(國狀學, Staatenkunde, 넓은 의미의 국가학)"과 영국의 "정치 산술(Political Arithmetic, 정치 사회에 대한 수량적 연구 방법)"을 자연과학의 "확률 이론"과 결합하여, 수립한 학문에서 발전되었다.

 

추론 통계

추론 통계는 기술통계로 어떤 모집단에서 구한 표본정보를 가지고 그 모집단의 특성 및 가능성 등을 추론해내는 통계적 방법이다. 보통 수집된 자료는 어떻게 분석해야 할지 미리 정해져 있기도 하지만, 대부분 획득한 자료(모집단)을 가지고 여러 그래프를 그려보는 와중에 또다른 별개의 분석방법을 추가로 채택할 필요성을 느끼게 된다. 이러한 모집단에 대한 전체적 조감을 해보고 또다른 분석방향을 모색해 보는 과정에 해당한다.[2] 추론 통계는 바탕인 기술 통계량이 있어야 한다. 이 추론 통계를 하는 이유는 모든 사람을 대상으로 검사를 하는 것은 비합리적이고 대규모 집단을 가지고 연구하는 것이 소수의 집단을 가지고 연구하는 것보다 훨씬 경제적이고 효율적이기 때문이다. 추론 통계는 기술 통계량의 정확성을 유지하는 작업으로서 사용한다. 보통 일반적인 추론은 실험 결과가 기존의 방식, 또는 다른 품종간 비교 등에서 차이점이 유의한지를 검증하는 것이다.

기술 통계

기술(記述) 통계는 측정이나 실험에서 수집한 자료의 정리, 표현, 요약, 해석 등을 통해 자료의 특성을 규명하는 통계적 방법이다. 기술통계에는 분석방향에 따라 여러가지가 있다. 단순한 평균 분산 등의 상투적인 분석 이외에, 모집단에서 어떤인자들이 있는지 뽑아내보는 인자분석과, 특정표본이 어떤모집단에 속하는지(원 모집단을 어떻게 여러 집단으로 나눠야 하는지) 판단하는 판별분석, 두 인자간의 상호관계에 대한 정준상관분석, 인자들의 숫자를 줄여 단순화 하는 주성분분석, 그 외 군집분석 등, 다양한 분석방법이 존재한다.

 

기본 용어

  • 모집단(population)은 관측 대상이 되는 전체 집단이다. 조사의 대상이 되는 자료 전체이다.[5] 모집단과 관련해서 기호는 그리스문자를 사용하는것이 관례이다.
  • 표본(sample)은 모 집단에서 일부만 조사한 것이다. 모집단에서 추출된 자료의 집합이다. 표본과 관련해서 기호로는 영어 알파벳이 관례로 사용된다.
  • 대푯값(representative value)은 어떤 데이터를 대표하는 값이다. 평균, 중앙값, 최빈값이 있다.
  • 평균(mean)은 데이터를 모두 더한 후 데이터의 개수로 나눈 값이다.
  • 중앙값(median)은 전체 데이터 중 가운데에 있는 수이다. 직원이 100명인 회사에서 직원들 연봉 평균은 5천만원인데 사장의 연봉이 100억인 경우, 회사 전체의 연봉 평균은 1억 4,851만원이 된다. 이처럼 극단적인 값이 있는 경우 중앙값이 평균값보다 유용하다.
  • 최빈값(mode)은 가장 자주 나오는 값이다.
  • 기댓값(expected value)은 통계에서는 평균과 같다고 생각하면 된다. 가능한 값마다 확률을 곱해서 모두 더한 것이다.
  • 산포도(degree of scattering)는 자료가 흩어져 있는 정도를 나타낸다. 범위, 분산, 표준편차 등.[2]
  • 편차(deviation)는 관측값에서 평균 또는 중앙값을 뺀 것이다. 즉, 자료값들이 특정값으로부터 떨어진 정도를 나타내는 수치이다.
  • 분산(variance)은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.
  • 표준 편차(standard deviation)는 분산을 제곱근한 것이다. 제곱해서 값이 뻥튀기 된 분산을 제곱근해서 다시 원래 크기로 만들어준다.
  • 절대 편차(absolute deviation)는 관측값에서 평균 또는 중앙값을 빼고, 그 차이에 절대값을 취하고 그 값들의 대푯값을 구한 것이다.
  • 범위: 가장 큰 측정값에서 가장 작은 측정값을 뺀 값이다.
  • 모평균(population mean) μ는 모집단 평균이다. 모두 더한 후 전체 데이터 수 n으로 나눈다. 확률 변수 기댓값이다.
  • 표본 평균(sample mean) {\displaystyle {\bar {X}}} 는 표본의 평균이다. 모두 더한 후 n으로 나눈다.
  • 모분산(population variance) σ2은 모집단의 분산이다. 관측값에서 모평균을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 n으로 나눈 것이다.
  • 표본분산(sample variance) s2은 표본의 분산이다. 관측값에서 표본평균을 빼고 제곱한 값을 모두 더한 것을 n-1로 나눈 것이다.
  • 모표준편차(population standard deviation) σ는 모집단 표준편차이다. 모분산 σ2에 제곱근을 씌워서 구한다.
  • 표본표준편차(sample standard deviation) s는 표본 표준편차이다. 표본분산 s2에 제곱근을 씌워서 구한다.
  • 상관은 두 개의 변량이 어느 정도 규칙적으로 동시에 변화되어 가는 성질이다. 모집단의 상관은 ρ , 표본의 상관은 r 을 기호로 사용한다.
  • 평균 절대 편차(average absolute deviation 또는 mean absolute deviation)는 관측값에서 평균을 빼고, 그 차이값에 절대값을 취하고, 그 값들을 모두 더하여 전체 데이터 개수로 나눠준 것이다. 절대값 편차의 평균이라고 생각하면 된다.
  • 중앙값 절대 편차(median absolute deviation)는 관측값에서 중앙값을 빼고, 그 차이에 절대값을 취한 값들의 중앙값을 구한다.
  • 최소 절대 편차(least absolute deviation)는 회귀 분석(regression analysis)에 사용된다.
  • 변인 (variable): 변수라고도 부르며, 연구의 대상이 되고 있는 일련의 개체를 말한다.
  • 독립 변인: 다른 변인에게 작용하거나 다른 변인을 예언하거나 설명해 주는 변인. 실험연구의 경우는 독립변인은 실험자에 의하여 임의로 통제되고 조작된다. 따라서 실험변인(experimental variable) 또는 처치변인(處置變因, treatment variable)이라고도 한다.
  • 종속 변인: 독립변인의 조작결과(操作結果)에 의존하며 이의 효과를 판단하는 준거가 되는 변인.

실험의 기본적인 형태는 어떤 변인이 다른 어떤 변인에 어떠한 영향을 미치는지를 알아보고자 한다.

  • 매개 변인: 종속변인에 영향을 주는 독립변인 이외의 변인으로서 연구에 통제되어야 할 변인
  • 양적 변인: 양의 크기를 나타내기 위하여 수량으로 표시돠는 변인
  • 질적 변인: 변인이 가지고 있는 속성을 수량화할 수 없는 변인
  • 연속 변인: 주어진 범위 내에서는 어떤 값도 가질 수 있는 변인
  • 비연속 변인: 특정 수치만을 가진 변인
  • 유의 수준(significance level): 보통 α로 표시한다. 95%의 신뢰도를 기준으로 하면 1-0.95인 0.05가 유의 수준 값이다.
  • 신뢰 구간(confidence interval, CI): 100(1-α)%의 신뢰 구간
  • 신뢰 수준(confidence interval level) 또는 신뢰도(reliability): 1-α나 100(1-α)%로 적는다.
  • p-값(p-value, probability value) 또는 유의 확률(significance probability, asymptotic significance): 귀무 가설 H0를 기각할 수 있는 최소한의 유의 수준이다.
  • 임계 값(critical value, threshold value): 검정 통계량의 분포에서 유의 수준 α에 해당하는 선 위의 값이다.

https://ko.wikipedia.org/wiki/%ED%86%B5%EA%B3%84%ED%95%99

 

통계학 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 통계학(統計學, 영어: statistics)은 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야이다. 근대 과학으로서의 통계학은 19세기 중반 벨기에의 케틀레가 독일의 "국상학(國狀學, Staatenkunde, 넓은 의미의 국가학)"과 영국의 "정치 산술(Political Arithmetic, 정치 사회에 대한 수량적 연구 방법)"을 자연과학의 "확률 이론"과 결

ko.wikipedia.org

 

import numpy as np

len(x) # 데이터의 개수
np.mean(x) # 평균
np.var(x) # 분산
np.std(x) # 표준 편차
np.max(x) # 최대값
np.min(x) # 최소값
np.median(x) # 중앙값
np.percentile(x, 25) # 1사분위 수
np.percentile(x, 50) # 2사분위 수 = 중앙값
np.percentile(x, 75) # 3사분위 수