통계 용어 간단 정리
모집단(Population 또는 Universe) - 연구와 조사 또는 분석이 이루어지는 집단, 관심 대상 전체를 이르는 말
표본(Sample) - 일반적으로 모집단 전부를 수집하여 분석 할 수 없으므로 일부분을 추출하여 분석 하는 대상. 최근에는 빅데이터를 이용하여 모집단에 가까운 데이터를 수집하여 분석 할 수 있게 되었음
기술통계(Descriptive Statistics) - 수집한 데이터를 정리, 요약, 해석 등을 통해 데이터의 특성과 속성을 파악하는 방법
추론통계(Inferential statistics) - 표본으로 부터 통계량 등의 값을 계산하여 모집단의 특성과 속성을 파악하는 방법
중심극한정리 - 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진
다는 정리. 수학자 피에르시몽 라플라스는 1774년에서 1786년 사이의 일련의 논문에서 이러한 정리의 발견과 증명을 시도
https://ko.wikipedia.org/wiki/%EC%A4%91%EC%8B%AC_%EA%B7%B9%ED%95%9C_%EC%A0%95%EB%A6%AC
자유도(degrees of freedom) - 통계적 추정을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말한다. 크기가 n인 표본의 관측값의 자유도는 n-1이다. 거기서 구한 표본 평균에 대해서도 마찬가지이다.
https://ko.wikipedia.org/wiki/%EC%9E%90%EC%9C%A0%EB%8F%84_(%ED%86%B5%EA%B3%84%ED%95%99)
확률(Probability) - 어떤 사건이 실제로 일어날 것인지 혹은 일어났는지에 대한 지식 혹은 믿음을 표현하는 방법이며 같은 원인에서 특정한 결과가 나타나는 비율을 뜻하기도 한다. 수학에서는 확률론에서 설명하고 있으며 수학, 통계학, 회계, 도박, 과학과 철학에서 어떤 잠재적 사건이 일어날 경우의 가능성과 이 가능성 안에 있는 복잡한 시스템의 구조에 대한 답을 이끌어내기 위해 사용되고 있다
https://ko.wikipedia.org/wiki/%ED%99%95%EB%A5%A0
조건부 확률(Conditional Probability) - 주어진 사건이 일어났다는 가정 하에 다른 한 사건이 일어날 확률을 뜻한다. 원래의 확률 함수를 Pr라고 할 때, 사건 B가 일어났다는 가정 하에 사건 A가 일어날 조건부 확률은 Pr(A|B)로 표기한다.
https://ko.wikipedia.org/wiki/%EC%A1%B0%EA%B1%B4%EB%B6%80_%ED%99%95%EB%A5%A0
도수분포표 - 데이터가 속하는 항목 또는 특정 범위의 빈도를 나타낸 표
히스토그램 - 데이터의 속하는 항목 또는 특정 범위의 빈도를 나타낸 그래프
척도 - 수집되는 데이터에 수준에 따른 명명을 위한 방법
분류 | 명목척도(nominal scale) | 고유함 | 전화번호,주소 | 비가산 집합 |
순서척도(ordinal scale) | 순서 | 순위,서열 | 비가산 집합 | |
수량 | 구간척도(interval scale) | 순서, 간격 | 온도,지능지수 | 사칙연산중 가산가능 |
비율척도(ratio scale) | 순서,간격,비율 | 자연수,몸무게 | 사칙연산 가능 |
https://ko.wikipedia.org/wiki/%EB%AA%85%EB%AA%A9%EC%B2%99%EB%8F%84
평균(Mean) - 전체 데이터의 총합을 전체 자료의 수로 나눈 값
중앙값(Median) - 전체 데이터를 나열 했을때 가운데에 있는 값
최빈값(Mode) - 전체 데이터 중 가장 많은 빈도를 보이는 값
분산(Variance) - 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다. 기댓값은 확률변수의 위치를 나타내고 분산은 그것이 얼마나 넓게 퍼져 있는지를 나타낸다. 분산보다는 분산의 제곱근인 표준편차가 더 자주 사용된다
https://ko.wikipedia.org/wiki/%EB%B6%84%EC%82%B0
표준편차((standard deviation) - 분산의 제곱근을 취한 값
공분산(covariance) - 두 변수가 각자의 평균으로부터 멀어지는 값
상관계수(correlation coefficient) - 두 변수 사이의 통계적 관계를 표현하기 위해 특정한 상관 관계의 정도를 수치적으로 나타낸 계수
가설(Hypothesis) - 통계적 추측의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정을 의미
https://ko.wikipedia.org/wiki/%EA%B0%80%EC%84%A4_%EA%B2%80%EC%A0%95
유의확률(significance probability, asymptotic significance) - 유의 확률 또는 p-값은 귀무가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률
https://ko.wikipedia.org/wiki/%EC%9C%A0%EC%9D%98_%ED%99%95%EB%A5%A0
신뢰수준(Confidence Level) - 통계치가 모수치의 특정구간 내에 위치하는 것을 말하는 것으로 통계치의 정확성을 표현
신뢰구간(Condidence Interval) - 특정한 결과가 모수치의 일정 구간에 포함될 확률의 의미
t분석 - t-테스트 또는 't-검증'은 검증 통계량이 귀무가설 하에서 t-분포를 따르는 통계적 가설 검정
https://ko.wikipedia.org/wiki/T_%ED%85%8C%EC%8A%A4%ED%8A%B8
분산분석(analysis of variance, ANOVA) - 통계학에서 두 개 이상 다수의 집단을 비교하고자 할 때 집단 내의 분산, 총평균과 각 집단의 평균의 차이에 의해 생긴 집단 간 분산의 비교를 통해 만들어진 F분포를 이용하여 가설검정을 하는 방법
https://ko.wikipedia.org/wiki/%EB%B6%84%EC%82%B0_%EB%B6%84%EC%84%9D
회귀분석(Regression Analysis) - 관찰된 연속형 변수들에 대해 두 변수 사이의 선형 모형을 구한뒤 적합도를 측정해 내는 분석 방법
https://ko.wikipedia.org/wiki/%ED%9A%8C%EA%B7%80_%EB%B6%84%EC%84%9D