AI/Machine Learnig

통계 용어 간단 정리

Jonghee Jeon 2020. 5. 17. 19:51

모집단(Population 또는 Universe) - 연구와 조사 또는 분석이 이루어지는 집단,  관심 대상 전체를 이르는 말 

 

표본(Sample) - 일반적으로 모집단 전부를 수집하여 분석 할 수 없으므로 일부분을 추출하여 분석 하는 대상. 최근에는 빅데이터를 이용하여 모집단에 가까운 데이터를 수집하여 분석 할 수 있게 되었음

 

기술통계(Descriptive Statistics) - 수집한 데이터를 정리, 요약, 해석 등을 통해 데이터의 특성과 속성을 파악하는 방법  

 

추론통계(Inferential statistics) - 표본으로 부터 통계량 등의 값을 계산하여 모집단의 특성과 속성을 파악하는 방법

 

중심극한정리 - 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진

는 정리. 수학자 피에르시몽 라플라스는 1774년에서 1786년 사이의 일련의 논문에서 이러한 정리의 발견과 증명을 시도

https://ko.wikipedia.org/wiki/%EC%A4%91%EC%8B%AC_%EA%B7%B9%ED%95%9C_%EC%A0%95%EB%A6%AC

 

중심 극한 정리 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 매우 불규칙한 분포도 충분히 많은 수를 더하면 중심극한정리에 따라 결국 정규분포로 수렴한다. 주사위를 n개 흔들 때 나오는 눈의 합 S n = X 1 + ... + X n의 분포

ko.wikipedia.org

자유도(degrees of freedom) - 통계적 추정을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말한다. 크기가 n인 표본의 관측값의 자유도는 n-1이다. 거기서 구한 표본 평균에 대해서도 마찬가지이다.

https://ko.wikipedia.org/wiki/%EC%9E%90%EC%9C%A0%EB%8F%84_(%ED%86%B5%EA%B3%84%ED%95%99)

 

자유도 (통계학) - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 다른 뜻에 대해서는 자유도 문서를 참조하십시오. 통계학에서 자유도(degrees of freedom)는 통계적 추정을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인

ko.wikipedia.org

확률(Probability) - 어떤 사건이 실제로 일어날 것인지 혹은 일어났는지에 대한 지식 혹은 믿음을 표현하는 방법이며 같은 원인에서 특정한 결과가 나타나는 비율을 뜻하기도 한다. 수학에서는 확률론에서 설명하고 있으며 수학, 통계학, 회계, 도박, 과학과 철학에서 어떤 잠재적 사건이 일어날 경우의 가능성과 이 가능성 안에 있는 복잡한 시스템의 구조에 대한 답을 이끌어내기 위해 사용되고 있다 

https://ko.wikipedia.org/wiki/%ED%99%95%EB%A5%A0

 

확률 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전.

ko.wikipedia.org

조건부 확률(Conditional Probability) - 주어진 사건이 일어났다는 가정 하에 다른 한 사건이 일어날 확률을 뜻한다. 원래의 확률 함수를 Pr라고 할 때, 사건 B가 일어났다는 가정 하에 사건 A가 일어날 조건부 확률은 Pr(A|B)로 표기한다.

https://ko.wikipedia.org/wiki/%EC%A1%B0%EA%B1%B4%EB%B6%80_%ED%99%95%EB%A5%A0

 

조건부 확률 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 확률론에서, 조건부 확률(條件附確率, 영어: conditional probability)은 주어진 사건이 일어났다는 가정 하에 다른 한 사건이 일어날 확률을 뜻한다. 원래의 확률 함��

ko.wikipedia.org

도수분포표 - 데이터가 속하는 항목 또는 특정 범위의 빈도를 나타낸 표 

 

히스토그램 - 데이터의 속하는 항목 또는 특정 범위의 빈도를 나타낸 그래프

 

척도 - 수집되는 데이터에 수준에 따른 명명을 위한 방법

분류 명목척도(nominal scale) 고유함 전화번호,주소 비가산 집합
순서척도(ordinal scale) 순서 순위,서열 비가산 집합
수량 구간척도(interval scale) 순서, 간격 온도,지능지수 사칙연산중 가산가능
비율척도(ratio scale) 순서,간격,비율 자연수,몸무게 사칙연산 가능

https://ko.wikipedia.org/wiki/%EB%AA%85%EB%AA%A9%EC%B2%99%EB%8F%84

 

평균(Mean) - 전체 데이터의 총합을 전체 자료의 수로 나눈 값

 

중앙값(Median) - 전체 데이터를 나열 했을때 가운데에 있는 값

 

최빈값(Mode) - 전체 데이터 중 가장 많은 빈도를 보이는 값

 

분산(Variance) - 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다. 기댓값은 확률변수의 위치를 나타내고 분산은 그것이 얼마나 넓게 퍼져 있는지를 나타낸다. 분산보다는 분산의 제곱근인 표준편차가 더 자주 사용된다

https://ko.wikipedia.org/wiki/%EB%B6%84%EC%82%B0

 

분산 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 빛의 분산에 대해서는 분산 (광학) 문서를 참조하십시오. 확률론과 통계학에서 어떤 확률변수의 분산(分散, 영어: variance, 변량[출처 필요])은 그 확률변수가 기�

ko.wikipedia.org

 

표준편차((standard deviation) - 분산의 제곱근을 취한 값

 

공분산(covariance) - 두 변수가 각자의 평균으로부터 멀어지는 값

 

상관계수(correlation coefficient) - 두 변수 사이의 통계적 관계를 표현하기 위해 특정한 상관 관계의 정도를 수치적으로 나타낸 계수

 

가설(Hypothesis) - 통계적 추측의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정을 의미

https://ko.wikipedia.org/wiki/%EA%B0%80%EC%84%A4_%EA%B2%80%EC%A0%95

 

가설 검정 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 통계적 가설 검정(統計的假說檢定, statistical hypothesis test)은 통계적 추측의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해�

ko.wikipedia.org

유의확률(significance probability, asymptotic significance) - 유의 확률 또는 p-값은 귀무가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률

https://ko.wikipedia.org/wiki/%EC%9C%A0%EC%9D%98_%ED%99%95%EB%A5%A0

 

유의 확률 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 양쪽 꼬리 유의 확률의 정의 오른쪽 꼬리 유의 확률의 정의 통계적 가설 검정에서 유의 확률(有意 確率, 영어: significance probability, asymptotic significance) 또는 p-값(�

ko.wikipedia.org

 

신뢰수준(Confidence Level) - 통계치가 모수치의 특정구간 내에 위치하는 것을 말하는 것으로 통계치의 정확성을 표현

https://m.blog.naver.com/PostView.nhn?blogId=statistics7&logNo=140137436120&proxyReferer=https:%2F%2Fwww.google.com%2F

 

[통계특강] 신뢰수준과 신뢰구간

◎ 논문과 보고서 작성을 위한 통계특강 1. 통계에 대한 기본적 이해 : 신뢰수준과 신뢰구간 ◈ 신뢰수준과...

blog.naver.com

신뢰구간(Condidence Interval) - 특정한 결과가 모수치의 일정 구간에 포함될 확률의 의미

https://m.blog.naver.com/PostView.nhn?blogId=statistics7&logNo=140137436120&proxyReferer=https:%2F%2Fwww.google.com%2F

 

[통계특강] 신뢰수준과 신뢰구간

◎ 논문과 보고서 작성을 위한 통계특강 1. 통계에 대한 기본적 이해 : 신뢰수준과 신뢰구간 ◈ 신뢰수준과...

blog.naver.com

t분석 - t-테스트 또는 't-검증'은 검증 통계량이 귀무가설 하에서 t-분포를 따르는 통계적 가설 검정

https://ko.wikipedia.org/wiki/T_%ED%85%8C%EC%8A%A4%ED%8A%B8

 

T 테스트 - 위키백과, 우리 모두의 백과사전

 

ko.wikipedia.org

분산분석(analysis of variance, ANOVA) - 통계학에서 두 개 이상 다수의 집단을 비교하고자 할 때 집단 내의 분산, 총평균과 각 집단의 평균의 차이에 의해 생긴 집단 간 분산의 비교를 통해 만들어진 F분포를 이용하여 가설검정을 하는 방법

https://ko.wikipedia.org/wiki/%EB%B6%84%EC%82%B0_%EB%B6%84%EC%84%9D

 

분산 분석 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 분산 분석(analysis of variance, ANOVA, 변량 분석)은 통계학에서 두 개 이상 다수의 집단을 비교하고자 할 때 집단 내의 분산, 총평균과 각 집단의 평균의 차이에 의해

ko.wikipedia.org

회귀분석(Regression Analysis) - 관찰된 연속형 변수들에 대해 두 변수 사이의 선형 모형을 구한뒤 적합도를 측정해 내는 분석 방법

https://ko.wikipedia.org/wiki/%ED%9A%8C%EA%B7%80_%EB%B6%84%EC%84%9D

 

회귀 분석 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 독립변수 1개와 종속변수 1개를 가진 선형회귀의 예 통계학에서, 회귀 분석(回歸 分析, 영어: regression analysis)은 관찰된 연속형 변수들에 대해 두 변수 사이의 모

ko.wikipedia.org