코드잇 스프린트/통계

기술통계와 추론통계

JOHAWK 2024. 8. 22. 13:57

이번 시간에는 기술통계와 추론통계에 대해 알아보겠습니다.

 

기술통계와 추론통계

목차

1. 기술통계

2. 추론통계

 

1. 기술통계

기술 통계는 현상에 대한 수치, 기술, 설명을 의미합니다. 가지고 있는 데이터(표본)을 요약해주는 통계인거죠.

기술 통계를 통해 데이터의 대표값, 분포, 표준편차 등을 알 수 있습니다.

판다스에서 .describe()를 통해 알 수 있는 값들이 대표적인 기술통계값들입니다. 

위 그림은 판다스로 공공데이터포털에서 다운받을 수 있는 건강검진데이터에서 성별에 따른 신장, 체중, 허리둘레, 혈압의 기술통계를 살펴본 코드와 그 결과입니다.

데이터 수, 평균, 표준편차, 최소값, 사분위수, 최대값을 보여주어 이 데이터가 어떤 특징을 가지고 있는지 수치로 보여줍니다.

엑셀로 보면 최빈값, 첨도와 왜도 등 더 다양한 기술통계값을 확인할 수 있습니다.

 

범주형 변수에 대한 기술 통계값은 아래와 같습니다.

 


2. 추론통계

기술통계는 현재 데이터에서 나타난 주요 특징들을 보여주는 통계량이라면, 추론통계는 모집단의 표본을 가지고 모집단의 모수를 추론하고 그 결과의 신뢰성을 검정하는 통계적 방법입니다.

일반적으로 가설을 세우고 검정하기 위해 사용하는 통계가 추론통계입니다.

 

추론통계는 모수를 구하는 방식에 따라 두 가지 방법으로 나뉩니다.

-  점 추정: 모수를 하나의 값으로 추정하는 기법으로 표본의 통계량을 이용해 계산합니다.

-  구간 추정: 모수를 범위로 추정하는 방법으로 제시한 구간 안에 모수가 있을 가능성의 크기(신뢰수준)를 제시합니다.

 

가설 검정 방식에 따라 사용하는 추론 통계는 아래 그림과 같습니다.

 


이상으로 기술 통계와 추론 통계에 대해 알아보았습니다.

데이터 분석에서 기술 통계와 추론 통계 모두 데이터 분석에서 필수적인 요소니 아래 글을 참고하면서 어떻게 적용하는지 이해하시면 좋을 것 같습니다.

 

 

기술통계와 추론 통계를 모두 적용한 글

지방간을 예측하는 인구통계학적 요인 살펴보기 (tistory.com)

 

지방간을 예측하는 인구통계학적 요인 살펴보기

코드잇 스프린트 데이터분석가 트랙 2기의 분석 실습으로 진행된 '엑셀로 일반건강검진데이터 분석하기'의 결과물입니다. 지방간을 예측할 수 있는 인구통계학적 요인을 다중회귀분석을 통해

johawk.tistory.com

 

 

'코드잇 스프린트 > 통계' 카테고리의 다른 글

히스토그램의 한계점  (1) 2024.09.20
차원 축소와 주성분 분석(Principle Component Analysis, PCA)  (1) 2024.09.19
사분위수  (0) 2024.08.19
t-test  (0) 2024.08.14
데이터 전처리 방법들  (0) 2024.08.12