코드잇 스프린트/통계

히스토그램의 한계점

JOHAWK 2024. 9. 20. 18:12

데이터 분포를 살펴보기 위해 많이 사용하는 그래프 중 하나가 히스토그램입니다. 히스토그램이 가지고 있는 한계점과 이를 극복하기 위한 방법 중 하나인 커널밀도함수(kde)를 살펴보겠습니다.

 

히스토그램의 한계점

목차

1. 히스토그램

1) 특징

2) 한계점

2. 극복 방법: 커널밀도함수(kde)

1. 히스토그램

1) 특징

히스토그램은 연속형 변수의 분포를 나타내기 위해 계급으로 구간을 나누고, 계급에 해당하는 값들의 수를 y축으로 표시하는 그래프입니다.

히스토그램은 그리기 쉽고 전반적인 데이터 분포를 빠르게 살펴보기 좋다는 장점이 있습니다.

수학 점수의 분포를 알아보기 위해 작성한 히스토그램

 


2) 한계점

하지만, 히스토그램이 완벽한 시각화 방법은 아닙니다. 히스토그램은 세 가지 문제점이 있습니다.

 

1) 연속형 변수에 대해 사용하지만 연속형 변수를 구간으로 나눠버리기 때문에 구간의 범위에 따라 데이터 분포가 왜곡되어 보일 수 있습니다. 아래 그림을 보면 같은 수학 점수 데이터로 구간이 서로 다른(10개, 20개) 히스토그램을 만든 것을 알 수 있습니다. 10개 구간으로 나눈 히스토그램은 최빈값 기준 오른쪽 계급이 왼쪽 계급보다 많습니다. 하지만, 20개 구간으로 만든 히스토그램에서는 최빈값보다 한 단계 낮은 계급의 빈도가 최빈값보다 한 단계 높은 계급의 빈도보다 큽니다. 분포의 양상이 달라졌습니다.

2) 구간의 경계에 있는 데이터를 표현하기 어렵습니다. 구간을 10개로 설정한 히스토그램에서 구간은 10점 단위로 나뉩니다. 그렇다면 50점을 맞은 사람은 51점을 맞은 사람과 49점을 맞은 사람 중 어느 사람과 더 가까울까요? 이런 문제는 범주화하는 상황에서 공통적으로 나타나는 문제입니다. 그렇기 때문에 구간을 나누는 기준을 정하는 것도 신중해야 합니다.

 

3) 히스토그램끼리 비교하기 어렵습니다. 데이터 분석을 하다보면 하나의 데이터만 다루는 게 아니라 여러 데이터를 동시에 보고 비교할 때가 많습니다. 그런데 히스토그램은 여러 히스토그램을 한번에 비교하기가 어렵습니다. 아래 그림은 급식 비용을 기준으로 집단을 나누어 수학 점수를 살펴 본 히스토그램입니다. 라인 그래프나 바 그래프와 달리 히스토그램은 그래프에서 차지하는 면적이 넓어 한눈에 비교하기 쉽지 않습니다. 

 


3. 극복 방법: 커널밀도추정(kernel density estimation, kde)

완벽한 줄 알았으나 한계점이 있었던 히스토그램... 극복할 수는 없을까요?

...

있습니다!

커널밀도추정(kde)을 이용하면 구간을 나누지 않고 연속형 변수의 분포를 시각화할 수 있습니다.

커널밀도추정은 히스토그램을 부드럽게 만드는 스무딩한 함수입니다.  수집한 데이터로 본래 변수의 분포에 대해 확률적으로 추정하는 방법(확률 밀도)을 사용하는데요, 구체적인 내용은 여기를 참고해주세요.

제일 처음 했던 히스토그램을 kde로 바꾸면 이렇게 됩니다.

kde는 구간을 나누지 않기 때문에 연속형 변수의 특성을 온전히 담을 수 있고, 히스토그램과 달리 부드러운 곡선의 모습을 가집니다. 아래 그림처럼 시각적으로 kde들을 비교하기도 쉽습니다. 

 

다만, kde도 히스토그램에서 확률밀도추정이라는 함수를 거쳐 스무딩되는 그래프이기 때문에 부드럽게 하는 정도(대역폭)에 따라 그 모습이 달라지기도 합니다. 이 점을 고려하셔서 데이터 분포를 시각화해보세요.


 

 

이상으로 히스토그램의 단점과 이를 보완한 커널밀도추정에 대해 알아봤습니다.

'코드잇 스프린트 > 통계' 카테고리의 다른 글

연관 분석(장바구니 분석)  (6) 2024.09.27
차원 축소와 주성분 분석(Principle Component Analysis, PCA)  (1) 2024.09.19
기술통계와 추론통계  (0) 2024.08.22
사분위수  (0) 2024.08.19
t-test  (0) 2024.08.14