코드잇 스프린트/통계

사분위수

JOHAWK 2024. 8. 19. 16:44

이번에는 사분위수가 무엇인지, 그리고 사분위수를 언제 어떻게 활용하는지 알아보겠습니다.

사분위수

목차

1. 사분위수란?

2. 사분위수를 활용한 이상값 찾기

 

1. 사분위수란?

사분위수는 모든 데이터를 순서대로 정렬했을 때 4등분한 지점에 있는 값입니다.

 

예를 들어, [1, 2, 5, 3, 9, 9, 6, 2, 7, 8, 4]라는 데이터들이 있을 때 이를 오름차순으로 정렬하면 [1, 2, 2, 3, 4, 5, 6, 7, 8, 9, 9]입니다.

예시의 데이터 수는 11개죠. 여기서 4등분한 지점에 해당하는 값은 각각 2, 5, 8, 9입니다.

 

위치가 낮은 수치부터 Q1(25%), Q2(50%), Q3(75%), Q4(100%)로 명명됩니다.

그 중 Q2는 중앙값, Q4는 최대값이라는 다른 명칭이 있어 Q2, Q4로 불리지 않습니다.

 

사분위수 중 중앙값은 데이터 가장 가운데에 있고 이상값에 취약하지 않아 데이터를 대표하는 대표값이기도 합니다.


2. 사분위수를 활용한 이상값 찾기(IQR)

사분위수를 활용해 이상값을 찾을 수 있습니다. 바로 Interquartile range(IQR)입니다.

 IQR은 Q1(25%)부터 Q3(75%)까지 범위를 의미합니다.

 

Q1값에서 1.5를 곱한 IQR을 빼면 정상 범위의 최저점,  Q3값에 1.5를 곱한 IQR을 더하면  정상 범위의 최고점이 됩니다.

Q1-1.5*IQR보다 작은 값이나 Q3+1.5*IQR보다 큰 값은 모두 이상치가 되는 거죠.

 

IQR을 활용한 방법은 그 공식이 간단해 실무에서 많이 이용되는 이상값 분류법 중 하나입니다.

 


지금까지 사분위수가 무엇인지, 그리고 사분위수를 활용해 이상값을 찾는 방법에 대해 알아보았습니다.