이번에는 사분위수가 무엇인지, 그리고 사분위수를 언제 어떻게 활용하는지 알아보겠습니다.
사분위수
목차
1. 사분위수란?
사분위수는 모든 데이터를 순서대로 정렬했을 때 4등분한 지점에 있는 값입니다.
예를 들어, [1, 2, 5, 3, 9, 9, 6, 2, 7, 8, 4]라는 데이터들이 있을 때 이를 오름차순으로 정렬하면 [1, 2, 2, 3, 4, 5, 6, 7, 8, 9, 9]입니다.
예시의 데이터 수는 11개죠. 여기서 4등분한 지점에 해당하는 값은 각각 2, 5, 8, 9입니다.
위치가 낮은 수치부터 Q1(25%), Q2(50%), Q3(75%), Q4(100%)로 명명됩니다.
그 중 Q2는 중앙값, Q4는 최대값이라는 다른 명칭이 있어 Q2, Q4로 불리지 않습니다.
사분위수 중 중앙값은 데이터 가장 가운데에 있고 이상값에 취약하지 않아 데이터를 대표하는 대표값이기도 합니다.
2. 사분위수를 활용한 이상값 찾기(IQR)
사분위수를 활용해 이상값을 찾을 수 있습니다. 바로 Interquartile range(IQR)입니다.
IQR은 Q1(25%)부터 Q3(75%)까지 범위를 의미합니다.
Q1값에서 1.5를 곱한 IQR을 빼면 정상 범위의 최저점, Q3값에 1.5를 곱한 IQR을 더하면 정상 범위의 최고점이 됩니다.
Q1-1.5*IQR보다 작은 값이나 Q3+1.5*IQR보다 큰 값은 모두 이상치가 되는 거죠.
IQR을 활용한 방법은 그 공식이 간단해 실무에서 많이 이용되는 이상값 분류법 중 하나입니다.
지금까지 사분위수가 무엇인지, 그리고 사분위수를 활용해 이상값을 찾는 방법에 대해 알아보았습니다.
'코드잇 스프린트 > 통계' 카테고리의 다른 글
차원 축소와 주성분 분석(Principle Component Analysis, PCA) (1) | 2024.09.19 |
---|---|
기술통계와 추론통계 (0) | 2024.08.22 |
t-test (0) | 2024.08.14 |
데이터 전처리 방법들 (0) | 2024.08.12 |
1종 오류, 2종 오류, 그리고 유의확률(P-value) (0) | 2024.08.08 |