코드잇 스프린트/통계

1종 오류, 2종 오류, 그리고 유의확률(P-value)

JOHAWK 2024. 8. 8. 16:45

연구실, 마케팅 현장 등 많은 곳에서 진리나 의사결정을 위해 가설 검정을 할 때 주의해야 할 오류들인 1종 오류, 2종오류가 있습니다. 그리고 1종 오류를 최소화하기 위한 기준인 유의확률도 있습니다. 이번에는 1종 오류, 2종 오류, 그리고 유의확률에 대해 알아보겠습니다.

 

1종 오류, 2종 오류, 그리고 유의확률(P-value)

목차

1. 1종 오류와 2종오류

2. P-value

 

1. 1종 오류와 2종오류

처음 통계를 접하는 분들께 1종 오류와 2종 오류를 바로 통계적으로 설명하면 이해하기 어려울 수 있습니다.

그래서 1종 오류와 2종 오류를 설명하기 위해 가설 검정을 재판으로 비유해보겠습니다.

2024년 절도 사건의 유력한 용의자 김OO씨가 피고인이 되어 재판을 받게 되었습니다. 

MS Designer로 생성한 ai 이미지

대한민국 형사사법체계에서 기본적으로 피고인의 무죄추정원칙이 적용됩니다.

기본적으로 피고인은 무죄인 상태로 가정한다는 것이죠.

무죄추정원칙에 따라 피고인이 무죄임을 주장하는 변호사(피고)의 주장을 귀무가설(영가설)로 정의하겠습니다.

 

검사(혹은 원고)는 피고인이 유죄임을 증명해야 합니다. 검사가 주장하는 '피고인은 무죄가 아니다'를 대립가설로 세우겠습니다. 

 

증인 진술 청취, 증거 제시 등의 전반적인 재판 과정은 가설 검정을 위한 실험, 데이터 분석 과정입니다.

 

마지막으로 판사가 판결(무죄 vs. 유죄)을 내리는 것은 가설 검정의 마지막 단계, 가설 채택(귀무가설 채택 vs. 귀무가설 기각)입니다.

 

이 과정을 표로 정리하면 다음과 같습니다.

재판 가설 검정
변호사(피고, 무죄를 주장) 영가설(피고는 무죄다.)
검사(원고, 유죄를 주장) 대립가설(피고는 무죄가 아니다.)
증거 제시, 증인 진술 청취 등 재판 과정 실험, 데이터 분석 과정
판사(무죄 또는 유죄를 판결) 연구자 or 분석가(영가설 채택 또는 기각을 결정)

 

판사는 검사와 변호사의 치열한 공방을 고심한 후 판결을 내립니다. 하지만 언제나 판사가 옳은 판결을 내리는 것은 아닙니다. 오심이 있을 수 있습니다.

 

1) 실제로 피고인이 절도를 저지르지 않았으나 잘못된 목격자 진술 등의 이유로 유죄 판결을 내린다. 

2) 실제로 피고인이 절도를 저질렀으나 증거불충분 등의 이유로 무죄 판결을 내린다.

 

이러한 오류는 가설 검정에서도 똑같이 적용됩니다.

 

1) 실제로 영가설이 맞으나 영가설을 기각하고 대립가설을 채택한다.

2) 실제로 대립가설이 맞으나 영가설을 채택한다.

 

1번 오류처럼 영가설이 맞으나 대립가설을 채택하는 오류는 1종 오류, 2번 오류처럼 대립가설이 맞으나 영가설을 채택하는 오류는 2종 오류입니다.

 

 

  재판 가설 검정
1종 오류 무고한 사람에게 유죄를 선고 영가설을 기각하고 대립가설 채택
2종 오류 실제 범인에게 무죄를 선고 영가설을 채택

 

재판이나 가설 검정 모두 이지선다로 이루어져 있기 때문에 1종 오류와 2종 오류는 상충 관계(trade-off)입니다. 1종 오류의 가능성을 높이면 2종 오류의 가능성이 감소합니다. 반대로, 2종 오류의 가능성이 높이면 1종 오류의 가능성이 감소합니다.

그렇다면 두 오류 중 어떤 오류가 더 위험할까요? 바로 1종 오류가 더 치명적입니다.

 

법조계에서 유명한 말이 있습니다.

 

"10명의 범인을 놓치더라도 1명의 무고한 피해자를 만들면 안된다." - William Blackstone -

 

1종 오류의 위험성을 강조한 말이죠.

 

가설 검정을 할 때에도 2종 오류를 범하면 새로운 진리를 찾는 것이나 효율적인 의사결정이 늦어지는 것이지만 1종 오류를 범하면 잘못된 의사결정을 진행하게 되어 되돌아가기 어려울 수 있습니다.

 

1종 오류와 2종 오류를 정리하면 다음과 같습니다.


▶ 1종 오류: 귀무가설이 맞는데 귀무가설을 기각하고 대립가설을 채택하는 오류

▷ 2종 오류: 귀무가설이 틀린데 귀무가설을 채택하는 오류

1종 오류와 2종 오류는 상충 관계(trade-off)로 한 쪽이 감소하면 다른 쪽이 증가한다.

▷ 1종 오류가 2종 오류보다 더 위험하다.

 


2. 유의확률(P-value)

유의 확률은 "독립변수를 투입했을 때 나타난 결과(현상)가 우연에 의해 나타날 확률"입니다.

 

학부생 때부터 교수님들께서 정말 강조한 개념이라 자는 중에 깨워서 물어봐도 정의를 말할 수 있을 정도로 암기했습니다. ㅠㅠ

 

유의 확률을 자세히 살펴보면 독립변수를 투입해도 그 결과가 우연에 의해 나타날 가능성을 제시한 것이니 영가설을 지지하는 것이죠.  즉, 독립변수가 투입되었을 때 영가설을 지지할 확률이죠. 

 

많은 가설 검정은 다양한 통계적 방법을 적용해 나타난 결과의 유의확률이 특정 기준(유의수준)보다 큰지 작은지 비교하는 것으로 이루어집니다.

 

유의확률이 유의수준보다 낮으면 귀무가설을 기각하고 대립가설을 채택하고 유의수준보다 높으면 귀무가설을 채택합니다.

이렇게  유의확률로 귀무가설의 기각 여부를 결정하기 때문에 1종 오류를 범할 확률로도 볼 수 있습니다.

 

사회과학에서 유의수준은 일반적으로 5%를 사용합니다. 즉, 1종 오류가 나타날 확률이 5% 이내일 경우  귀무가설을 기각합니다.

유의 확률이 유의수준보다 아래(빨간 영역)에 있다면 귀무가설을 기각하고 대립가설을 채택한다.


 

이번 포스트에서는 가설 검정에서 중요한 개념인 1종 오류와 2종 오류를 재판과 비유해서 알아보고, 유의 확률도 공부했습니다.

 

1종 오류와 2종 오류에 관한 내용은 데이터 관련 자격증에서도 자주 나오는 내용이니 꼭 알고 가시면 좋겠습니다.

 

 

 

추천 글

데이터 전처리 방법들 (tistory.com)

 

데이터 전처리 방법들

데이터 분석을 하기 전 꼭 필요한 데이터 전처리! 그 방법들을 살펴보겠습니다. 데이터 전처리 방법들 목차 1. 데이터 전처리란?2. 데이터 병합 및 범주변수 처리 1) 데이터병합 2) 범주변수 처리3

johawk.tistory.com

t-test (tistory.com)

 

t-test

가설 검정에서 사용되는 가장 기초적인 방법 중 하나인 t-test가 무엇인지, 그리고 t-test의 종류에는 무엇이 있는지 알아보겠습니다. t-test 목차 1. t-test란? 2. 일 표본 t 검정 3. 독립 표본 t 검정 4.

johawk.tistory.com

 

'코드잇 스프린트 > 통계' 카테고리의 다른 글

차원 축소와 주성분 분석(Principle Component Analysis, PCA)  (1) 2024.09.19
기술통계와 추론통계  (0) 2024.08.22
사분위수  (0) 2024.08.19
t-test  (0) 2024.08.14
데이터 전처리 방법들  (0) 2024.08.12