코드잇 스프린트/미션 & 프로젝트

지방간을 예측하는 인구통계학적 요인 살펴보기

JOHAWK 2024. 8. 19. 14:04

코드잇 스프린트 데이터분석가 트랙 2기의 분석 실습으로 진행된 '엑셀로 일반건강검진데이터 분석하기'의 결과물입니다. 지방간을 예측할 수 있는 인구통계학적 요인을 다중회귀분석을 통해 알아봤습니다.

 

지방간을 예측하는 인구통계학적 요인 살펴보기

목차

1. 배경 및 목적

2. 방법

3. 결과

4. 해석

 

1. 배경 및 목적

배경: 한국건강증진개발원에서 실시하는 보건소 모바일 헬스케어 사업에서 당뇨병, 비만 외에 새로운 질병에 대한 위험도 지표를 만들고자 한다. 일반 건강검진 데이터에서 병명을 정확히 추출할 수 있는 질환은 지방간(AST, ALT, 감마지티피, 트리글리세라이드)과 빈혈(혈색소)이다. 한국건강증진개발원에서는 1) 사람들의 관심이 많거나, 2) 실제 진단 환자 대비 유병률이 높은 질병에 대한 위험요인 지표를 개발하고자 한다.

 

- 시장조사

1) 구글 트렌드 비교: 국민들의 관심이 더 높은 질병을 알아보고자 상대적 검색량을 알 수 있는 구글 트렌드에서 지방간과 빈혈을 비교했다. 2023년 8월 13일부터 1년동안 지방간과 빈혈 검색량을 비교한 결과, 사람들은 지방간보다 빈혈을 상대적으로 더 많이 검색했다는 것을 알 수 있다.

2) 실제 진단 환자 대비 유병률: HIRA 빅데이터 개방포털 중 국민관심질병통계에서 2023년 진료년월을 기준으로 월별 환자 수를 수집해 2023년 환자 수를 측정한 결과, 빈혈은 약 120만 명, 지방간은 약 127만 명으로 지방간 환자 수가 약간 더 많았다.

그리고 각 질병의 유병률을 20세 이상 인구에 적용한 결과 빈혈은 약 347만명(KOSIS), 지방간은 약 1,693만명(대한간학회)로 지방간의 유병인구가 약 5배 가량 많았다.

3) 빈혈이 지방간보다 관심이 많은 이유 탐색: 유병인구 대비 빈혈의 검색량이 더 높은 이유를 알아보고자 썸트렌드에서 제공하는 소셜 연관어 분석을 했다. 거기서 두 질병의 확연한 차이를 드러내는 연관어가 '증상'이었다. 빈혈에서 증상은 가장 높은 빈도를 보이는 연관어였으나, 지방간에서 증상은 하위권인 11위에  위치해 있었다.

4) 결과

시장조사를 토대로 빈혈과 지방간의 특징을 비교하면 다음과 같다.

상대적으로 국민의 관심이 더 높은 질병: 빈혈
실제 진단 환자 대비 유병률이 높은 질병: 지방간
지방간에 대한 관심이 적은 이유: 지방간은 명확한 증상이 없다.

건강증진개발원의 지표 개발 기준이 서로 다른 질병을 가리킬 때, 나는 사람들에게 지방간에 대한 위험을 시각적인 수치로 보여줄 수 있으면 이에 응답할 수요층이 있을 것으로 생각해 당장의 관심은 적어도 실제 진단 환자 대비 유병률이 높은 지방간 위험 요인 지표를 1순위로 개발할 것을 제안했다.

 

목적: 본 프로젝트의 목표는 지방간 위험요인 지표를 개발하기 위해 직접적인 간 관련 수치(AST, ALT, 감마지티피, 트리글리세라이드) 외에 인구통계학적 요인을 찾는 것이며, 본 프로젝트에서 발견된 인구통계학적 요인과 간 관련 수치를 활용해 지방간 위험요인 지표를 개발하고 보건소 모바일 헬스 케어 시스템에 도입하는 것이 최종 목표다.


2. 방법

지방간 관련 인구통계학적 요인들: 자료 조사를 진행한 결과, 성별, 나이, BMI, 복부비만도(허리둘레/키), 음주 여부, 흡연 여부가 지방간에 영향을 줄 수 있음을 확인했다. 이를 바탕으로 연구 가설을 세우면 다음과 같다.

"성별, 나이, BMI, 복부비만도, 음주 여부, 흡연 여부 중 적어도 하나는 간 수치(AST, ALT, 감마지티피, 트리글리세라이드)에 영향을 줄 것이다."

이 가설을 증명하기 위해 2023년 실시된 일반건강검진 데이터 10,000건을 활용해 다중회귀분석을 종속변수별로 4회 실시했다.

데이터 전처리: 먼저, 명목 변수로 이루어진 성별, 나이, 음주 여부, 흡연 여부를 더미변수화 했다. 기존 5세 단위로 범주화되었던 나이는 10세 단위로 새로 범주화를 해 더미변수화했다.

변수 성별 나이 음주 여부 흡연 여부
범주화 개수 2
(남, 여)
7
(20대, 30대, 40대, ..., 80대 이상)
2
(한다, 안한다)
3
(아예 안함, 금연중, 흡연중)

다음으로 건강검진 데이터에서 제공한 몸무게, 허리둘레, 키를 활용해 BMI와 복부비만도를 계산했다.

마지막으로 결측치와 이상값을 확인하고 제거했다. 10,000건의 건강검진 데이터 중 트리글리세라이드 결과가 없는 6670건을 제외해 3330건의 데이터가 남았으며, ESD를 기준으로 평균 + 3표준편차가 넘는 AST, ALT, 감마지티피, 트리글리세라이드가 있는 데이터도 제외해 최종적으로 3,186건의 데이터를 분석에 사용했다.

 


3. 결과

기술 통계: 각 변수들의 기술 통계 결과는 아래 그림과 같다. 독립변수 중 BMI와 복부비만도는 상관관계가 0.78로 다중공선성이 우려되어 복부비만도 변수를 제거했다.

다중회귀분석: 각 종속변수를 대상으로 다중회귀분석을 실시한 결과, 인구통계학적 요인으로 혈액검사 결과를 예측하는 모형은 모두 통계적으로 유의했다. 자세히 살펴보면, BMI는 모든 종속변수(AST, ALT, 감마지티피, 트리글리세라이드)를 예측했으며, 성별과 흡연 여부는 AST를 제외한 종속변수들(ALT, 감마지티피, 트리글리세라이드)을 예측했다. 음주 여부는 감마지티피만 예측하는 요인이었다.

 

 


4. 해석

 

본 프로젝트에서 재미있게 살펴 볼 것은 바로 음주 여부가 많은 간 수치 결과를 예측하지 못한다는 것이다.

일반적으로 음주가 지방간에 안 좋은 영향을 끼치는 대표적인 생활습관으로 알고 있는데 그와 반대되는 결과이기 때문이다.

이에 대한 이유를 찾아보기 위해 지방간에 대해 알아본 결과, 지방간은 알콜성 지방간대사이상 지방간(비알콜성 지방간)으로 이루어져있으며 각 질환에 대한 환자 수는 비슷하다(건강보험심사평가원, 2024).

그렇기 때문에 음주량이 포함되어 있지 않은 단순 음주 여부만으로는 모든 지방간 여부를 정확히 예측할 수 없었던 것이다.

 

정리하자면 전반적으로 지방간을 예측할 수 있는 인구통계학적 요인은 BMI(비만), 연령대, 성별, 흡연 여부로, 기존에 지방간 지표와 비교했을 때 흡연 여부라는 새로운 인구통계학적 요인이 추가되었다.

 

보다 더 정밀한 위험 지표 개발을 위해서는 간 수치가 매우 높은 사람들까지 포함하기 위해 종속변수를 범주화한 로지스틱 회귀분석이 필요하고, 음주량을 기준으로 집단을 나누어 알콜성 지방간과 대사이상 지방간 예측 요인을 분석할 필요가 있다.

 

 


 

관련 글

- 현재 지방간과 관련된 인구통계학적 요인을 활용한 지방간 위험도 계산 모형

- 지방간 위험 예측모형 (yuhs.ac)

 

지방간 위험 예측모형

 

cmerc.yuhs.ac