전체 글 41

차원 축소와 주성분 분석(Principle Component Analysis, PCA)

안녕하세요, 데이터에 차원이 너무 많을 때 나타나는 문제를 해결하기 위한 차원 축소와 대표적인 차원 축소 방법 중 하나인 주성분 분석에 대해 알아보겠습니다. 차원 축소와 주성분 분석 목차 1. 데이터에 차원이 너무 많으면 어떻게 되나요? 2. 차원 축소 1) 차원 선택 2) 차원 추출 3. 주성분 분석 1) 과정 2) 고유벡터와 고유값 1. 데이터에 차원이 너무 많으면 어떻게 되나요?데이터에서 차원은 그래프에서 데이터의 위치를 나타내기 위해 필요한 축의 개수입니다. 변수의 수와 같다고 보면 되겠습니다. 예를 들어, 대한민국 사람들의 키와 몸무게를 측정한 데이터가 있는데, 그 중 한 명의 데이터를 표기하기 위해서는 키와 몸무게 2개의 차원(축)이 필요합니다.반면, 건강검진 데이터처럼 34개의 변수가 이루어..

기술통계와 추론통계

이번 시간에는 기술통계와 추론통계에 대해 알아보겠습니다. 기술통계와 추론통계 목차 1. 기술통계 2. 추론통계 1. 기술통계기술 통계는 현상에 대한 수치, 기술, 설명을 의미합니다. 가지고 있는 데이터(표본)을 요약해주는 통계인거죠.기술 통계를 통해 데이터의 대표값, 분포, 표준편차 등을 알 수 있습니다.판다스에서 .describe()를 통해 알 수 있는 값들이 대표적인 기술통계값들입니다. 위 그림은 판다스로 공공데이터포털에서 다운받을 수 있는 건강검진데이터에서 성별에 따른 신장, 체중, 허리둘레, 혈압의 기술통계를 살펴본 코드와 그 결과입니다.데이터 수, 평균, 표준편차, 최소값, 사분위수, 최대값을 보여주어 이 데이터가 어떤 특징을 가지고 있는지 수치로 보여줍니다.엑셀로 보면 최빈값, 첨도와 왜도 등..

사분위수

이번에는 사분위수가 무엇인지, 그리고 사분위수를 언제 어떻게 활용하는지 알아보겠습니다.사분위수 목차 1. 사분위수란? 2. 사분위수를 활용한 이상값 찾기 1. 사분위수란?사분위수는 모든 데이터를 순서대로 정렬했을 때 4등분한 지점에 있는 값입니다. 예를 들어, [1, 2, 5, 3, 9, 9, 6, 2, 7, 8, 4]라는 데이터들이 있을 때 이를 오름차순으로 정렬하면 [1, 2, 2, 3, 4, 5, 6, 7, 8, 9, 9]입니다.예시의 데이터 수는 11개죠. 여기서 4등분한 지점에 해당하는 값은 각각 2, 5, 8, 9입니다. 위치가 낮은 수치부터 Q1(25%), Q2(50%), Q3(75%), Q4(100%)로 명명됩니다.그 중 Q2는 중앙값, Q4는 최대값이라는 다른 명칭이 있어 Q2, Q4로 ..

스프린트 회고 4주차(24.08.12~24.08.18)

분석 실습(엑셀)4주차는 지금까지 배운 기초 통계를 활용해 건강검진 데이터를 살펴보고 가설을 세운 다음 엑셀로 가설 검정을 했다. 처음에는 엑셀로 분석만 하면 되는 간단한 과제인 줄 알고 사람들이 잘 쓰지 않을 것 같은 간 관련 수치(AST, ALT, 감마지티피, 트리글리세라이드)와 관련 있을 것 같은 인구통계학적 요인을 찾는 분석을 하겠다는 계획을 세우고 팀원들과 논의한 사항을 강사님께 제출했다. 그런데 돌아온 강사님의 대답은 '완전 다른 방향으로 진행되고 있다'였다.단순히 분석을 하는 게 아니라 실제 업무에서 하는 것처럼 시장조사에 대한 리서치를 해오라는 것이었다. 이 때 느꼈다. 여기는 단순히 공부를 하는 곳이 아니라 취업을 위한 부트캠프라는 것을... 어떻게 하면 내가 선정한 데이터들을 계속 활용..

지방간을 예측하는 인구통계학적 요인 살펴보기

코드잇 스프린트 데이터분석가 트랙 2기의 분석 실습으로 진행된 '엑셀로 일반건강검진데이터 분석하기'의 결과물입니다. 지방간을 예측할 수 있는 인구통계학적 요인을 다중회귀분석을 통해 알아봤습니다. 지방간을 예측하는 인구통계학적 요인 살펴보기 목차 1. 배경 및 목적 2. 방법 3. 결과 4. 해석 1. 배경 및 목적배경: 한국건강증진개발원에서 실시하는 보건소 모바일 헬스케어 사업에서 당뇨병, 비만 외에 새로운 질병에 대한 위험도 지표를 만들고자 한다. 일반 건강검진 데이터에서 병명을 정확히 추출할 수 있는 질환은 지방간(AST, ALT, 감마지티피, 트리글리세라이드)과 빈혈(혈색소)이다. 한국건강증진개발원에서는 1) 사람들의 관심이 많거나, 2) 실제 진단 환자 대비 유병률이 높은 질병에 대한 위험요인 지..

스프린트 회고 3주차(24.08.05~24.08.11)

수업 3주차가 되니 9 to 7이 적응이 되었다. 그래도 수업이 끝나면 눈이 피곤한 건 여전하다. 축약어는 아직도 익숙하지 않아서 다른 사람의 코드를 처음부터 한줄 씩을 읽는 방법으로 연습을 했다. 파이썬에서 제공하는 matplotlib과 seaborn으로 데이터 시각화를 해봤다.그렇게 어렵지 않으면서도 재밌었다. 나같이 디자인에 취약한 사람은 어느 정도 정형화되어있는 seaborn이 더 편했다. 그리고 기초 통계를 배우기 시작했다. 학부생부터 대학원생을 마칠 때까지 같이 있었던 통계와 또 만났다. 개인 활동 데이터 전처리 연습을 위해 스프린터 트랙과 별개로 코로플레스맵을 만들었다.geojson이라는 처음 다루는 파일도 있었고 도움을 받은 블로그들의 게시물이 folium 라이브러리의 예전 버전으로 작성된..

코로플레스 맵 만들기(도로 위에는 먼지가 얼마나 많을까?)

스프린트 데이터분석가 트랙을 하면서 데이터 전처리 연습을 어떻게 할 수 있을 지 멘토님께 여쭤봤다. 멘토님의 대답은 바로 여러 연도의 '공공데이터'를 활용하며 데이터 전처리를 연습해보는 것이었다. 재미도 있겠다는 생각이 들어 곧바로 공공데이터포털을 찾아 여러 데이터를 살펴봤다. 1단계) 코로플레스맵에 사용할 데이터셋 만들기내가 찾은 데이터는 한국환경공단에서 제공하는 '도로 재비산먼지 측정 정보'다.해당 데이터는 월별로 csv파일로 제공되는데 2021년부터 2024년까지 매년 6월의 데이터를 다운받았다.다운받은 파일의 양식은 대략 이렇다.pandas를 이용해 다운받은 파일들을 하나의 데이터 프레임으로 묶어봤는데 컬럼 수가 1개 더 많았다.그 이유를 살펴보니 2021년도 데이터에서만 재비산먼지 평균농도 컬럼..

스프린트 1~2주차 회고(24.07.25~24.08.04)

벌써 코드잇 스프린트를 시작한 지 4주차가 되었다. 그동안 미뤘던 스프린터 생활 후기를 기억나는대로 작성해본다. 스프린트 1~2주차는 한마디로 정말 정신이 없었다.첫 만남 비록 온라인이지만 처음 만나는 강사님과 수강생들이 줌 화면을 가득 채우고 있었고, 디스코드에서는 매니저분들의 공지러쉬가 끝날 줄 몰랐다. 코로나가 창궐했을 때 줌으로 수업은 많이 들어봤으나 이렇게 많은 인원이 오랫동안 같이 듣는 것은 처음이었다. 이 많은 사람들과 어떻게 소통하지 고민했으나 팀 빌딩이 시작되니 그런 걱정은 할 필요가 없었다.팀원들끼리 최소 50분씩 같은 방에서 이야기를 하기 때문이다.그 정도 시간이면 아무리 낯가림이 심한 나도 말을 안 할 수 없고 서로 알아갈 수 있었다.새로운 수강신청 및 수강철회가 가능한 기간이라 팀..

t-test

가설 검정에서 사용되는 가장 기초적인 방법 중 하나인 t-test가 무엇인지, 그리고 t-test의 종류에는 무엇이 있는지 알아보겠습니다. t-test 목차 1. t-test란? 2. 일 표본 t 검정 3. 독립 표본 t 검정 4. 대응 표본 t 검정 1. t-test란?t-test(t 검정)는 모집단이 정규분포라는 사실을 알지만 모표준편차를 모를 때, 모집단의 평균을 추정하기 위해 모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 사용하는 가설 검정  방식입니다. 모표준편차를 몰라서 정규 분포를 확실히 쓰지 못하는데 어떤 분포를 사용할까요? 바로 t분포를 사용합니다. t분포는 모집단의 표준편차를 사용하는 z분포와 다르게 표본의 표준편차를 기저로 만들어진 분포입니다.표본의 표준편차를 활용해 만들어..

데이터 전처리 방법들

데이터 분석을 하기 전 꼭 필요한 데이터 전처리! 그 방법들을 살펴보겠습니다. 데이터 전처리 방법들 목차 1. 데이터 전처리란?2. 데이터 병합 및 범주변수 처리 1) 데이터병합 2) 범주변수 처리3. 결측값 처리 1) 결측값 2) 완전 분석법 3) 평균 대치법 4) 단순 확률 대치법 5) 다중 대치법4. 이상값 처리 1) 이상값 2) 삭제 3) 대체 4) 변환 1. 데이터 전처리데이터 전처리는 데이터 분석을 하기 전, 원시 데이터(raw data)를 데이터 분석에 사용하기 위해 적절한 데이터로 가공하는 것으로, 데이터 분석 중 가장 중요하고 가장 오랜 시간이 걸리는 과정입니다. 데이터 전처리 과정에서 할 일은 데이터 병합, 범주 변수 처리, 결측값 및 이상값 처리입니다.2. 데이터 병합 및 범주변수 처..