코드잇스프린트 38

사분위수

이번에는 사분위수가 무엇인지, 그리고 사분위수를 언제 어떻게 활용하는지 알아보겠습니다.사분위수 목차 1. 사분위수란? 2. 사분위수를 활용한 이상값 찾기 1. 사분위수란?사분위수는 모든 데이터를 순서대로 정렬했을 때 4등분한 지점에 있는 값입니다. 예를 들어, [1, 2, 5, 3, 9, 9, 6, 2, 7, 8, 4]라는 데이터들이 있을 때 이를 오름차순으로 정렬하면 [1, 2, 2, 3, 4, 5, 6, 7, 8, 9, 9]입니다.예시의 데이터 수는 11개죠. 여기서 4등분한 지점에 해당하는 값은 각각 2, 5, 8, 9입니다. 위치가 낮은 수치부터 Q1(25%), Q2(50%), Q3(75%), Q4(100%)로 명명됩니다.그 중 Q2는 중앙값, Q4는 최대값이라는 다른 명칭이 있어 Q2, Q4로 ..

스프린트 회고 4주차(24.08.12~24.08.18)

분석 실습(엑셀)4주차는 지금까지 배운 기초 통계를 활용해 건강검진 데이터를 살펴보고 가설을 세운 다음 엑셀로 가설 검정을 했다. 처음에는 엑셀로 분석만 하면 되는 간단한 과제인 줄 알고 사람들이 잘 쓰지 않을 것 같은 간 관련 수치(AST, ALT, 감마지티피, 트리글리세라이드)와 관련 있을 것 같은 인구통계학적 요인을 찾는 분석을 하겠다는 계획을 세우고 팀원들과 논의한 사항을 강사님께 제출했다. 그런데 돌아온 강사님의 대답은 '완전 다른 방향으로 진행되고 있다'였다.단순히 분석을 하는 게 아니라 실제 업무에서 하는 것처럼 시장조사에 대한 리서치를 해오라는 것이었다. 이 때 느꼈다. 여기는 단순히 공부를 하는 곳이 아니라 취업을 위한 부트캠프라는 것을... 어떻게 하면 내가 선정한 데이터들을 계속 활용..

지방간을 예측하는 인구통계학적 요인 살펴보기

코드잇 스프린트 데이터분석가 트랙 2기의 분석 실습으로 진행된 '엑셀로 일반건강검진데이터 분석하기'의 결과물입니다. 지방간을 예측할 수 있는 인구통계학적 요인을 다중회귀분석을 통해 알아봤습니다. 지방간을 예측하는 인구통계학적 요인 살펴보기 목차 1. 배경 및 목적 2. 방법 3. 결과 4. 해석 1. 배경 및 목적배경: 한국건강증진개발원에서 실시하는 보건소 모바일 헬스케어 사업에서 당뇨병, 비만 외에 새로운 질병에 대한 위험도 지표를 만들고자 한다. 일반 건강검진 데이터에서 병명을 정확히 추출할 수 있는 질환은 지방간(AST, ALT, 감마지티피, 트리글리세라이드)과 빈혈(혈색소)이다. 한국건강증진개발원에서는 1) 사람들의 관심이 많거나, 2) 실제 진단 환자 대비 유병률이 높은 질병에 대한 위험요인 지..

스프린트 회고 3주차(24.08.05~24.08.11)

수업 3주차가 되니 9 to 7이 적응이 되었다. 그래도 수업이 끝나면 눈이 피곤한 건 여전하다. 축약어는 아직도 익숙하지 않아서 다른 사람의 코드를 처음부터 한줄 씩을 읽는 방법으로 연습을 했다. 파이썬에서 제공하는 matplotlib과 seaborn으로 데이터 시각화를 해봤다.그렇게 어렵지 않으면서도 재밌었다. 나같이 디자인에 취약한 사람은 어느 정도 정형화되어있는 seaborn이 더 편했다. 그리고 기초 통계를 배우기 시작했다. 학부생부터 대학원생을 마칠 때까지 같이 있었던 통계와 또 만났다. 개인 활동 데이터 전처리 연습을 위해 스프린터 트랙과 별개로 코로플레스맵을 만들었다.geojson이라는 처음 다루는 파일도 있었고 도움을 받은 블로그들의 게시물이 folium 라이브러리의 예전 버전으로 작성된..

코로플레스 맵 만들기(도로 위에는 먼지가 얼마나 많을까?)

스프린트 데이터분석가 트랙을 하면서 데이터 전처리 연습을 어떻게 할 수 있을 지 멘토님께 여쭤봤다. 멘토님의 대답은 바로 여러 연도의 '공공데이터'를 활용하며 데이터 전처리를 연습해보는 것이었다. 재미도 있겠다는 생각이 들어 곧바로 공공데이터포털을 찾아 여러 데이터를 살펴봤다. 1단계) 코로플레스맵에 사용할 데이터셋 만들기내가 찾은 데이터는 한국환경공단에서 제공하는 '도로 재비산먼지 측정 정보'다.해당 데이터는 월별로 csv파일로 제공되는데 2021년부터 2024년까지 매년 6월의 데이터를 다운받았다.다운받은 파일의 양식은 대략 이렇다.pandas를 이용해 다운받은 파일들을 하나의 데이터 프레임으로 묶어봤는데 컬럼 수가 1개 더 많았다.그 이유를 살펴보니 2021년도 데이터에서만 재비산먼지 평균농도 컬럼..

스프린트 1~2주차 회고(24.07.25~24.08.04)

벌써 코드잇 스프린트를 시작한 지 4주차가 되었다. 그동안 미뤘던 스프린터 생활 후기를 기억나는대로 작성해본다. 스프린트 1~2주차는 한마디로 정말 정신이 없었다.첫 만남 비록 온라인이지만 처음 만나는 강사님과 수강생들이 줌 화면을 가득 채우고 있었고, 디스코드에서는 매니저분들의 공지러쉬가 끝날 줄 몰랐다. 코로나가 창궐했을 때 줌으로 수업은 많이 들어봤으나 이렇게 많은 인원이 오랫동안 같이 듣는 것은 처음이었다. 이 많은 사람들과 어떻게 소통하지 고민했으나 팀 빌딩이 시작되니 그런 걱정은 할 필요가 없었다.팀원들끼리 최소 50분씩 같은 방에서 이야기를 하기 때문이다.그 정도 시간이면 아무리 낯가림이 심한 나도 말을 안 할 수 없고 서로 알아갈 수 있었다.새로운 수강신청 및 수강철회가 가능한 기간이라 팀..

t-test

가설 검정에서 사용되는 가장 기초적인 방법 중 하나인 t-test가 무엇인지, 그리고 t-test의 종류에는 무엇이 있는지 알아보겠습니다. t-test 목차 1. t-test란? 2. 일 표본 t 검정 3. 독립 표본 t 검정 4. 대응 표본 t 검정 1. t-test란?t-test(t 검정)는 모집단이 정규분포라는 사실을 알지만 모표준편차를 모를 때, 모집단의 평균을 추정하기 위해 모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 사용하는 가설 검정  방식입니다. 모표준편차를 몰라서 정규 분포를 확실히 쓰지 못하는데 어떤 분포를 사용할까요? 바로 t분포를 사용합니다. t분포는 모집단의 표준편차를 사용하는 z분포와 다르게 표본의 표준편차를 기저로 만들어진 분포입니다.표본의 표준편차를 활용해 만들어..

데이터 전처리 방법들

데이터 분석을 하기 전 꼭 필요한 데이터 전처리! 그 방법들을 살펴보겠습니다. 데이터 전처리 방법들 목차 1. 데이터 전처리란?2. 데이터 병합 및 범주변수 처리 1) 데이터병합 2) 범주변수 처리3. 결측값 처리 1) 결측값 2) 완전 분석법 3) 평균 대치법 4) 단순 확률 대치법 5) 다중 대치법4. 이상값 처리 1) 이상값 2) 삭제 3) 대체 4) 변환 1. 데이터 전처리데이터 전처리는 데이터 분석을 하기 전, 원시 데이터(raw data)를 데이터 분석에 사용하기 위해 적절한 데이터로 가공하는 것으로, 데이터 분석 중 가장 중요하고 가장 오랜 시간이 걸리는 과정입니다. 데이터 전처리 과정에서 할 일은 데이터 병합, 범주 변수 처리, 결측값 및 이상값 처리입니다.2. 데이터 병합 및 범주변수 처..

1종 오류, 2종 오류, 그리고 유의확률(P-value)

연구실, 마케팅 현장 등 많은 곳에서 진리나 의사결정을 위해 가설 검정을 할 때 주의해야 할 오류들인 1종 오류, 2종오류가 있습니다. 그리고 1종 오류를 최소화하기 위한 기준인 유의확률도 있습니다. 이번에는 1종 오류, 2종 오류, 그리고 유의확률에 대해 알아보겠습니다. 1종 오류, 2종 오류, 그리고 유의확률(P-value) 목차 1. 1종 오류와 2종오류 2. P-value 1. 1종 오류와 2종오류처음 통계를 접하는 분들께 1종 오류와 2종 오류를 바로 통계적으로 설명하면 이해하기 어려울 수 있습니다.그래서 1종 오류와 2종 오류를 설명하기 위해 가설 검정을 재판으로 비유해보겠습니다. 2024년 절도 사건의 유력한 용의자 김OO씨가 피고인이 되어 재판을 받게 되었습니다. 대한민국 형사사법체계에서 ..

git, github, 그리고 branch

개인이 작업하는 코드의 버전을 관리할 때, 그리고 다른 사람들과 협업을 할 때 가장 많이 쓰이는 프로그램과 사이트는 바로 git과 github입니다. git과 github를 간단하게 살펴보고 핵심 기능 중 하나인 branch에 대해 알아보겠습니다. git, github, 그리고 branch 목차 1. git과 github 2. branch 1) 간단한 명령어 1. git과 githubgit은 간단하게 말하면 코드를 관리하고 다른 사람과 협업을 할 수 있는 프로그램입니다. git이 코드의 버전을 관리하는 방식은 내가 작업하고 있는 디렉토리를 스냅샷처럼 찍고 레포지토리(repository)에 보관합니다. 그렇기 때문에 지난 버전을 확인할 수 있고, 지난 버전으로 되돌아갈 수 있습니다. 기존 unix커맨드와 ..