코드잇 스프린트/통계 8

연관 분석(장바구니 분석)

이번에는 장바구니 분석이라고도 불리는 연관 분석에 대해 알아보겠습니다. 연관 분석 목차1. 연관 분석 1) 개념 2) 주요 지표 3) 활용 사례 4) 파이썬 라이브러리 1. 연관 분석1) 개념연관 분석은 대량의 데이터에 숨겨진 항목 간의 연관규칙을 찾아내는 기법입니다.데이터 간의 관계에서 조건과 결과(if ~ then)를 찾는 것이죠.예를 들어 홈플러스에서 당당치킨을 사면 콜라도 같이 사는지 여부를 분석하는 것이 연관 분석입니다.연관 분석은 인과관계를 분석하는 것과 다릅니다. 연관과 인과 모두 "A 이후 B가 발생한다." 라는 선후 관계가 있습니다.하지만, 인과관계는 'A 때문에 B가 발생한다.'라는 선행 조건이 결과를 이끌어 낸다는 것을 전제하지만 연관관계는 A가 발생했을 때 B가 발생할 확률을 구하는..

히스토그램의 한계점

데이터 분포를 살펴보기 위해 많이 사용하는 그래프 중 하나가 히스토그램입니다. 히스토그램이 가지고 있는 한계점과 이를 극복하기 위한 방법 중 하나인 커널밀도함수(kde)를 살펴보겠습니다. 히스토그램의 한계점 목차1. 히스토그램 1) 특징 2) 한계점2. 극복 방법: 커널밀도함수(kde)1. 히스토그램1) 특징히스토그램은 연속형 변수의 분포를 나타내기 위해 계급으로 구간을 나누고, 계급에 해당하는 값들의 수를 y축으로 표시하는 그래프입니다. 히스토그램은 그리기 쉽고 전반적인 데이터 분포를 빠르게 살펴보기 좋다는 장점이 있습니다. 2) 한계점하지만, 히스토그램이 완벽한 시각화 방법은 아닙니다. 히스토그램은 세 가지 문제점이 있습니다. 1) 연속형 변수에 대해 사용하지만 연속형 변수를 구간으로 나눠버리기 때문..

차원 축소와 주성분 분석(Principle Component Analysis, PCA)

안녕하세요, 데이터에 차원이 너무 많을 때 나타나는 문제를 해결하기 위한 차원 축소와 대표적인 차원 축소 방법 중 하나인 주성분 분석에 대해 알아보겠습니다. 차원 축소와 주성분 분석 목차 1. 데이터에 차원이 너무 많으면 어떻게 되나요? 2. 차원 축소 1) 차원 선택 2) 차원 추출 3. 주성분 분석 1) 과정 2) 고유벡터와 고유값 1. 데이터에 차원이 너무 많으면 어떻게 되나요?데이터에서 차원은 그래프에서 데이터의 위치를 나타내기 위해 필요한 축의 개수입니다. 변수의 수와 같다고 보면 되겠습니다. 예를 들어, 대한민국 사람들의 키와 몸무게를 측정한 데이터가 있는데, 그 중 한 명의 데이터를 표기하기 위해서는 키와 몸무게 2개의 차원(축)이 필요합니다.반면, 건강검진 데이터처럼 34개의 변수가 이루어..

기술통계와 추론통계

이번 시간에는 기술통계와 추론통계에 대해 알아보겠습니다. 기술통계와 추론통계 목차 1. 기술통계 2. 추론통계 1. 기술통계기술 통계는 현상에 대한 수치, 기술, 설명을 의미합니다. 가지고 있는 데이터(표본)을 요약해주는 통계인거죠.기술 통계를 통해 데이터의 대표값, 분포, 표준편차 등을 알 수 있습니다.판다스에서 .describe()를 통해 알 수 있는 값들이 대표적인 기술통계값들입니다. 위 그림은 판다스로 공공데이터포털에서 다운받을 수 있는 건강검진데이터에서 성별에 따른 신장, 체중, 허리둘레, 혈압의 기술통계를 살펴본 코드와 그 결과입니다.데이터 수, 평균, 표준편차, 최소값, 사분위수, 최대값을 보여주어 이 데이터가 어떤 특징을 가지고 있는지 수치로 보여줍니다.엑셀로 보면 최빈값, 첨도와 왜도 등..

사분위수

이번에는 사분위수가 무엇인지, 그리고 사분위수를 언제 어떻게 활용하는지 알아보겠습니다.사분위수 목차 1. 사분위수란? 2. 사분위수를 활용한 이상값 찾기 1. 사분위수란?사분위수는 모든 데이터를 순서대로 정렬했을 때 4등분한 지점에 있는 값입니다. 예를 들어, [1, 2, 5, 3, 9, 9, 6, 2, 7, 8, 4]라는 데이터들이 있을 때 이를 오름차순으로 정렬하면 [1, 2, 2, 3, 4, 5, 6, 7, 8, 9, 9]입니다.예시의 데이터 수는 11개죠. 여기서 4등분한 지점에 해당하는 값은 각각 2, 5, 8, 9입니다. 위치가 낮은 수치부터 Q1(25%), Q2(50%), Q3(75%), Q4(100%)로 명명됩니다.그 중 Q2는 중앙값, Q4는 최대값이라는 다른 명칭이 있어 Q2, Q4로 ..

t-test

가설 검정에서 사용되는 가장 기초적인 방법 중 하나인 t-test가 무엇인지, 그리고 t-test의 종류에는 무엇이 있는지 알아보겠습니다. t-test 목차 1. t-test란? 2. 일 표본 t 검정 3. 독립 표본 t 검정 4. 대응 표본 t 검정 1. t-test란?t-test(t 검정)는 모집단이 정규분포라는 사실을 알지만 모표준편차를 모를 때, 모집단의 평균을 추정하기 위해 모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 사용하는 가설 검정  방식입니다. 모표준편차를 몰라서 정규 분포를 확실히 쓰지 못하는데 어떤 분포를 사용할까요? 바로 t분포를 사용합니다. t분포는 모집단의 표준편차를 사용하는 z분포와 다르게 표본의 표준편차를 기저로 만들어진 분포입니다.표본의 표준편차를 활용해 만들어..

데이터 전처리 방법들

데이터 분석을 하기 전 꼭 필요한 데이터 전처리! 그 방법들을 살펴보겠습니다. 데이터 전처리 방법들 목차 1. 데이터 전처리란?2. 데이터 병합 및 범주변수 처리 1) 데이터병합 2) 범주변수 처리3. 결측값 처리 1) 결측값 2) 완전 분석법 3) 평균 대치법 4) 단순 확률 대치법 5) 다중 대치법4. 이상값 처리 1) 이상값 2) 삭제 3) 대체 4) 변환 1. 데이터 전처리데이터 전처리는 데이터 분석을 하기 전, 원시 데이터(raw data)를 데이터 분석에 사용하기 위해 적절한 데이터로 가공하는 것으로, 데이터 분석 중 가장 중요하고 가장 오랜 시간이 걸리는 과정입니다. 데이터 전처리 과정에서 할 일은 데이터 병합, 범주 변수 처리, 결측값 및 이상값 처리입니다.2. 데이터 병합 및 범주변수 처..

1종 오류, 2종 오류, 그리고 유의확률(P-value)

연구실, 마케팅 현장 등 많은 곳에서 진리나 의사결정을 위해 가설 검정을 할 때 주의해야 할 오류들인 1종 오류, 2종오류가 있습니다. 그리고 1종 오류를 최소화하기 위한 기준인 유의확률도 있습니다. 이번에는 1종 오류, 2종 오류, 그리고 유의확률에 대해 알아보겠습니다. 1종 오류, 2종 오류, 그리고 유의확률(P-value) 목차 1. 1종 오류와 2종오류 2. P-value 1. 1종 오류와 2종오류처음 통계를 접하는 분들께 1종 오류와 2종 오류를 바로 통계적으로 설명하면 이해하기 어려울 수 있습니다.그래서 1종 오류와 2종 오류를 설명하기 위해 가설 검정을 재판으로 비유해보겠습니다. 2024년 절도 사건의 유력한 용의자 김OO씨가 피고인이 되어 재판을 받게 되었습니다. 대한민국 형사사법체계에서 ..