코드잇스프린트 38

RFM 분석

코호트나 세그먼트 분석을 위해 자주 사용되는 기준인 RFM 분석에 대해 알아보겠습니다. RFM 분석 목차 1. RFM 분석1. RFM 분석RFM 분석은 Recency(얼마나 최근에 구매했는가?), Frequency(얼마나 자주 구매했는가?), Monetory(얼마나 많이 구매했는가?)의 앞글자를 따서 만들었습니다. 즉, 고객들을 얼마나 최근에, 얼마나 자주, 얼마나 많은 금액을 지출했는지에 따라 사용자들의 분포를 확인하거나 세그먼트를 하는 방법입니다.RFM 분석을 통해 고객들을 세그먼트하고 각 집단에 맞는 맞춤형 전략을 구사할 수 있습니다. 각 요소가 의미하는 바는 아래와 같습니다.Recency: 최근 구매할 고객일수록 다시 구매할 가능성이 높습니다. Frequency: 구매 빈도가 높을수록 다시 구매할..

코호트 vs. 세그먼트

이번에는 비슷하지만 다른, 코호트와 세그먼트에 짧고 간단하게 알아보겠습니다. 코호트 vs. 세그먼트 목차 1. 세그먼트2. 코호트 1. 세그먼트세그먼트는 몇 가지 기준을 정해 자사의 서비스를 이용하는 고객들로부터 각 기준에 따라 나타나는 특징에 따라 분류하고 군집하는 작업을 의미합니다. 세그먼트를 통해 고객들을 여러 집단으로 분류하면 각 집단마다 분석 결과가 다르게 나타날 수 있고 그에 따른 마케팅 전략이 달라질 수 있습니다. 고객 세그먼트를 위해 주로 클러스터링 분석을 사용합니다. 2. 코호트코호트는 특정 기간 안에서, 공통적인 특성이나 행동 양식을 공유하는 사용자 그룹(집단)을 의미하나, 프로덕트 분석에서는 흔히 '같은 시기에 가입한 사용자들'을 지칭하는 용어로 사용됩니다.세그먼트처럼 자사의 서비스를..

AARRR 프레임워크

이번에는 마케팅 분야에서 데이터를 수집하기 위해 많이 사용하는 AARRR 프레임워크에 대해 알아보겠습니다. AARRR 프레임워크 목차 1. AARRR 프레임워크란? 2. 세부 요소 살펴보기 1) Acquisition(획득) 2) Activation(활성화) 3) Retention(유지) 4) Revenue(수익) 5) Referral(추천) 1. AARRR 프레임워크란?AARRR 프레임워크는 Acquisition, Action, Retention, Revenue, Referral의 앞글자를 따서 만든 프레임워크로, 제품 중심의 성장 기업이 추적해야 하는 5가지 사용자 행동 지표를 의미합니다.AARRR은 고객이 처음 제품(서비스)을 접하는 Acquisition부터 사용 후 주변인들에게 추천하는 Referr..

스프린트 회고 10주차 (24.09.23~24.09.29)

파트1 - 6팀 뒤풀이대구에 사는 팀원이 서울에 올라온다고 해서 모일 수 있는 모든 팀원들이 선릉 위워크에 모였다. 화면에서 앉은 모습만 보다가 실제로 만나보니 다들 잘생기고 키도 컸다. 그리고 신기했던 점은 그 날 모인 4명 중 담배를 피는 사람 하나 없고 다들 술도 잘 못 마셨다.  수업 중 쉬는 시간마다 새로 바뀐 팀 분위기는 어떤지, 수업 내용은 어땠는지 등 이야기를 나눴다. 점심 시간이 되어서야 프로젝트 기간 때 다루지 않았던 나이를 얘기했다. 나는 그동안 우리 팀 평균 연령이 나와 비슷할 것이라고 생각했고, 내가 제일 많을 것이라 생각했다. 그런데 내가 3번째였다;; 일부 나이를 공개한 다른 팀들의 정보와 종합해보니 파트 1 팀 구성은 나이 순으로 자른 것 같았다. 수업이 끝나고 팀원들끼리 선..

스프린트 회고 8~9주차(24.09.09 ~ 24.09.22)

클러스터링, PCA이제부터 나도 이론으로만 배웠지 실제로 잘 쓰지 않았던 분석 기법을 배우고 실습했다.특히, PCA의 개념은 선형대수학을 배워야 완벽히 이해할 수 있는데 이 이론을 하루 이틀만에 다 배우려고하니 수강생들도 힘들고 강사님도 힘드셨던 것 같다. 나도 이전에 배웠던 자료들을 꺼내보며 그 개념을 다시 떠올렸다. 이론은 이전에 배운 기억이 있으니 따라가기 벅차지 않았지만 실습은 다른 얘기였다. 특히 클러스터링에서 DBSCAN을 하는데 예시로 받은 데이터에서 DBSCAN을 구현하기 어려웠다. 강사님은 이상치를 탐지하기 위해 DBSCAN을 사용했고 결과를 보여주셨지만 나는 전처리를 다르게 해서 그런지 DBSCAN의 하이퍼 파라미터를 바꿔도 이상치를 탐지하는 용도로 사용하기 어려웠다. 그리고 이제 실습..

스프린트 회고 6주차(24.08.26~24.09.01)

채용 공고 탐색취업 준비를 위한 활동으로 매일 아침 1시간씩 채용 공고 탐색 시간을 가지기로 했다.채용 공고를 살펴보면서 느낀 것은 요즘 경력없는 쌩 신입을 채용하는 회사가 거의 없다는 것이다.데이터 분석 관련 업무는 주니어라고 해도 대부분 1년 이상의 경력을 요구했다.그래서 계약직이라도 하면서 경력을 쌓아야겠다는 생각이 들었다. 또 다른 점은 SQL을 혼자서라도 먼저 배우기 시작해야겠다는 생각이 들었다.대부분의 채용 공고에서 SQL 사용이 필수거나 우대사항이었다. 태블로(Tableau) 학습전문 시각화 프로그램인 태블로를 배웠다.시각화를 전문적으로 만드는 프로그램은 처음 다루어보는데 gui를 채용해 쉽게 접근할 수 있으면서 다양한 그래프와 대시보드까지 만들 수 있어 신기했고 재밌었다.각만 잡으면 mat..

스프린트 회고 5주차(24.08.19~24.08.25)

태니지먼트 강점 검사일반적인 성격(강점)검사와 유사하나 문항당 시간제한이 있다는 점이 특이했다.검사 결과, 내가 가진 강점은 평가와 완성으로, 주로 논리와 신중함을 강조한다. 다른 검사를 할 때 나왔던 부분들과 유사했다.완성 부분은 좀 더 줄이고 싶었는데 어쩔 수 없나보다.코드잇에서 스프린터를 위해 기업용으로 검사 시스템을 구입해서 다른 스프린터나 팀원들의 강점을 조합해 볼 수 있는 재미가 있었다.우리 팀에서 나와 거의 유사한 분도 있었고 완전히 다른 방향으로 강점을 가지신 분도 있었다.일반인들도 무료로 할 수 있는 버전이 있어 와이프에게도 권유했는데 나와 반대로 나와 한참을 웃었다.   장표 구성사실 수업 발제 혹은 연구 발표만을 위한 ppt만 만들었는데 이번에 장표 구성에 대해 제대로 배웠다. 특히,..

히스토그램의 한계점

데이터 분포를 살펴보기 위해 많이 사용하는 그래프 중 하나가 히스토그램입니다. 히스토그램이 가지고 있는 한계점과 이를 극복하기 위한 방법 중 하나인 커널밀도함수(kde)를 살펴보겠습니다. 히스토그램의 한계점 목차1. 히스토그램 1) 특징 2) 한계점2. 극복 방법: 커널밀도함수(kde)1. 히스토그램1) 특징히스토그램은 연속형 변수의 분포를 나타내기 위해 계급으로 구간을 나누고, 계급에 해당하는 값들의 수를 y축으로 표시하는 그래프입니다. 히스토그램은 그리기 쉽고 전반적인 데이터 분포를 빠르게 살펴보기 좋다는 장점이 있습니다. 2) 한계점하지만, 히스토그램이 완벽한 시각화 방법은 아닙니다. 히스토그램은 세 가지 문제점이 있습니다. 1) 연속형 변수에 대해 사용하지만 연속형 변수를 구간으로 나눠버리기 때문..

차원 축소와 주성분 분석(Principle Component Analysis, PCA)

안녕하세요, 데이터에 차원이 너무 많을 때 나타나는 문제를 해결하기 위한 차원 축소와 대표적인 차원 축소 방법 중 하나인 주성분 분석에 대해 알아보겠습니다. 차원 축소와 주성분 분석 목차 1. 데이터에 차원이 너무 많으면 어떻게 되나요? 2. 차원 축소 1) 차원 선택 2) 차원 추출 3. 주성분 분석 1) 과정 2) 고유벡터와 고유값 1. 데이터에 차원이 너무 많으면 어떻게 되나요?데이터에서 차원은 그래프에서 데이터의 위치를 나타내기 위해 필요한 축의 개수입니다. 변수의 수와 같다고 보면 되겠습니다. 예를 들어, 대한민국 사람들의 키와 몸무게를 측정한 데이터가 있는데, 그 중 한 명의 데이터를 표기하기 위해서는 키와 몸무게 2개의 차원(축)이 필요합니다.반면, 건강검진 데이터처럼 34개의 변수가 이루어..

기술통계와 추론통계

이번 시간에는 기술통계와 추론통계에 대해 알아보겠습니다. 기술통계와 추론통계 목차 1. 기술통계 2. 추론통계 1. 기술통계기술 통계는 현상에 대한 수치, 기술, 설명을 의미합니다. 가지고 있는 데이터(표본)을 요약해주는 통계인거죠.기술 통계를 통해 데이터의 대표값, 분포, 표준편차 등을 알 수 있습니다.판다스에서 .describe()를 통해 알 수 있는 값들이 대표적인 기술통계값들입니다. 위 그림은 판다스로 공공데이터포털에서 다운받을 수 있는 건강검진데이터에서 성별에 따른 신장, 체중, 허리둘레, 혈압의 기술통계를 살펴본 코드와 그 결과입니다.데이터 수, 평균, 표준편차, 최소값, 사분위수, 최대값을 보여주어 이 데이터가 어떤 특징을 가지고 있는지 수치로 보여줍니다.엑셀로 보면 최빈값, 첨도와 왜도 등..