전체 글 41

RFM 분석

코호트나 세그먼트 분석을 위해 자주 사용되는 기준인 RFM 분석에 대해 알아보겠습니다. RFM 분석 목차 1. RFM 분석1. RFM 분석RFM 분석은 Recency(얼마나 최근에 구매했는가?), Frequency(얼마나 자주 구매했는가?), Monetory(얼마나 많이 구매했는가?)의 앞글자를 따서 만들었습니다. 즉, 고객들을 얼마나 최근에, 얼마나 자주, 얼마나 많은 금액을 지출했는지에 따라 사용자들의 분포를 확인하거나 세그먼트를 하는 방법입니다.RFM 분석을 통해 고객들을 세그먼트하고 각 집단에 맞는 맞춤형 전략을 구사할 수 있습니다. 각 요소가 의미하는 바는 아래와 같습니다.Recency: 최근 구매할 고객일수록 다시 구매할 가능성이 높습니다. Frequency: 구매 빈도가 높을수록 다시 구매할..

코호트 vs. 세그먼트

이번에는 비슷하지만 다른, 코호트와 세그먼트에 짧고 간단하게 알아보겠습니다. 코호트 vs. 세그먼트 목차 1. 세그먼트2. 코호트 1. 세그먼트세그먼트는 몇 가지 기준을 정해 자사의 서비스를 이용하는 고객들로부터 각 기준에 따라 나타나는 특징에 따라 분류하고 군집하는 작업을 의미합니다. 세그먼트를 통해 고객들을 여러 집단으로 분류하면 각 집단마다 분석 결과가 다르게 나타날 수 있고 그에 따른 마케팅 전략이 달라질 수 있습니다. 고객 세그먼트를 위해 주로 클러스터링 분석을 사용합니다. 2. 코호트코호트는 특정 기간 안에서, 공통적인 특성이나 행동 양식을 공유하는 사용자 그룹(집단)을 의미하나, 프로덕트 분석에서는 흔히 '같은 시기에 가입한 사용자들'을 지칭하는 용어로 사용됩니다.세그먼트처럼 자사의 서비스를..

AARRR 프레임워크

이번에는 마케팅 분야에서 데이터를 수집하기 위해 많이 사용하는 AARRR 프레임워크에 대해 알아보겠습니다. AARRR 프레임워크 목차 1. AARRR 프레임워크란? 2. 세부 요소 살펴보기 1) Acquisition(획득) 2) Activation(활성화) 3) Retention(유지) 4) Revenue(수익) 5) Referral(추천) 1. AARRR 프레임워크란?AARRR 프레임워크는 Acquisition, Action, Retention, Revenue, Referral의 앞글자를 따서 만든 프레임워크로, 제품 중심의 성장 기업이 추적해야 하는 5가지 사용자 행동 지표를 의미합니다.AARRR은 고객이 처음 제품(서비스)을 접하는 Acquisition부터 사용 후 주변인들에게 추천하는 Referr..

스프린트 회고 10주차 (24.09.23~24.09.29)

파트1 - 6팀 뒤풀이대구에 사는 팀원이 서울에 올라온다고 해서 모일 수 있는 모든 팀원들이 선릉 위워크에 모였다. 화면에서 앉은 모습만 보다가 실제로 만나보니 다들 잘생기고 키도 컸다. 그리고 신기했던 점은 그 날 모인 4명 중 담배를 피는 사람 하나 없고 다들 술도 잘 못 마셨다.  수업 중 쉬는 시간마다 새로 바뀐 팀 분위기는 어떤지, 수업 내용은 어땠는지 등 이야기를 나눴다. 점심 시간이 되어서야 프로젝트 기간 때 다루지 않았던 나이를 얘기했다. 나는 그동안 우리 팀 평균 연령이 나와 비슷할 것이라고 생각했고, 내가 제일 많을 것이라 생각했다. 그런데 내가 3번째였다;; 일부 나이를 공개한 다른 팀들의 정보와 종합해보니 파트 1 팀 구성은 나이 순으로 자른 것 같았다. 수업이 끝나고 팀원들끼리 선..

스프린트 회고 8~9주차(24.09.09 ~ 24.09.22)

클러스터링, PCA이제부터 나도 이론으로만 배웠지 실제로 잘 쓰지 않았던 분석 기법을 배우고 실습했다.특히, PCA의 개념은 선형대수학을 배워야 완벽히 이해할 수 있는데 이 이론을 하루 이틀만에 다 배우려고하니 수강생들도 힘들고 강사님도 힘드셨던 것 같다. 나도 이전에 배웠던 자료들을 꺼내보며 그 개념을 다시 떠올렸다. 이론은 이전에 배운 기억이 있으니 따라가기 벅차지 않았지만 실습은 다른 얘기였다. 특히 클러스터링에서 DBSCAN을 하는데 예시로 받은 데이터에서 DBSCAN을 구현하기 어려웠다. 강사님은 이상치를 탐지하기 위해 DBSCAN을 사용했고 결과를 보여주셨지만 나는 전처리를 다르게 해서 그런지 DBSCAN의 하이퍼 파라미터를 바꿔도 이상치를 탐지하는 용도로 사용하기 어려웠다. 그리고 이제 실습..

스프린트 회고 [초급 프로젝트] (24.08.27~24.09.10)

1. 주제 선정주제를 정하는 게 가장 오래 걸리고 바꾼 횟수도 많았다.각자 관심을 가지고 온 주제가 모두 재밌을 것 같았고, 주제를 찾기 위해 팀원들이 얼마나 노력했는지 봤기 때문이다.한 팀원은 데이터를 얻기 위해 유관 기관에 직접 전화도 할 정도였다.처음에는 노인의 지하철 이용 현황 및 이용 편의 증진 vs. 개인형 이동장치(공유 킥보드 등) 주행 현황이었다. 주제에 대한 데이터를 찾아보고 적합한 것이 있으면 사용하기로 했다. 결국 개인형 이동장치 주행 데이터를 구할 수 없어 노인 지하철 이용 현황 및 이용 편의 증진으로 방향을 잡았다.하지만, 이대로 분석을 진행하면 나오는 결과가 뻔하고 재미가 없을 것 같다는 피드백을 받으면서 보다 심층적인 내용을 담을 수 있는 노인 무임승차의 사회, 경제적 효과로 ..

연관 분석(장바구니 분석)

이번에는 장바구니 분석이라고도 불리는 연관 분석에 대해 알아보겠습니다. 연관 분석 목차1. 연관 분석 1) 개념 2) 주요 지표 3) 활용 사례 4) 파이썬 라이브러리 1. 연관 분석1) 개념연관 분석은 대량의 데이터에 숨겨진 항목 간의 연관규칙을 찾아내는 기법입니다.데이터 간의 관계에서 조건과 결과(if ~ then)를 찾는 것이죠.예를 들어 홈플러스에서 당당치킨을 사면 콜라도 같이 사는지 여부를 분석하는 것이 연관 분석입니다.연관 분석은 인과관계를 분석하는 것과 다릅니다. 연관과 인과 모두 "A 이후 B가 발생한다." 라는 선후 관계가 있습니다.하지만, 인과관계는 'A 때문에 B가 발생한다.'라는 선행 조건이 결과를 이끌어 낸다는 것을 전제하지만 연관관계는 A가 발생했을 때 B가 발생할 확률을 구하는..

스프린트 회고 6주차(24.08.26~24.09.01)

채용 공고 탐색취업 준비를 위한 활동으로 매일 아침 1시간씩 채용 공고 탐색 시간을 가지기로 했다.채용 공고를 살펴보면서 느낀 것은 요즘 경력없는 쌩 신입을 채용하는 회사가 거의 없다는 것이다.데이터 분석 관련 업무는 주니어라고 해도 대부분 1년 이상의 경력을 요구했다.그래서 계약직이라도 하면서 경력을 쌓아야겠다는 생각이 들었다. 또 다른 점은 SQL을 혼자서라도 먼저 배우기 시작해야겠다는 생각이 들었다.대부분의 채용 공고에서 SQL 사용이 필수거나 우대사항이었다. 태블로(Tableau) 학습전문 시각화 프로그램인 태블로를 배웠다.시각화를 전문적으로 만드는 프로그램은 처음 다루어보는데 gui를 채용해 쉽게 접근할 수 있으면서 다양한 그래프와 대시보드까지 만들 수 있어 신기했고 재밌었다.각만 잡으면 mat..

스프린트 회고 5주차(24.08.19~24.08.25)

태니지먼트 강점 검사일반적인 성격(강점)검사와 유사하나 문항당 시간제한이 있다는 점이 특이했다.검사 결과, 내가 가진 강점은 평가와 완성으로, 주로 논리와 신중함을 강조한다. 다른 검사를 할 때 나왔던 부분들과 유사했다.완성 부분은 좀 더 줄이고 싶었는데 어쩔 수 없나보다.코드잇에서 스프린터를 위해 기업용으로 검사 시스템을 구입해서 다른 스프린터나 팀원들의 강점을 조합해 볼 수 있는 재미가 있었다.우리 팀에서 나와 거의 유사한 분도 있었고 완전히 다른 방향으로 강점을 가지신 분도 있었다.일반인들도 무료로 할 수 있는 버전이 있어 와이프에게도 권유했는데 나와 반대로 나와 한참을 웃었다.   장표 구성사실 수업 발제 혹은 연구 발표만을 위한 ppt만 만들었는데 이번에 장표 구성에 대해 제대로 배웠다. 특히,..

히스토그램의 한계점

데이터 분포를 살펴보기 위해 많이 사용하는 그래프 중 하나가 히스토그램입니다. 히스토그램이 가지고 있는 한계점과 이를 극복하기 위한 방법 중 하나인 커널밀도함수(kde)를 살펴보겠습니다. 히스토그램의 한계점 목차1. 히스토그램 1) 특징 2) 한계점2. 극복 방법: 커널밀도함수(kde)1. 히스토그램1) 특징히스토그램은 연속형 변수의 분포를 나타내기 위해 계급으로 구간을 나누고, 계급에 해당하는 값들의 수를 y축으로 표시하는 그래프입니다. 히스토그램은 그리기 쉽고 전반적인 데이터 분포를 빠르게 살펴보기 좋다는 장점이 있습니다. 2) 한계점하지만, 히스토그램이 완벽한 시각화 방법은 아닙니다. 히스토그램은 세 가지 문제점이 있습니다. 1) 연속형 변수에 대해 사용하지만 연속형 변수를 구간으로 나눠버리기 때문..