코드잇스프린트 38

Fandom-K 데이터베이스 설계

본 미션은 가상의 서비스 "Fandom-K"의 와이어프레임을 바탕으로 진행되었습니다.Fandom-K은 K-pop 아티스트와 팬을 이어주는 글로벌 조공 플랫폼입니다. 아직 서비스의 와이어프레임만 있을 뿐, 아직 개발을 시작하진 않았다고 가정해볼게요. 여러분은 Fandom-K의 데이터 인프라를 담당하는 데이터 엔지니어로써 해당 서비스의 DB를 구축해야합니다.하단의 서비스 소개를 참고하여 서비스 전체의 ERD 다이어그램을 그려봅시다. 어떤 테이블이 필요할까요? 테이블간의 관계(식별/비식별 관계, 카디널리티, 컬럼의 PK와 FK 등)와 테이블 정규화를 고려하면서 작성해주세요.작성한 ERD 다이어그램을 기반으로 직접 MySQL에 구현해봅시다. "FandomK"라는 데이터베이스를 하나 생성하고, DDL 문 작성을 ..

베이커리 구매 패턴 분석을 통한 운영전략 구상

안녕하세요, 이번에는 EDA와 연관 분석을 활용해 베이커리를 구매하는 사람들이 같이 구매하는 메뉴가 무엇인지 확인하고 이에 따른 운영 전략을 구상해보았습니다.베이커리 구매 패턴 분석을 통한 운영전략 구상 목차 1. 데이터 전처리 2. EDA 1) 월별 거래 수 2) 판매 물품 3) 요일별 거래 수 4) 시간 및 품목별 거래 수 3. 연관분석 4. 종합 5. 후기 1. 데이터 전처리이번 분석은 캐글에서 제공하는 Bakery Sales Dataset 데이터셋을 사용했습니다. 해당 데이터는 영국 에든버러의 한 베이커리에서 발생한 트랜잭션(transaction) 정보가 담겨있습니다.변수명설명Transaction거래 IDItem구매한 제품명date_time거래 날짜 및 시각period_day아침/오후/저녁/밤 중..

결정 트리와 부스팅

이번 시간에는 결정 트리와 부스팅에 대해 알아보겠습니다. 결정 트리와 부스팅 목차 1. 결정트리 2. 부스팅 1) AdaBoost 2) GBM 3) XGBoost 4) LightGBM1. 결정트리결정트리는 데이터를 반복적으로 분할하여 결과를 예측하거나 분류하는 트리 형태의 모델입니다.위 그림은 Iris 데이터에 결정 트리를 적용한 예시이며, 결정 트리에서 자주 사용되는 용어는 아래 표에 작성했습니다.용어설명뿌리 노드(root node)전체 의사결정나무가 시작되는 마디로, 전체 자료를 포함부모 노드(parent node)주어진 마디의 상위에 있으며 자녀 노드를 가지고 있음자녀 노드(child node)부모 마디로부터 분리되어 나간 2개 이상의 마디.자녀 노드는 또 다른 부모 노드가 될 수 있음리프 노드(l..

신용카드 고객 세분화 및 마케팅 전략 수립

캐글의 Credit Card Dataset for Clustering  데이터를 사용해 주성분 분석과 Kmeans 클러스터링으로 신용카드 고객 세그먼트를 진행하고 마케팅 전략을 수립했습니다.신용카드 고객 세분화 및 마케팅 전략 수립 목차 1. 목표 2. EDA 및 데이터 전처리 3. 고객 유형 세분화 4. 고객 유형별 마케팅 전략 5. 후기1. 목표본 분석에서는 고객의 신용카드 사용 패턴을 분석해 고객 유형을 세분화하고 그에 맞는 마케팅 전략을 제시하는 것이 목표입니다.그래서 고객 유형을 세분화할 변인을 설정하고, 고객 유형을 세분화하는 단계를 거쳐 고객 유형에 맞는 마케팅 전략을 제시합니다.2. EDA 및 데이터 전처리데이터는 고객 ID부터 카드 소지 기간까지 총 18개의 변인이 있습니다. 그 중 양 ..

호텔 예약 취소 요인 탐색

코드잇 스프린트에서 제공하는 호텔 예약 데이터(캐글의 Hotel booking demand 에서 일부 수정)를 활용해 호텔 예약을 취소하는 요인이 무엇인지 EDA로 탐색하고 Tableau로 시각화했습니다.호텔 예약 취소 요인 탐색 목차 1. 가설 설정 & 데이터 전처리 2. EDA 3. 후기 1. 가설 설정본 분석은 호텔의 예약 취소에 영향을 주는 변인을 EDA로 탐색해보고자 진행되었습니다. 메인 가설을 '예약을 하는 데 노력을 많이 들이면 취소를 덜 한다'로 설정했습니다. 캐글의 데이터 설명을 바탕으로 '노력'을 조작적으로 정의하기 위해 호텔 위치, 예약 채널, 특별 요청 수를 변인으로 설정했고 그에 따른 세부 가설을 설정했습니다.1) 호텔 위치호텔 위치는 두 곳이 있었는데, 저는 도심과 리조트로 나누..

지도 학습과 비지도 학습, 손실 함수

안녕하세요, 오늘은 지도 학습과 비지도 학습, 그리고 손실함수에 대해 알아보겠습니다. 지도 학습과 비지도 학습, 그리고 손실 함수 목차 1. 지도학습 2. 비지도 학습 3. 손실 함수 1. 지도 학습머신러닝에서 지도학습은 학습 데이터와 함께 정답 데이터를 제공하는 학습 방식을 의미합니다. 컴퓨터는 주어진 데이터와 정답을 보며 관계를 학습합니다.지도 학습은 주로 입력 데이터에 대한 정확한 예측이 필요할 때 사용됩니다.지도 학습을 사용하는 알고리즘으로는1) 회귀: 선형 회귀, 로지스틱 회귀2) 분류: 의사결정나무, 랜덤 포레스트, SVM 등이 있습니다. 2. 비지도 학습반면, 비지도 학습은 컴퓨터에게 정답과 관련된 데이터를 제공하지 않는 학습 방식입니다. 정답이 없기 때문에 컴퓨터는 주어진 데이터들의 패턴이..

로그 데이터

안녕하세요, 오늘은 그로스해킹이나 A/B 테스트 등 지표를 수립하려면 전에 꼭 거쳐야 할 로그 데이터에 대해 알아보겠습니다. 로그 데이터 목차 1. 로그 데이터 2. 특징 1) User 2) Event 1. 로그 데이터로그(log)는 사용자의 정보 및 행동을 기록한 데이터입니다.흔히 우리가 사용하는 어플이나 인터넷, 프로그램 모두 로그를 기록하고 있어요. 로그 데이터는 기업에서 A/B 테스트 결과를 분석하고 사용자의 행동 패턴을 이해하는데 사용됩니다.그렇기 때문에 기업에서는 자사에 필요한 로그를 선별하기 위해 어떤 유저가 어떤 영역에서 어떤 행동을 할 지 정의가 필요합니다. 일반적으로 분석에 활용할 수 있는 데이터는 서비스 운영 데이터와 사용자 행동 데이터로 나뉩니다.서비스 운영 데이터는 서비스 운영 과..

A/B테스트

안녕하세요, 이번에는 그로스해킹을 활용해 다양한 비즈니스 요소를 결정할 수 있는 테스트인 A/B 테스트에 대해 알아보겠습니다. A/B 테스트 목차 1. A/B테스트란? 2. 절차 3. 장점과 단점 1. A/B 테스트란?A/B 테스트는 동일 기간에 기존 안과 새로운 안 중 어떤 것이 더 나은지 사용자의 반응을 비교하는 대조실험입니다. A/B 테스트는 데이터를 기반으로 가설을 검증하고 인과관계를 입증하는데 중점을 둬 연구실에서 진행하는 사회과학 실험과 유사합니다. A/B 테스트는 제품, 마케팅, 알고리즘 등 다양한 분야에서 활용됩니다. A/B 테스트를 하기 좋은 질문의 예시는 아래와 같습니다.1. 신규 기능이 추가되면 유저가 우리 제품에 더 만족할까?2. push 메시지에 어떤 문구를 넣어야 클릭율이 높을까..

고객생애가치(LifeTime Value, LTV)

이번에는 AARRR 중 수익(Revenue) 지표로 많이 거론되지만 실제로 사용하기는 어려운 고객생애가치에 대해 알아보겠습니다.고객생애가치(LifeTime Value, LTV) 목차 1. 고객생애가치(LTV) 2. 예시1. 고객생애가치(LTV)고객생애가치는 한 명의 사용자가 진입하는 순간부터 이탈하는 순간까지의 전체 활동 기간에 누적해서 발생시키는 수익입니다. 앞에 Customer를 붙여 Customer Lifetime Value, CLV라고 부르기도 합니다.LTV를 계산하는 방법은 아래 그림과 같습니다.LTV는 한 명의 고객이 기업의 손님이 된 시점부터 모든 소비를 마치고 나갈 때까지 발생하는 수익에 비용을 뺀 값이라고 생각하시면 되겠습니다. 하지만 현실에서 평균 매출을 제외한 다른 값들은 구하기가 매..

기계식 키보드와 AARRR

안녕하세요, 이번에는 제가 개인적으로 좋아하는 기계식 키보드를 스프린트에서 배운 AARRR의 관점에서 설명해보겠습니다.키보드와 AARRR 목차 1. 기계식 키보드 시장 2. 기계식 키보드와 AARRR 1) Acquisition 2) Activation 3) Retention 4) Revenue 5) Referral 1. 기계식 키보드 시장기계식 키보드는 각 키에 기계식 스위치를 사용하는 키보드로, 일반 멤브레인 키보드보다 촉각 피드백과 반응성이 더 뛰어났습니다. 이전에는 주로 게임용으로 사용되어 PC방에 봤던 키보드입니다. 하지만 코로나19 팬데믹부터 키보드를 사용하는 일이 많아지면서 기계식 키보드에 대한 수요가 높아졌습니다.그 결과, 전세계 기계식 키보드 시장은 2023년 17억 5,730만 달러로 평..