분류 전체보기 48

AI로 실무형 SQL 쿼리 테스트 준비하기

목차 쿼리 테스트, 왜 이렇게 어렵게 느껴졌을까? 연습은 했는데, 왜 결과가 안 좋았을까? ChatGPT에게 실무형 문제를 요청하는 법 실제로 받은 문제들: 이런 수준이 나왔다 MySQL에서 바로 실행 가능한 샘플 데이터 AI에게 내 쿼리를 피드백 받는 방법 결과는 어땠을까? 마무리: AI는 SQL 공부의 좋은 파트너다 1. 쿼리 테스트, 왜 이렇게 어렵게 느껴졌을까?데이터 직군을 준비하거나 이직을 고민하는 분들이라면, SQL 쿼리 테스트가 얼마나 긴장되는 관문인지 잘 아실 겁니다.SQL 문법 자체는 어렵지 않다고 느꼈는데, 막상 테스트를 앞두고 나니 '실제로 어떤 유형의 문제가 나올까?', '어느 정도 수준까지 준비해야 할까?' 하는 질문들이 머릿속을 가..

with AI 2026.03.10

무료 데이터셋으로 리텐션 분석 연습하기(SQL)

안녕하세요, SQL로 리텐션 분석을 연습하고 싶은 분께 추천드리고 싶은 데이터셋이 있어서 소개드립니다.바로 Iranian Cosmetics & Personal Care Sales Dataset 입니다. (클릭 시 kaggle 사이트로 이동)실제 이란의 2025년 화장품 및 퍼스널 케어 구매 데이터(트랜잭션)를 참고한 합성 데이터셋으로 Kaggle에 공개되어있습니다. 다운로드를 받으면 csv 파일로 구할 수 있습니다.1. 데이터셋 살펴보기데이터는 아래와 같이 구성되어 있습니다.select * from invoices limit 1컬럼명의미InvoiceId송장 고유번호(INT)OrderDate주문일자(YYYY-MM-DD)ProductId제품 고유번호(INT)CustomerId고객 고유번호(INT)ShipMo..

데이터 분석 2026.01.23

리텐션에서 ‘스마일 커브’는 언제 나타나는가

안녕하세요, 최근 리텐션을 공부하다가 '스마일 커브'라는 흥미로운 유형의 리텐션 커브를 알게 되었습니다. 쉽게 나타나지 않는 모양이기 때문에 스마일 커브가 발생한 사례를 모으고 스마일커브가 언제 발생하는지 정리했습니다. 리텐션에서 '스마일 커브'는 언제 나타나는가 목차 1. 스마일 커브 2. 사례 1) 에버노트 2) ChatGPT 3) Missbeez 4) 무니스 3. 스마일 커브는 언제 나타나는가? 1. 스마일 커브스마일 커브는 리텐션 코호트 그래프에서 다음과 같은 형태를 의미합니다.초기 사용 이후 리텐션이 감소일정 시점 이후 리텐션이 다시 상승장기 코호트에서 사용 비율이 회복되거나 더 높아짐이는 두 가지 현상이 동시에 일어날 때 가능합니다.한 번 이탈한 사용자가 다시 돌아온다 (Resurrection..

비즈니스 지표 2026.01.08

생성형 AI를 이용한 워크플로우 개선

ChatGPT와 Claude 등 생성형 AI를 이용해 수동으로 작업했던 과정을 개선한 경험을 공유드립니다. 생성형 AI를 이용한 워크플로우 개선 목차 1. 문제 및 현황 2. 워크플로우 개선 3. 결과 1. 문제 및 현황저희 회사는 IT교육기관과 협력해 부트캠프 수강생들에게 노트북을 대여하는 사업도 하고 있습니다. 그리고 그 과정에서 노트북을 관리하는 것은 필수입니다. 오퍼레이션 팀은 수강생들이 대여한 노트북을 관리하기 위해 리툴에서 엔지니어팀이 만들어 준 앱을 이용해 회사 소프트웨어 DB에 수동으로 학생들을 등록하고 있었습니다. 문제는 수백 명을 등록해야 하는데 아래 사진처럼 모든 항목을 타이핑해서 등록하는 것은 너무 오래 걸리고, 엔지니어팀에 요청하기에는 당장 처리해야 할 일들이 산더미라는 것입니다...

with AI 2025.10.30

가장 간단한 방법으로 문제 해결하기: 결제일 예측 프로세스 개선

이번에는 제가 처음으로 맡았던 업무인 결제일 예측 프로세스 개선 사례에 대해 알려드리려고 합니다. 결제일 예측을 개선하기 위해 다양한 방법을 고민했다가 가장 간단한 방법인 결제일을 기반으로 예측해서 정확도를 높였습니다. 가장 간단한 방법으로 문제 해결하기: 결제일 예측 프로세스 개선 목차 1. 문제 및 현황 2. EDA 1) 결제일 간격 2) 결제일 빈도 3) 인사이트 3. 가설 검증 1) 가설 2) 결제일 빈도 기반 예측 로직 3) 가설 검증 4) 결과 1. 문제 및 현황1) 문제제가 다니는 회사에서는 주간 리포트를 통해 고객사의 지난 주 소프트웨어 결제 내역과 주요 포인트를 제공하고 이번 주에 발생할 결제를 예측해서 안내하고 있습니다. 그런데 이번 주 결제일 예측의 정확도가 낮다는 피드백을 받고 확인..

데이터 분석 2025.10.29

데이터 분석에서 B2B와 B2C의 차이

안녕하세요, 저는 올해 6월부터 SaaS를 비롯한 IT자산을 관리하는 스타트업의 데이터 분석가로 커리어를 시작했습니다. 지금까지 데이터 분석을 하면서 느꼈던 B2B와 B2C의 차이를 간단하게 적어보려고 합니다. 데이터 분석에서 B2B와 B2C의 차이 목차 1. 규모 2. 설득 대상 3. 피드백 방법 1. 규모일반적인 B2C 사업은 수많은 개인 고객들을 상대하기 때문에 표본의 크기가 매우 큽니다. 그렇기 때문에 유저 행동 데이터를 기반으로 A/B 테스트, 리텐션 분석 등 다양한 정량적 분석 방법을 사용할 수 있습니다. 반면, B2B 사업은 고객 수가 상대적으로 적습니다. 물론, slack이나 notion처럼 글로벌 기업에서는 충분한 표본이 있겠으나 제가 근무하는 스타트업에서는 활성 고객사 수가 100곳 ..

데이터 분석 2025.10.29

[후기] 넛지헬스케어 데이터분석 코딩 테스트

넛지헬스케어 데이터분석 직무 채용 과정 중 서류 전형 후 응시하는 코딩 테스트 후기입니다.넛지헬스케어 데이터분석 코딩 테스트 목차 1. 지원 직무 2. 코딩테스트 1) 플랫폼: 코드시그널 2) 방식 3) 난이도 3. 소감 1. 지원 직무캐시워크를 운영하는 넛지헬스케어에서 캐시워크의 데이터분석을 담당하는 채용전환형 인턴에 지원했습니다.지원서 제출 후 다음 날에 코딩테스트 안내 메일이 왔습니다. 2. 코딩테스트1) 플랫폼: 코드시그널코드시그널이라는 해외 플랫폼에서 코딩테스트를 했습니다. 해외 플랫폼이기 때문에 영어로 코딩테스트가 진행되는데 쉽게 서술되어 있고 프로그래머스처럼 문제 제시 후 예시를 보여주기 때문에 이해하는데 큰 어려움은 없었습니다.준비를 한다면 리트코드에서 영어로 제공하는 문제들을 풀어보는 것..

취업 준비 2025.04.22

Fandom-K 데이터베이스 설계

본 미션은 가상의 서비스 "Fandom-K"의 와이어프레임을 바탕으로 진행되었습니다.Fandom-K은 K-pop 아티스트와 팬을 이어주는 글로벌 조공 플랫폼입니다. 아직 서비스의 와이어프레임만 있을 뿐, 아직 개발을 시작하진 않았다고 가정해볼게요. 여러분은 Fandom-K의 데이터 인프라를 담당하는 데이터 엔지니어로써 해당 서비스의 DB를 구축해야합니다.하단의 서비스 소개를 참고하여 서비스 전체의 ERD 다이어그램을 그려봅시다. 어떤 테이블이 필요할까요? 테이블간의 관계(식별/비식별 관계, 카디널리티, 컬럼의 PK와 FK 등)와 테이블 정규화를 고려하면서 작성해주세요.작성한 ERD 다이어그램을 기반으로 직접 MySQL에 구현해봅시다. "FandomK"라는 데이터베이스를 하나 생성하고, DDL 문 작성을 ..

베이커리 구매 패턴 분석을 통한 운영전략 구상

안녕하세요, 이번에는 EDA와 연관 분석을 활용해 베이커리를 구매하는 사람들이 같이 구매하는 메뉴가 무엇인지 확인하고 이에 따른 운영 전략을 구상해보았습니다.베이커리 구매 패턴 분석을 통한 운영전략 구상 목차 1. 데이터 전처리 2. EDA 1) 월별 거래 수 2) 판매 물품 3) 요일별 거래 수 4) 시간 및 품목별 거래 수 3. 연관분석 4. 종합 5. 후기 1. 데이터 전처리이번 분석은 캐글에서 제공하는 Bakery Sales Dataset 데이터셋을 사용했습니다. 해당 데이터는 영국 에든버러의 한 베이커리에서 발생한 트랜잭션(transaction) 정보가 담겨있습니다.변수명설명Transaction거래 IDItem구매한 제품명date_time거래 날짜 및 시각period_day아침/오후/저녁/밤 중..

결정 트리와 부스팅

이번 시간에는 결정 트리와 부스팅에 대해 알아보겠습니다. 결정 트리와 부스팅 목차 1. 결정트리 2. 부스팅 1) AdaBoost 2) GBM 3) XGBoost 4) LightGBM1. 결정트리결정트리는 데이터를 반복적으로 분할하여 결과를 예측하거나 분류하는 트리 형태의 모델입니다.위 그림은 Iris 데이터에 결정 트리를 적용한 예시이며, 결정 트리에서 자주 사용되는 용어는 아래 표에 작성했습니다.용어설명뿌리 노드(root node)전체 의사결정나무가 시작되는 마디로, 전체 자료를 포함부모 노드(parent node)주어진 마디의 상위에 있으며 자녀 노드를 가지고 있음자녀 노드(child node)부모 마디로부터 분리되어 나간 2개 이상의 마디.자녀 노드는 또 다른 부모 노드가 될 수 있음리프 노드(l..