머신러닝

실무에서 자주 사용되는 머신러닝 기법을 학습합니다. 고객 세그멘테이션, 이탈 예측, 매출 예측 등 비즈니스 문제 해결에 초점을 맞춥니다.

머신러닝 vs 통계

관점	통계	머신러닝
목적	추론, 가설 검증	예측, 패턴 발견
해석	모델 해석 중시	예측 성능 중시
데이터	작은 표본에서도 유효	대규모 데이터 필요
접근법	가정 기반	데이터 기반

커리큘럼

1. 클러스터링

중급

비지도 학습으로 고객 세그멘테이션을 수행합니다.

K-Means 클러스터링
최적 클러스터 수 결정 (Elbow, Silhouette)
RFM 기반 고객 세그멘테이션
클러스터 프로파일링
DBSCAN (밀도 기반 클러스터링)

클러스터링 시작하기 →

2. 분류 모델

중급고급

고객 이탈 예측, 구매 예측 등 분류 문제를 해결합니다.

로지스틱 회귀
결정 트리 (Decision Tree)
랜덤 포레스트 (Random Forest)
XGBoost
모델 평가: 정확도, 정밀도, 재현율, F1, AUC-ROC

분류 모델 시작하기 →

3. 회귀 예측

중급고급

고객 생애가치(CLV), 매출 예측 등 연속값을 예측합니다.

선형 회귀
릿지(Ridge), 라쏘(Lasso) 회귀
랜덤 포레스트 회귀
XGBoost 회귀
모델 평가: MAE, RMSE, R²

회귀 예측 시작하기 →

4. 시계열 예측

고급

매출, 수요 등 시계열 데이터를 예측합니다.

Prophet 기본 사용법
추세와 계절성 모델링
휴일 효과 반영
이상치 탐지
다중 시계열 예측

시계열 예측 시작하기 →

5. 추천 시스템

고급

상품 추천 알고리즘을 구현합니다.

협업 필터링 (Collaborative Filtering)
콘텐츠 기반 필터링 (Content-Based)
하이브리드 추천
평가 지표: Precision@K, Recall@K, NDCG

ML 워크플로우


1. 문제 정의
   └─ 비즈니스 목표를 ML 문제로 변환
       ↓
2. 데이터 수집 및 탐색 (EDA)
   └─ 데이터 이해, 품질 확인
       ↓
3. 피처 엔지니어링
   └─ 새로운 특성 생성, 변환
       ↓
4. 모델 학습
   └─ 학습/검증 데이터 분리
   └─ 여러 모델 비교
       ↓
5. 모델 평가
   └─ 테스트 데이터로 성능 측정
       ↓
6. 배포 및 모니터링
   └─ 실제 환경에 적용
   └─ 성능 모니터링, 재학습

주요 라이브러리


# 데이터 전처리
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split, cross_val_score
 
# 모델
from sklearn.cluster import KMeans
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
 
# 평가
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score, f1_score,
    confusion_matrix, classification_report, roc_auc_score
)
 
# 시계열
from prophet import Prophet

실행 결과

Error: No module named 'prophet'

모델 선택 가이드

ℹ️

어떤 모델을 선택해야 할까?

데이터가 적을 때 (< 1,000건)

로지스틱 회귀, 결정 트리
과적합 주의, 교차검증 필수

데이터가 많을 때 (> 10,000건)

랜덤 포레스트, XGBoost
하이퍼파라미터 튜닝 중요

해석이 중요할 때

로지스틱 회귀, 결정 트리
피처 중요도 분석

예측 성능이 중요할 때

XGBoost, LightGBM
앙상블 기법

실무 팁

⚠️

흔한 실수 피하기

데이터 누수(Data Leakage): 미래 정보가 학습에 포함되지 않도록 주의
클래스 불균형: 이탈 예측 시 이탈자가 적음 → SMOTE, 가중치 조정
과적합: 학습 성능만 좋고 실제 성능 나쁨 → 교차검증 필수
피처 스케일링: 트리 기반 외 모델은 정규화/표준화 필요