머신러닝
실무에서 자주 사용되는 머신러닝 기법을 학습합니다. 고객 세그멘테이션, 이탈 예측, 매출 예측 등 비즈니스 문제 해결에 초점을 맞춥니다.
머신러닝 vs 통계
| 관점 | 통계 | 머신러닝 |
|---|---|---|
| 목적 | 추론, 가설 검증 | 예측, 패턴 발견 |
| 해석 | 모델 해석 중시 | 예측 성능 중시 |
| 데이터 | 작은 표본에서도 유효 | 대규모 데이터 필요 |
| 접근법 | 가정 기반 | 데이터 기반 |
커리큘럼
1. 클러스터링
중급비지도 학습으로 고객 세그멘테이션을 수행합니다.
- K-Means 클러스터링
- 최적 클러스터 수 결정 (Elbow, Silhouette)
- RFM 기반 고객 세그멘테이션
- 클러스터 프로파일링
- DBSCAN (밀도 기반 클러스터링)
2. 분류 모델
중급고급고객 이탈 예측, 구매 예측 등 분류 문제를 해결합니다.
- 로지스틱 회귀
- 결정 트리 (Decision Tree)
- 랜덤 포레스트 (Random Forest)
- XGBoost
- 모델 평가: 정확도, 정밀도, 재현율, F1, AUC-ROC
3. 회귀 예측
중급고급고객 생애가치(CLV), 매출 예측 등 연속값을 예측합니다.
- 선형 회귀
- 릿지(Ridge), 라쏘(Lasso) 회귀
- 랜덤 포레스트 회귀
- XGBoost 회귀
- 모델 평가: MAE, RMSE, R²
4. 시계열 예측
고급매출, 수요 등 시계열 데이터를 예측합니다.
- Prophet 기본 사용법
- 추세와 계절성 모델링
- 휴일 효과 반영
- 이상치 탐지
- 다중 시계열 예측
5. 추천 시스템
고급상품 추천 알고리즘을 구현합니다.
- 협업 필터링 (Collaborative Filtering)
- 콘텐츠 기반 필터링 (Content-Based)
- 하이브리드 추천
- 평가 지표: Precision@K, Recall@K, NDCG
ML 워크플로우
1. 문제 정의
└─ 비즈니스 목표를 ML 문제로 변환
↓
2. 데이터 수집 및 탐색 (EDA)
└─ 데이터 이해, 품질 확인
↓
3. 피처 엔지니어링
└─ 새로운 특성 생성, 변환
↓
4. 모델 학습
└─ 학습/검증 데이터 분리
└─ 여러 모델 비교
↓
5. 모델 평가
└─ 테스트 데이터로 성능 측정
↓
6. 배포 및 모니터링
└─ 실제 환경에 적용
└─ 성능 모니터링, 재학습주요 라이브러리
# 데이터 전처리
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split, cross_val_score
# 모델
from sklearn.cluster import KMeans
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
# 평가
from sklearn.metrics import (
accuracy_score, precision_score, recall_score, f1_score,
confusion_matrix, classification_report, roc_auc_score
)
# 시계열
from prophet import Prophet실행 결과
Error: No module named 'prophet'
모델 선택 가이드
ℹ️
어떤 모델을 선택해야 할까?
데이터가 적을 때 (< 1,000건)
- 로지스틱 회귀, 결정 트리
- 과적합 주의, 교차검증 필수
데이터가 많을 때 (> 10,000건)
- 랜덤 포레스트, XGBoost
- 하이퍼파라미터 튜닝 중요
해석이 중요할 때
- 로지스틱 회귀, 결정 트리
- 피처 중요도 분석
예측 성능이 중요할 때
- XGBoost, LightGBM
- 앙상블 기법
실무 팁
⚠️
흔한 실수 피하기
- 데이터 누수(Data Leakage): 미래 정보가 학습에 포함되지 않도록 주의
- 클래스 불균형: 이탈 예측 시 이탈자가 적음 → SMOTE, 가중치 조정
- 과적합: 학습 성능만 좋고 실제 성능 나쁨 → 교차검증 필수
- 피처 스케일링: 트리 기반 외 모델은 정규화/표준화 필요
Last updated on