Skip to Content
이론 및 개념 (Concepts)Machine Learning개요

머신러닝

실무에서 자주 사용되는 머신러닝 기법을 학습합니다. 고객 세그멘테이션, 이탈 예측, 매출 예측 등 비즈니스 문제 해결에 초점을 맞춥니다.

머신러닝 vs 통계

관점통계머신러닝
목적추론, 가설 검증예측, 패턴 발견
해석모델 해석 중시예측 성능 중시
데이터작은 표본에서도 유효대규모 데이터 필요
접근법가정 기반데이터 기반

커리큘럼

1. 클러스터링

중급

비지도 학습으로 고객 세그멘테이션을 수행합니다.

  • K-Means 클러스터링
  • 최적 클러스터 수 결정 (Elbow, Silhouette)
  • RFM 기반 고객 세그멘테이션
  • 클러스터 프로파일링
  • DBSCAN (밀도 기반 클러스터링)

클러스터링 시작하기 →


2. 분류 모델

중급고급

고객 이탈 예측, 구매 예측 등 분류 문제를 해결합니다.

  • 로지스틱 회귀
  • 결정 트리 (Decision Tree)
  • 랜덤 포레스트 (Random Forest)
  • XGBoost
  • 모델 평가: 정확도, 정밀도, 재현율, F1, AUC-ROC

분류 모델 시작하기 →


3. 회귀 예측

중급고급

고객 생애가치(CLV), 매출 예측 등 연속값을 예측합니다.

  • 선형 회귀
  • 릿지(Ridge), 라쏘(Lasso) 회귀
  • 랜덤 포레스트 회귀
  • XGBoost 회귀
  • 모델 평가: MAE, RMSE, R²

회귀 예측 시작하기 →


4. 시계열 예측

고급

매출, 수요 등 시계열 데이터를 예측합니다.

  • Prophet 기본 사용법
  • 추세와 계절성 모델링
  • 휴일 효과 반영
  • 이상치 탐지
  • 다중 시계열 예측

시계열 예측 시작하기 →


5. 추천 시스템

고급

상품 추천 알고리즘을 구현합니다.

  • 협업 필터링 (Collaborative Filtering)
  • 콘텐츠 기반 필터링 (Content-Based)
  • 하이브리드 추천
  • 평가 지표: Precision@K, Recall@K, NDCG

추천 시스템 시작하기 →

ML 워크플로우

1. 문제 정의 └─ 비즈니스 목표를 ML 문제로 변환 2. 데이터 수집 및 탐색 (EDA) └─ 데이터 이해, 품질 확인 3. 피처 엔지니어링 └─ 새로운 특성 생성, 변환 4. 모델 학습 └─ 학습/검증 데이터 분리 └─ 여러 모델 비교 5. 모델 평가 └─ 테스트 데이터로 성능 측정 6. 배포 및 모니터링 └─ 실제 환경에 적용 └─ 성능 모니터링, 재학습

주요 라이브러리

# 데이터 전처리 from sklearn.preprocessing import StandardScaler, LabelEncoder from sklearn.model_selection import train_test_split, cross_val_score # 모델 from sklearn.cluster import KMeans from sklearn.linear_model import LogisticRegression from sklearn.ensemble import RandomForestClassifier from xgboost import XGBClassifier # 평가 from sklearn.metrics import ( accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report, roc_auc_score ) # 시계열 from prophet import Prophet
실행 결과
Error: No module named 'prophet'

모델 선택 가이드

ℹ️
어떤 모델을 선택해야 할까?

데이터가 적을 때 (< 1,000건)

  • 로지스틱 회귀, 결정 트리
  • 과적합 주의, 교차검증 필수

데이터가 많을 때 (> 10,000건)

  • 랜덤 포레스트, XGBoost
  • 하이퍼파라미터 튜닝 중요

해석이 중요할 때

  • 로지스틱 회귀, 결정 트리
  • 피처 중요도 분석

예측 성능이 중요할 때

  • XGBoost, LightGBM
  • 앙상블 기법

실무 팁

⚠️
흔한 실수 피하기
  1. 데이터 누수(Data Leakage): 미래 정보가 학습에 포함되지 않도록 주의
  2. 클래스 불균형: 이탈 예측 시 이탈자가 적음 → SMOTE, 가중치 조정
  3. 과적합: 학습 성능만 좋고 실제 성능 나쁨 → 교차검증 필수
  4. 피처 스케일링: 트리 기반 외 모델은 정규화/표준화 필요
Last updated on

🤖AI 모의면접실전처럼 연습하기