통계/데이터분석 면접 문제집
샘플 3문제전체 20문제
통계 면접은 개념 이해 + 비즈니스 적용 능력을 평가합니다. 공식보다 **“왜 이 방법을 쓰는가?”**를 설명할 수 있어야 합니다.
🟢 샘플 문제 (3/20)
문제 1. 평균 vs 중앙값
초급
[질문] 고객 구매금액의 평균이 15만원, 중앙값이 8만원입니다. 이 데이터의 특성과 어떤 지표를 사용할지 설명하세요.
✅ 모범 답변
데이터 특성:
- 평균 > 중앙값 → 오른쪽으로 치우친 분포 (Right-skewed)
- 소수의 고액 구매자가 평균을 끌어올림
- 대다수 고객은 8만원 이하로 구매
지표 선택:
- 대표값: 중앙값 (8만원) 사용 권장
- 보고용: “고객의 절반은 8만원 이하 구매” 표현
- 매출 예측: 평균 사용 (전체 합계 관련)
추가 분석:
# 왜도 확인
from scipy import stats
skewness = stats.skew(df['amount'])
print(f"왜도: {skewness:.2f}") # 양수면 오른쪽 치우침
# 분위수 확인
print(df['amount'].quantile([0.25, 0.5, 0.75, 0.9, 0.99]))면접관 포인트:
“어떤 상황에서 평균을 써야 하나요?” → 정규분포, 전체 합계 관련 지표
문제 2. p-value 해석
중급
[질문] p-value = 0.03의 의미를 설명하세요. “3% 확률로 효과가 있다”는 해석이 맞나요?
✅ 모범 답변
❌ 틀린 해석:
- “효과가 있을 확률이 3%다”
- “귀무가설이 맞을 확률이 3%다”
✅ 올바른 해석:
“귀무가설이 참일 때, 현재 관측된 결과(또는 더 극단적인 결과)가 나올 확률이 3%다”
쉽게 설명:
- “만약 진짜 효과가 없다면, 이런 결과는 100번 중 3번만 나온다”
- “우연치곤 드문 결과이므로, 효과가 있다고 판단”
p-value 한계:
- 효과의 크기는 알려주지 않음
- 표본 크기가 크면 작은 차이도 유의
- 0.05 기준은 자의적
면접관 포인트:
“p-value가 0.051이면 효과가 없는 건가요?” → 경계값 문제, 효과 크기 함께 고려
문제 3. 1종 오류 vs 2종 오류
중급
[질문] 신약 효과 검증에서 1종 오류와 2종 오류 중 어떤 것이 더 심각한가요?
✅ 모범 답변
정의:
- 1종 오류 (α): 효과 없는데 있다고 판단 (False Positive)
- 2종 오류 (β): 효과 있는데 없다고 판단 (False Negative)
신약 테스트:
- 1종 오류: 효과 없는 약 승인 → 환자 피해 (더 심각)
- 2종 오류: 효과 있는 약 탈락 → 기회비용
반대 케이스 - 스팸 필터:
- 1종 오류: 정상 메일을 스팸으로 → 중요 메일 놓침 (더 심각)
- 2종 오류: 스팸을 정상으로 → 약간의 불편
Trade-off:
α ↓ (보수적) → β ↑
α ↑ (공격적) → β ↓비즈니스 적용:
- 의료/안전: 1종 오류 최소화 (α = 0.01)
- 마케팅 테스트: 2종 오류 고려 (검정력 80% 이상)
면접관 포인트:
“검정력이란 무엇인가요?” → 1 - β, 실제 효과를 탐지할 확률
🔒 프리미엄 문제 (17문제)
전체 20문제 구성
| 카테고리 | 문제 수 | 주요 토픽 |
|---|---|---|
| 📊 기술통계 | 5문제 | 평균/중앙값, 분산, 이상치 탐지 |
| 🧪 가설검정 | 7문제 | p-value, 오류, A/B테스트, 다중비교 |
| 📈 회귀분석 | 4문제 | 계수 해석, 다중공선성, R² |
| 🎲 확률/베이즈 | 2문제 | 조건부확률, 심슨의 역설 |
| 💼 비즈니스 | 2문제 | 지표 설계, 분석 케이스 |
프리미엄에서 배우는 내용
- ✅ A/B 테스트 표본 크기 계산: 실무 공식과 Python 코드
- ✅ 다중 비교 보정: Bonferroni, FDR 방법
- ✅ 통계적 유의성 vs 실용적 유의성: 효과 크기 해석
- ✅ 다중공선성 진단: VIF 계산 및 해결 방법
- ✅ 심슨의 역설: 실제 사례와 해결법
- ✅ 면접관이 기대하는 답변 포인트
🎯 전체 20문제 + 해설 구매하기
SQL + Pandas + 통계 + 케이스 스터디 번들 할인
📝 통계 면접 필수 암기
🎯 핵심 개념 요약
| 개념 | 정의 | 예시 |
|---|---|---|
| p-value | H₀ 하에서 관측값 이상 확률 | 0.03 → 3% 확률 |
| 신뢰구간 | 모수 포함 추정 범위 | 95% CI: [2.1, 3.5] |
| 1종 오류 | 없는데 있다 (α) | 약 없는데 승인 |
| 2종 오류 | 있는데 없다 (β) | 약 있는데 탈락 |
| 검정력 | 1 - β | 실제 효과 탐지 능력 |
| 효과 크기 | 실질적 차이 크기 | Cohen’s d, h |
🔢 자주 쓰는 검정
| 상황 | 검정 방법 |
|---|---|
| 두 평균 비교 | t-test |
| 세 그룹 이상 평균 | ANOVA |
| 두 비율 비교 | z-test, χ² |
| 상관관계 | Pearson, Spearman |
| 정규성 검정 | Shapiro-Wilk |
📝 무료로 더 연습하기
면접 준비가 더 필요하다면, Cookbook의 개념 섹션을 복습하세요:
Last updated on