Skip to Content

통계분석

데이터 기반 의사결정을 위한 통계분석 레시피 모음입니다. 기술통계부터 A/B 테스트까지 실무에서 자주 사용되는 통계 기법을 학습합니다.

왜 통계가 필요한가?

ℹ️
데이터 분석 vs 통계분석
  • 데이터 분석: “지난 달 매출이 10% 증가했다”
  • 통계분석: “이 증가가 우연인지, 실제 의미있는 변화인지 검증”

통계는 데이터의 불확실성을 정량화하고, 신뢰할 수 있는 결론을 도출하는 도구입니다.

0. 사전 준비 (Setup)

import pandas as pd import numpy as np import scipy.stats as stats import statsmodels.api as sm from statsmodels.formula.api import ols # Dummy Data for Examples group_a = np.random.normal(100, 10, 100) group_b = np.random.normal(105, 12, 100) df = pd.DataFrame({'x1': np.random.rand(100), 'x2': np.random.rand(100), 'y': np.random.rand(100)})

커리큘럼

1. 기술통계

초급

데이터의 특성을 요약하는 기본적인 통계량을 학습합니다.

  • 중심 경향: 평균, 중앙값, 최빈값
  • 산포도: 표준편차, 분산, 범위, IQR
  • 분포 형태: 왜도(Skewness), 첨도(Kurtosis)
  • 백분위수와 사분위수

기술통계 시작하기 →


2. 상관관계 분석

초급중급

두 변수 간의 관계를 분석하는 방법을 학습합니다.

  • 피어슨 상관계수 (연속형 변수)
  • 스피어만 상관계수 (순서형/비선형)
  • 상관관계 vs 인과관계
  • 상관관계 행렬과 히트맵

상관관계 분석 시작하기 →


3. 가설검정

중급

데이터에 기반한 가설 검증 방법을 학습합니다.

  • 귀무가설과 대립가설
  • p-value의 의미와 해석
  • t-검정 (단일표본, 독립표본, 대응표본)
  • 카이제곱 검정 (범주형 변수)
  • 제1종/제2종 오류

가설검정 시작하기 →


4. 회귀분석

중급고급

변수 간의 관계를 모델링하고 예측하는 방법을 학습합니다.

  • 단순 선형 회귀
  • 다중 선형 회귀
  • 회귀 계수 해석
  • 결정계수(R²)와 모델 평가
  • 다중공선성 진단

회귀분석 시작하기 →


5. A/B 테스트

중급고급

실험을 통한 인과관계 검증 방법을 학습합니다.

  • A/B 테스트 설계
  • 표본 크기 산정 (검정력 분석)
  • 전환율 비교 (비율 검정)
  • 연속형 지표 비교 (t-검정)
  • 조기 종료와 다중 비교 문제

A/B 테스트 시작하기 →


6. 시계열 분석

고급

시간에 따른 데이터 패턴을 분석하고 예측하는 방법을 학습합니다.

  • 시계열 분해 (추세, 계절성, 잔차)
  • 이동평균과 지수평활
  • 자기상관(ACF)과 편자기상관(PACF)
  • ARIMA 모델 기초
  • Prophet 활용

시계열 분석 시작하기 →

주요 개념 정리

확률과 분포

분포사용 시점예시
정규분포연속형 데이터, 표본 평균키, 몸무게, 테스트 점수
이항분포성공/실패 횟수전환 수, 클릭 수
포아송분포단위 시간당 발생 횟수일별 주문 건수
t-분포소표본 평균 비교그룹 간 평균 차이 검정

가설검정 의사결정 흐름

데이터 수집 가설 설정 (H₀, H₁) 유의수준 결정 (보통 α = 0.05) 검정 통계량 계산 p-value 산출 p < α → H₀ 기각 (유의미한 차이) p ≥ α → H₀ 기각 실패 (유의미한 차이 없음)

Python 통계 라이브러리

# 기본 통계 import scipy.stats as stats import statsmodels.api as sm from statsmodels.formula.api import ols # 예시: t-검정 t_stat, p_value = stats.ttest_ind(group_a, group_b) # 예시: 회귀분석 model = ols('y ~ x1 + x2', data=df).fit() print(model.summary())
실행 결과
OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.005
Model:                            OLS   Adj. R-squared:                 -0.015
Method:                 Least Squares   F-statistic:                    0.2639
Date:                Sat, 20 Dec 2025   Prob (F-statistic):              0.769
Time:                        00:25:05   Log-Likelihood:                -13.739
No. Observations:                 100   AIC:                             33.48
Df Residuals:                      97   BIC:                             41.29
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
==============================================================================
               coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      0.5603      0.078      7.139      0.000       0.404       0.716
x1            -0.0050      0.097     -0.052      0.959      -0.197       0.187
x2            -0.0750      0.103     -0.726      0.469      -0.280       0.130
==============================================================================
Omnibus:                       19.776   Durbin-Watson:                   2.230
Prob(Omnibus):                  0.000   Jarque-Bera (JB):                5.138
Skew:                          -0.135   Prob(JB):                       0.0766
Kurtosis:                       1.923   Cond. No.                         5.63
==============================================================================

Notes:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.

실무 팁

💡
통계적 유의성 vs 실무적 중요성
  • p < 0.05라고 해서 무조건 의미있는 것은 아닙니다
  • **효과 크기(Effect Size)**를 함께 고려하세요
  • 예: 전환율이 0.01% 증가하고 p = 0.001이라면?
    • 통계적으로 유의하지만, 실무적 가치는 작을 수 있음
  • 비즈니스 임팩트(매출 영향 등)를 항상 함께 계산하세요
Last updated on

🤖AI 모의면접실전처럼 연습하기