시작하기
이 Cookbook을 시작하기 전에 환경을 설정해야 합니다. SQL 트랙과 Pandas 트랙 중 하나를 선택하거나, 두 가지 모두 설정할 수 있습니다.
트랙 선택 가이드
🗄️ SQL 트랙을 선택해야 하는 경우
- 이미 SQL에 익숙한 경우
- BigQuery나 다른 클라우드 데이터 웨어하우스를 사용하는 환경에서 일하는 경우
- 대용량 데이터(GB~TB 규모)를 다뤄야 하는 경우
- 로컬에 Python 환경을 설치하기 어려운 경우
🐼 Pandas 트랙을 선택해야 하는 경우
- Python에 익숙하거나 Python을 배우고 싶은 경우
- 데이터 전처리 후 머신러닝 모델링까지 연결하고 싶은 경우
- 로컬 환경에서 자유롭게 실험하고 싶은 경우
- Jupyter Notebook으로 분석 리포트를 작성하고 싶은 경우
🔄 두 트랙 모두 권장하는 경우
실무에서는 SQL과 Pandas를 함께 사용하는 경우가 많습니다:
- 데이터 추출: SQL로 필요한 데이터를 BigQuery에서 추출
- 데이터 분석: Pandas로 세부 분석 및 시각화
- 결과 저장: 다시 BigQuery에 저장하거나 리포트 생성
이 Cookbook의 각 레시피는 SQL과 Pandas 두 가지 버전을 모두 제공하므로, 같은 문제를 두 가지 방식으로 해결하는 방법을 비교하며 학습할 수 있습니다.
환경 설정
🗄️ BigQuery 환경 설정
Google Cloud 프로젝트 생성, 서비스 계정 설정, BigQuery 연결
🐼 Pandas 환경 설정
Python 설치, 가상환경 설정, 샘플 데이터 다운로드
데이터 이해하기
환경 설정이 완료되면 데이터 구조 이해 페이지에서 이 Cookbook에서 사용하는 데이터셋에 대해 알아보세요.
Last updated on