[κ°œλ…μ •λ¦¬] 상관관계 vs 인과관계

Posted by Euisuk's Dev Log on July 6, 2024

[κ°œλ…μ •λ¦¬] 상관관계 vs 인과관계

원본 κ²Œμ‹œκΈ€: https://velog.io/@euisuk-chung/κ°œλ…μ •λ¦¬-상관관계-vs-인과관계

μ•ˆλ…•ν•˜μ„Έμš”! πŸ’‘ μ €λŠ” μš”μ¦˜ 인과관계 뢄석, 인과성 뢄석에 λŒ€ν•΄ κ³΅λΆ€ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€. πŸ™Œ 본격적으둜 곡뢀λ₯Ό μ‹œμž‘ν•˜κΈ°μ— μ•žμ„œ κ°€μž₯ 기본이 λ˜λŠ” 상관관계와 인과관계에 λŒ€ν•΄ λ‹€μ‹œ ν•œλ²ˆ μ •λ¦¬ν•˜κ³  λ„˜μ–΄κ°€λ €κ³  ν•©λ‹ˆλ‹€. γ…Žγ…Ž

이 두 κ°œλ…μ€ λΉ„μŠ·ν•΄ λ³΄μ΄μ§€λ§Œ 맀우 λ‹€λ₯Έ 의미λ₯Ό κ°€μ§€κ³  있으며, 데이터 해석에 μžˆμ–΄ μ€‘μš”ν•œ 역할을 ν•©λ‹ˆλ‹€.

그전에! λ‹΅λ³€ κΆκΈˆν•˜μ‹œμ£ ?

🀣 Q. μ‹ κΈ°ν•˜κ²Œλ„ μ‹œν—˜κΈ°κ°„μ— 곡뢀λ₯Ό μ ‘μœΌλ©΄, λ¬˜ν•˜κ²Œ μžμ‹ κ°μ΄ μ†Ÿκ΅¬μΉœλ‹€. μ΄λŠ” 상관관계인가? 인과관계인가?

πŸ’― A. μ‹œν—˜κΈ°κ°„μ— 곡뢀λ₯Ό μ ‘λŠ” 행동과 μžμ‹ κ°μ΄ μ†Ÿκ΅¬μΉ˜λŠ” ν˜„μƒ μ‚¬μ΄μ—λŠ” λΆ„λͺ… 연관성이 μžˆμ–΄ λ³΄μž…λ‹ˆλ‹€. 이 두 λ³€μˆ˜κ°€ ν•¨κ»˜ λ°œμƒν•œλ‹€λŠ” μ μ—μ„œ 상관관계가 μ‘΄μž¬ν•œλ‹€κ³  λ³Ό 수 μžˆμŠ΅λ‹ˆλ‹€.

  • 곡뢀λ₯Ό μ ‘μŒμœΌλ‘œμ¨ μŠ€νŠΈλ ˆμŠ€κ°€ 쀄어듀어 μΌμ‹œμ μœΌλ‘œ μžμ‹ κ°μ΄ μƒμŠΉν•  수 μžˆμŠ΅λ‹ˆλ‹€.

  • μžμ‹ κ°μ΄ λ†’μ•„μ Έμ„œ 곡뢀λ₯Ό 덜 해도 λœλ‹€κ³  νŒλ‹¨ν•˜λŠ” 것일 수 μžˆμŠ΅λ‹ˆλ‹€.

  • 제3의 μš”μΈ(예: 개인의 성격, κ³Όκ±° κ²½ν—˜)이 두 ν˜„μƒμ— 영ν–₯을 λ―ΈμΉ  수 μžˆμŠ΅λ‹ˆλ‹€

  1. 상관관계: λ³€μˆ˜ κ°„μ˜ μ—°κ΄€μ„±

상관관계(Correlation)λŠ” 두 λ³€μˆ˜ μ‚¬μ΄μ˜ 관계λ₯Ό λ‚˜νƒ€λ‚΄λŠ” 톡계적 μΈ‘μ •μž…λ‹ˆλ‹€. ν•œ λ³€μˆ˜κ°€ λ³€ν•  λ•Œ λ‹€λ₯Έ λ³€μˆ˜λ„ ν•¨κ»˜ λ³€ν•˜λŠ” κ²½ν–₯이 μžˆλ‹€λ©΄, 이 두 λ³€μˆ˜ μ‚¬μ΄μ—λŠ” 상관관계가 μžˆλ‹€κ³  λ§ν•©λ‹ˆλ‹€.

μƒκ΄€κ΄€κ³„μ˜ μœ ν˜•

μƒκ΄€κ΄€κ³„μ˜ μœ ν˜•μ€ 크게 μ•„λž˜μ™€ 같이 3κ°€μ§€ μœ ν˜•μœΌλ‘œ μ •μ˜ν•  수 μžˆμŠ΅λ‹ˆλ‹€:

  1. μ–‘μ˜ 상관관계 (Positive Correlation):

    • ν•œ λ³€μˆ˜κ°€ μ¦κ°€ν•˜λ©΄ λ‹€λ₯Έ λ³€μˆ˜λ„ μ¦κ°€ν•©λ‹ˆλ‹€.
    • 예: μ›Ήμ‚¬μ΄νŠΈμ˜ 방문자 μˆ˜μ™€ νŒλ§€λŸ‰
  2. 음의 상관관계 (Negative Correlation):

    • ν•œ λ³€μˆ˜κ°€ μ¦κ°€ν•˜λ©΄ λ‹€λ₯Έ λ³€μˆ˜λŠ” κ°μ†Œν•©λ‹ˆλ‹€.
    • 예: μ„œλ²„ 응닡 μ‹œκ°„κ³Ό μ‚¬μš©μž λ§Œμ‘±λ„
  3. 무관계(상관) (No Correlation):

    • 두 λ³€μˆ˜ 사이에 νŠΉλ³„ν•œ 관계가 μ—†μŠ΅λ‹ˆλ‹€.
    • 예: μ„œλ²„μ˜ CPU λͺ¨λΈλͺ…κ³Ό λ°μ΄ν„°λ² μ΄μŠ€ 쿼리 속도

μΆ”κ°€ 상관관계 μ˜ˆμ‹œ

  1. μš΄λ™ μ‹œκ°„κ³Ό 체쀑:

    • μš΄λ™ μ‹œκ°„μ΄ μ¦κ°€ν• μˆ˜λ‘ 체쀑이 κ°μ†Œν•˜λŠ” κ²½ν–₯이 μžˆμŠ΅λ‹ˆλ‹€. (음의 상관관계)
  2. ν•™μŠ΅ μ‹œκ°„κ³Ό μ‹œν—˜ 점수:

    • 곡뢀 μ‹œκ°„μ΄ μ¦κ°€ν• μˆ˜λ‘ μ‹œν—˜ μ μˆ˜κ°€ ν–₯μƒλ˜λŠ” κ²½ν–₯이 μžˆμŠ΅λ‹ˆλ‹€. (μ–‘μ˜ 상관관계)
  3. 수면 μ‹œκ°„κ³Ό 업무 생산성:

    • μ μ ˆν•œ 수면 μ‹œκ°„μ΄ ν™•λ³΄λ μˆ˜λ‘ 업무 생산성이 μ¦κ°€ν•˜λŠ” κ²½ν–₯이 μžˆμŠ΅λ‹ˆλ‹€. (μ–‘μ˜ 상관관계)
  4. 인과관계: 원인과 결과의 직접적 μ—°κ²°

인과관계(Causation)λŠ” ν•œ μ‚¬κ±΄μ΄λ‚˜ λ³€μˆ˜κ°€ λ‹€λ₯Έ μ‚¬κ±΄μ΄λ‚˜ λ³€μˆ˜μ˜ 직접적인 원인이 λ˜λŠ” 관계λ₯Ό λ§ν•©λ‹ˆλ‹€. Aκ°€ B의 원인이 λ˜μ–΄ Bλ₯Ό λ³€ν™”μ‹œν‚€λŠ” κ΄€κ³„μž…λ‹ˆλ‹€.

μΈκ³Όκ΄€κ³„μ˜ νŠΉμ§•

  1. 원인과 κ²°κ³Ό: λͺ…ν™•ν•œ 원인과 κ²°κ³Ό 관계가 μ‘΄μž¬ν•΄μ•Ό ν•©λ‹ˆλ‹€.
  2. μ‹œκ°„μ  선후관계: 원인은 항상 결과보닀 λ¨Όμ € λ°œμƒν•΄μ•Ό ν•©λ‹ˆλ‹€.
  3. 일관성: λ™μΌν•œ μ‘°κ±΄μ—μ„œλŠ” 항상 같은 κ²°κ³Όκ°€ λ‚˜νƒ€λ‚˜μ•Ό ν•©λ‹ˆλ‹€.

μΆ”κ°€ 인과관계 μ˜ˆμ‹œ

  1. λ¬Ό 섭취와 갈증 ν•΄μ†Œ:

    • 물을 λ§ˆμ‹œλ©΄ μ§μ ‘μ μœΌλ‘œ 갈증이 ν•΄μ†Œλ©λ‹ˆλ‹€.
  2. ν–‡λΉ› λ…ΈμΆœκ³Ό 비타민 D 생성:

    • μ μ ˆν•œ ν–‡λΉ› λ…ΈμΆœμ€ 체내 비타민 D 생성을 μ§μ ‘μ μœΌλ‘œ μ΄‰μ§„ν•©λ‹ˆλ‹€.
  3. 독감 예방 μ ‘μ’…κ³Ό 독감 감염 μœ„ν—˜ κ°μ†Œ:

    • 독감 예방 접쒅을 λ°›μœΌλ©΄ 독감 감염 μœ„ν—˜μ΄ μ§μ ‘μ μœΌλ‘œ κ°μ†Œν•©λ‹ˆλ‹€.
  4. 상관관계와 μΈκ³Όκ΄€κ³„μ˜ μ£Όμš” 차이점

상관관계와 μΈκ³Όκ΄€κ³„λŠ” μ•„λž˜ ν…Œμ΄λΈ”λ‘œ κ΅¬λΆ„ν•˜μ‹€ 수 μžˆμŠ΅λ‹ˆλ‹€:

νŠΉμ„± 상관관계 인과관계
λ°©ν–₯μ„± μ–‘λ°©ν–₯ κ°€λŠ₯ 단방ν–₯
원인-κ²°κ³Ό 뢈λͺ…ν™• λͺ…ν™•
제3 μš”μΈμ˜ 영ν–₯ κ°€λŠ₯ 배제됨
예츑λ ₯ μ œν•œμ  κ°•λ ₯
  1. 상관관계와 μΈκ³Όκ΄€κ³„μ˜ ν˜Όλ™: μ£Όμ˜ν•΄μ•Ό ν•  였λ₯˜

상관관계λ₯Ό μΈκ³Όκ΄€κ³„λ‘œ μ˜€ν•΄ν•˜λŠ” 것은 데이터 λΆ„μ„μ—μ„œ ν”νžˆ λ°œμƒν•˜λŠ” 였λ₯˜μž…λ‹ˆλ‹€.

λ‹€μŒμ€ ν”νžˆ λ²”ν•  수 μžˆλŠ” 였λ₯˜μ˜ μ˜ˆμ‹œμž…λ‹ˆλ‹€:

4.1 μΈκ³Όκ΄€κ³„μ˜ λ°©ν–₯ μ˜€ν•΄

사둀: β€œμ„œλ²„ λͺ¨λ‹ˆν„°λ§ μ•Œλ¦Ό νšŸμˆ˜κ°€ μ¦κ°€ν• μˆ˜λ‘ μ‹œμŠ€ν…œ μž₯μ• κ°€ 많이 λ°œμƒν•œλ‹€.”

  • 였λ₯˜: λͺ¨λ‹ˆν„°λ§ μ•Œλ¦Όμ΄ μž₯μ• λ₯Ό μΌμœΌν‚¨λ‹€κ³  μƒκ°ν•˜λŠ” 것.
  • μ„€λͺ…: μ‹€μ œλ‘œλŠ” μ‹œμŠ€ν…œμ— λ¬Έμ œκ°€ μžˆμ„ λ•Œ λͺ¨λ‹ˆν„°λ§ μ•Œλ¦Όμ΄ μ¦κ°€ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€. μΈκ³Όκ΄€κ³„μ˜ λ°©ν–₯이 λ°˜λŒ€μž…λ‹ˆλ‹€.

4.2 μˆ¨κ²¨μ§„ 제3의 μš”μΈ

사둀: β€œν΄λΌμš°λ“œ μ„œλΉ„μŠ€ μ‚¬μš©λŸ‰μ΄ μ¦κ°€ν• μˆ˜λ‘ κΈ°μ—…μ˜ 맀좜이 μ¦κ°€ν•œλ‹€.”

  • 였λ₯˜: ν΄λΌμš°λ“œ μ„œλΉ„μŠ€ μ‚¬μš©μ΄ μ§μ ‘μ μœΌλ‘œ 맀좜 증가λ₯Ό μΌμœΌν‚¨λ‹€κ³  μƒκ°ν•˜λŠ” 것.
  • μ„€λͺ…: κΈ°μ—…μ˜ μ „λ°˜μ μΈ μ„±μž₯이 ν΄λΌμš°λ“œ μ„œλΉ„μŠ€ μ‚¬μš©λŸ‰ 증가와 맀좜 증가 λͺ¨λ‘μ— 영ν–₯을 쀄 수 μžˆμŠ΅λ‹ˆλ‹€. 이 경우, κΈ°μ—…μ˜ μ„±μž₯μ΄λΌλŠ” 제3의 μš”μΈμ΄ 두 λ³€μˆ˜μ— 영ν–₯을 미치고 μžˆμŠ΅λ‹ˆλ‹€.

4.3 μš°μ—°μ˜ 일치

사둀: β€œνŠΉμ • ν”„λ‘œκ·Έλž˜λ° μ–Έμ–΄μ˜ μ—…λ°μ΄νŠΈ λ¦΄λ¦¬μŠ€μ™€ μ„œλ²„ λ‹€μš΄νƒ€μž„ 사이에 상관관계가 μžˆλ‹€.”

  • 였λ₯˜: ν”„λ‘œκ·Έλž˜λ° μ–Έμ–΄ μ—…λ°μ΄νŠΈκ°€ μ„œλ²„ λ‹€μš΄νƒ€μž„μ˜ 원인이라고 μƒκ°ν•˜λŠ” 것.
  • μ„€λͺ…: 두 사건은 λ‹¨μˆœνžˆ μš°μ—°νžˆ λ™μ‹œμ— λ°œμƒν–ˆμ„ κ°€λŠ₯성이 λ†’μŠ΅λ‹ˆλ‹€. 직접적인 인과관계λ₯Ό κ°€μ •ν•˜κΈ° 전에 더 μžμ„Έν•œ 쑰사가 ν•„μš”ν•©λ‹ˆλ‹€.
  1. 상관관계와 인과관계 ꡬ뢄법

  2. μ‹€ν—˜μ  μ ‘κ·Ό: ν†΅μ œλœ ν™˜κ²½μ—μ„œ A/B ν…ŒμŠ€νŠΈλ₯Ό μ‹€μ‹œν•©λ‹ˆλ‹€.
  3. μ‹œκ°„μ  뢄석: μ‚¬κ±΄μ˜ λ°œμƒ μˆœμ„œλ₯Ό μ² μ €νžˆ μ‘°μ‚¬ν•©λ‹ˆλ‹€.
  4. 제3 λ³€μˆ˜ ν†΅μ œ: μˆ¨κ²¨μ§„ λ³€μˆ˜μ˜ 영ν–₯을 ν™•μΈν•˜κ³  ν†΅μ œν•©λ‹ˆλ‹€.
  5. 논리적 뢄석: κ΄€κ³„μ˜ 논리적 타당성을 λΉ„νŒμ μœΌλ‘œ κ²€ν† ν•©λ‹ˆλ‹€.
  6. μ „λ¬Έκ°€ κ²€ν† : ν•΄λ‹Ή λΆ„μ•Ό μ „λ¬Έκ°€μ˜ μ˜κ²¬μ„ κ΅¬ν•©λ‹ˆλ‹€.

  7. 맺음말

상관관계와 인과관계λ₯Ό μ •ν™•νžˆ κ΅¬λ³„ν•˜λŠ” 것은 데이터 λΆ„μ„μ˜ ν•΅μ‹¬μž…λ‹ˆλ‹€. λ‹¨μˆœνžˆ 두 λ³€μˆ˜ κ°„μ˜ 관계가 μžˆλ‹€κ³  ν•΄μ„œ λ°”λ‘œ 인과관계λ₯Ό κ°€μ •ν•΄μ„œλŠ” μ•ˆ λ©λ‹ˆλ‹€. 항상 λΉ„νŒμ  사고λ₯Ό μœ μ§€ν•˜κ³ , λ‹€μ–‘ν•œ κ°λ„μ—μ„œ 데이터λ₯Ό λΆ„μ„ν•˜λŠ” 것이 μ€‘μš”ν•©λ‹ˆλ‹€.

μ΄λŸ¬ν•œ κ°œλ…μ„ 잘 μ΄ν•΄ν•˜κ³  μ μš©ν•œλ‹€λ©΄, λ”μš± μ •ν™•ν•˜κ³  μ‹ λ’°ν•  수 μžˆλŠ” 데이터 뢄석 κ²°κ³Όλ₯Ό 얻을 수 μžˆμ„ κ²ƒμž…λ‹ˆλ‹€. 데이터 κ³Όν•™μžλ‘œμ„œ 우리의 역할은 λ‹¨μˆœν•œ 상관관계λ₯Ό λ„˜μ–΄, μ§„μ •ν•œ 인과관계λ₯Ό λ°ν˜€λ‚΄λŠ” κ²ƒμž…λ‹ˆλ‹€.

저도 κ°œλ…μ μœΌλ‘œλŠ” 잘 μ΄ν•΄ν•˜κ³  μ—¬λŸ¬λΆ„λ“€κ»˜ μ†Œκ°œλ“œλ¦¬κ³  μžˆμ§€λ§Œ, μ‹€μ œλ‘œ 뢄석을 ν•˜λ©΄μ„œ 상관관계 뢄석을 λ„˜μ–΄μ„œμ„œ 인과관계 λ‹¨κ³„κΉŒμ§€ λ„μΆœν•΄λ‚Έ 사둀듀이 λ§Žμ§€ μ•Šμ€ 것 κ°™μŠ΅λ‹ˆλ‹€ 🀣

μ„ λ°°λ‹˜ ν›„λ°°λ‹˜λ“€μ˜ 쒋은 사둀듀이 μžˆλ‹€λ©΄ λŒ“κΈ€λ‘œ 의견 λ‚¨κ²¨μ£Όμ„Έμš” γ…Žγ…Ž



-->