[๋จธ์ ๋ฌ๋] ๋ก์ง์คํฑ ํ๊ท ๋ชจ๋ธ (Logistic Regression)
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/๋จธ์ ๋ฌ๋-๋ก์ง์คํฑ-ํ๊ท-๋ชจ๋ธ-Logistic-Regression
-
๊ฐ์
์๋
ํ์ธ์! ์ด๋ฒ ๊ธ์์๋ ๋จธ์ ๋ฌ๋์ ์ฃผ์ ๊ฐ๋
์ธ ๋ก์ง์คํฑ ํ๊ท(Logistic Regression) ๋ชจ๋ธ๊ณผ ์ค์ฆ ๋น(Odds Ratio)์ ๋ํด์ ์ฝ๊ฒ ์ ๋ฆฌํด๋ณด์์ต๋๋ค. ์น๊ตฌ์๊ฒ ์ ๋๋ก ๋ฉ์ง๊ฒ ์ค๋ช
ํ๊ณ ์ถ์๋๋ฐ, ๋ญ๊ฐ ๋ค์ ํ๋ฒ ์ ๋ฆฌ๊ฐ ํ์ํ ๊ฒ ๊ฐ๋๋ผ๊ณ ์ ใ
ใ
^^7
- ๋ก์ง์คํฑ ํ๊ท ๋ชจ๋ธ์ ๋ฒ์ฃผํ ๋ฐ์ดํฐ๋ฅผ ์์ธกํ ๋ ์ฌ์ฉํ๋ ํต๊ณ์ ๋ฐฉ๋ฒ์ผ๋ก, ํนํ ์ด์ง ๋ถ๋ฅ ๋ฌธ์ ์์ ๋ง์ด ํ์ฉ๋ฉ๋๋ค.
- ์๋ฅผ ๋ค์ด, ํน์ ์์ ์๋น ์ต๊ด์ด ๊ฑด๊ฐ์ ๋ฏธ์น๋ ์ํฅ์ ๋ถ์ํ ๋ ์ฌ์ฉํ ์ ์์ต๋๋ค.
(์ฐธ๊ณ ) ๋ณธ ๋ธ๋ก๊ทธ ํฌ์คํธ์ ์ด๋ฏธ์ง ์๋ฃ๋ ๊ณ ๋ ค๋ํ๊ต DMQA ๊น์ฑ๋ฒ ๊ต์๋์ ์์ ์๋ฃ๋ฅผ ๋ฐํ์ผ๋ก ์ ์๋์์ต๋๋ค.
๐ก ์ด์ง ๋ถ๋ฅ ๋ฌธ์ (Binary Classification Task) ๋?
์ด์ง ๋ถ๋ฅ
๋ ์งํฉ ์ ์์๋ฅผ ๋ ๊ทธ๋ฃน(๊ฐ๊ฐ ํด๋์ค ๋ผ๊ณ ํจ) ์ค ํ๋๋ก ๋ถ๋ฅํ๋ ์์ ์ ๋๋ค. ์ผ๋ฐ์ ์ธ ์ด์ง ๋ถ๋ฅ ๋ฌธ์ ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- EX-1. ํ์๊ฐ ํน์ ์ง๋ณ์ ์๊ณ
์๋์ง ์๋์ง๋ฅผ ํ๋จ
ํ๊ธฐ ์ํ ๊ฑด๊ฐ๊ฒ์ง.EX-2. ์ ๋ณด ๊ฒ์์์ ํ์ด์ง๊ฐ ๊ฒ์ ๊ฒฐ๊ณผ ์งํฉ์
์์ด์ผ ํ๋์ง ์๋์ง์ ์ฌ๋ถ
๋ฅผ ๊ฒฐ์ .
์ด ๊ธ์์๋ ์ค์ฆ ๋น์ ๊ฐ๋ ๊ณผ ํด์ ๋ฐฉ๋ฒ์ ๋จผ์ ์ค๋ช ํ ํ, ๋ก์ง์คํฑ ํ๊ท ๋ชจ๋ธ์ด ์ค์ฆ ๋น๋ฅผ ํ์ฉํ๋ ๋ฐฉ์์ ์ค๋ช ํ๊ฒ ์ต๋๋ค.
- ์คํ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ ๋ ์ค์ฆ ๋น๋ฅผ ์์ฉํ๋ ๋ฐฉ๋ฒ์ ์ดํดํ๋ ๋ฐ ๋ง์ ๋์์ด ๋๊ธธ ๋ฐ๋๋๋ค. ๐
-
์ค์ฆ ๋น(Odds Ratio)์ ํด์ ๋ฐฉ๋ฒ
์ค์ฆ ๋น(Odds Ratio, OR)๋ ๋ ๊ทธ๋ฃน ๊ฐ ํน์ ์ฌ๊ฑด์ด ๋ฐ์ํ ๊ฐ๋ฅ์ฑ์ ๋น๊ตํ๋ ์งํ์ ๋๋ค.
- ์ฐ๊ตฌ์์ ํํ ์ฌ์ฉ๋๋ ์ค์ฆ ๋น ํด์ ๋ฐฉ๋ฒ์ ์์ ๋ก ์ค๋ช ํด๋ณด๊ฒ ์ต๋๋ค.
์์ : ์์ ์๋น์ ๋น๋ง ๊ฐ์ ๊ด๊ณ ๋ถ์
์๋ฅผ ๋ค์ด ์ด๋ค ์ฐ๊ตฌ์์ ๊ณ ๊ธฐ ์๋น์ ๋น๋ง ๊ฐ์ ๊ด๊ณ๋ฅผ ๋ถ์ํ๋ค๊ณ ์๊ฐํด๋ด ์๋ค.
-
์ฐ๊ตฌ์๋ค์ 200๋ช ์ ์ฐธ๊ฐ์(N=200)๋ฅผ ๋์์ผ๋ก ๊ณ ๊ธฐ ์๋น๋์ ๋ฐ๋ผ ๋ ๊ทธ๋ฃน์ผ๋ก ๋๋์์ต๋๋ค.
๊ทธ๋ฃน ๋น๋ง ๋ฐ์ (A) ๋น๋ง ์์ (B) ๊ณ ๊ธฐ ์๋น๋ ์ ์ 30 70 ๊ณ ๊ธฐ ์๋น๋ ๋ง์ 50 50 -
์ด ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ ์ค์ฆ ๋น๋ฅผ ๊ณ์ฐํ ์ ์์ต๋๋ค.
๐ก ์ ๊น! ์ค์ฆ(Odds)๋?
์ค์ฆ(Odds)
๋ ํน์ ์ฌ๊ฑด์ด ๋ฐ์ํ ํ๋ฅ ์ ๋ฐ์ํ์ง ์์ ํ๋ฅ ๋ก ๋๋ ๊ฐ์ ๋๋ค. (๋ค์์ ๋ ์์ธํ๊ฒ ์ดํด๋ณด๊ฒ ์ต๋๋ค)๋ฐ์ํ ย ํ๋ฅ ๋ฐ์ํ์งย ์์ย ํ๋ฅ \frac{\text{๋ฐ์ํ ํ๋ฅ }}{\text{๋ฐ์ํ์ง ์์ ํ๋ฅ }}๋ฐ์ํ์งย ์์ย ํ๋ฅ ๋ฐ์ํ ย ํ๋ฅ โ
- ๊ณ ๊ธฐ ์๋น๋์ด ์ ์ ๊ทธ๋ฃน์์ ๋น๋ง์ด ๋ฐ์ํ ์ค์ฆ(Odds):
- ๋น๋ง ๋ฐ์(A)์ ์ฌ๊ฑด(event)์ผ๋ก ๋ณด๊ณ , ๋น๋ง์ด ๋ฐ์ํ ํ๋ฅ ๊ณผ ๋ฐ์ํ์ง ์์ ํ๋ฅ ์ ๋น์จ์ ๊ณ์ฐํฉ๋๋ค.
Oddsย Lowย Cosumeย =3070=0.43\text{Odds}_{\text{ Low Cosume }} = \frac{30}{70} = 0.43Oddsย Lowย Cosumeย โ=7030โ=0.43
- ๊ณ ๊ธฐ ์๋น๋์ด ๋ง์ ๊ทธ๋ฃน์์ ๋น๋ง์ด ๋ฐ์ํ ์ค์ฆ(Odds):
- ๋น๋ง ๋ฐ์(A)์ ์ฌ๊ฑด(event)์ผ๋ก ๋ณด๊ณ , ๋น๋ง์ด ๋ฐ์ํ ํ๋ฅ ๊ณผ ๋ฐ์ํ์ง ์์ ํ๋ฅ ์ ๋น์จ์ ๊ณ์ฐํฉ๋๋ค.
Oddsย Highย Cosumeย =5050=1\text{Odds}_{\text{ High Cosume }} = \frac{50}{50} = 1Oddsย Highย Cosumeย โ=5050โ=1
- ๋ ๊ทธ๋ฃน์ ์ค์ฆ ๋น ๊ณ์ฐ:
OR=Oddsย Highย Cosumeย Oddsย Lowย Cosume=10.43โ2.33OR = \frac{\text{Odds}_{\text{ High Cosume }}}{\text{Odds}_{\text{ Low Cosume}}} = \frac{1}{0.43} \approx 2.33OR=Oddsย Lowย CosumeโOddsย Highย Cosumeย โโ=0.431โโ2.33
์ฆ, ๊ณ ๊ธฐ๋ฅผ ๋ง์ด ์๋นํ๋ ์ฌ๋์ด ์ ๊ฒ ์๋นํ๋ ์ฌ๋๋ณด๋ค ๋น๋ง์ด ๋ฐ์ํ ํ๋ฅ ์ด ์ฝ 2.33๋ฐฐ ๋๋ค๊ณ ํด์ํ ์ ์์ต๋๋ค.
์ค์ฆ ๋น(Odds Ratio, OR)
์ค์ฆ ๋น(Odds Ratio, OR)๋ ๋ ๊ฐ์ ์ค์ฆ(Odds)๋ฅผ ๋น๊ตํ ๋น์จ์ ๋๋ค. ์ด๋ ์์๋์ ์์์ ๋ฐ๋ผ ํด์์ด ๋ฌ๋ผ์ง ์ ์์ต๋๋ค.
๐ ์ค์ฆ ๋น ๊ณ์ฐ์์ ์์๋ ์์์ ์๋ฏธ
- ์ค์ฆ ๋น๋ ์ผ๋ฐ์ ์ผ๋ก ๋น๊ตํ๊ณ ์ ํ๋ ๊ทธ๋ฃน์ ์ค์ฆ๋ฅผ ๋ถ์๋ก, ๊ธฐ์ค ๊ทธ๋ฃน์ ์ค์ฆ๋ฅผ ๋ถ๋ชจ๋ก ๋๊ณ ๊ณ์ฐํฉ๋๋ค.
OR=Oddsย ๋น๊ตย ๊ทธ๋ฃนOddsย ๊ธฐ์คย ๊ทธ๋ฃนOR = \frac{\text{Odds}_{\text{ ๋น๊ต ๊ทธ๋ฃน}}}{\text{Odds}_{\text{ ๊ธฐ์ค ๊ทธ๋ฃน}}}OR=Oddsย ๊ธฐ์คย ๊ทธ๋ฃนโOddsย ๋น๊ตย ๊ทธ๋ฃนโโ
- OR > 1 : ๋น๊ต ๊ทธ๋ฃน์์ ์ฌ๊ฑด ๋ฐ์ ๊ฐ๋ฅ์ฑ์ด ๊ธฐ์ค ๊ทธ๋ฃน๋ณด๋ค ๋์
- OR < 1 : ๋น๊ต ๊ทธ๋ฃน์์ ์ฌ๊ฑด ๋ฐ์ ๊ฐ๋ฅ์ฑ์ด ๊ธฐ์ค ๊ทธ๋ฃน๋ณด๋ค ๋ฎ์
- OR = 1 : ๋ ๊ทธ๋ฃน ๊ฐ ์ฌ๊ฑด ๋ฐ์ ๊ฐ๋ฅ์ฑ์ ์ฐจ์ด๊ฐ ์์
๐ ํ์ฌ ์์ ์์ ์ ์ฉ
- ํ์ฌ ์์ ์์๋ ๊ณ ๊ธฐ ์๋น๋์ด ๋ง์ ๊ทธ๋ฃน์ ๋น๊ต ๊ทธ๋ฃน, ๊ณ ๊ธฐ ์๋น๋์ด ์ ์ ๊ทธ๋ฃน์ ๊ธฐ์ค ๊ทธ๋ฃน์ผ๋ก ์ค์ ํ์์ต๋๋ค.
OR=Odds๊ณ ๊ธฐย ๋ง์ดย ์๋นOdds๊ณ ๊ธฐย ์ ๊ฒย ์๋น=1.00.43โ2.33OR = \frac{\text{Odds}_{\text{๊ณ ๊ธฐ ๋ง์ด ์๋น}}}{\text{Odds}_{\text{๊ณ ๊ธฐ ์ ๊ฒ ์๋น}}} = \frac{1.0}{0.43} \approx 2.33OR=Odds๊ณ ๊ธฐย ์ ๊ฒย ์๋นโOdds๊ณ ๊ธฐย ๋ง์ดย ์๋นโโ=0.431.0โโ2.33
์ฆ, ๊ณ ๊ธฐ๋ฅผ ๋ง์ด ์๋นํ๋ ๊ทธ๋ฃน์ด ๊ณ ๊ธฐ๋ฅผ ์ ๊ฒ ์๋นํ๋ ๊ทธ๋ฃน๋ณด๋ค ๋น๋ง ๋ฐ์ ๊ฐ๋ฅ์ฑ์ด 2.33๋ฐฐ ๋๋ค๊ณ ํด์ํฉ๋๋ค.
๐ค ๋ง์ฝ ์์๋๋ฅผ ๋ฐ๊พผ๋ค๋ฉด?
- ๋ง์ฝ ๊ณ ๊ธฐ ์๋น๋์ด ์ ์ ๊ทธ๋ฃน์ ๋น๊ต ๊ทธ๋ฃน์ผ๋ก ํ๊ณ ๊ณ ๊ธฐ ์๋น๋์ด ๋ง์ ๊ทธ๋ฃน์ ๊ธฐ์ค ๊ทธ๋ฃน์ผ๋ก ๋๋๋ค๋ฉด ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค.
OR=Odds๊ณ ๊ธฐย ์ ๊ฒย ์๋นOdds๊ณ ๊ธฐย ๋ง์ดย ์๋น=0.431.0โ0.43OR = \frac{\text{Odds}_{\text{๊ณ ๊ธฐ ์ ๊ฒ ์๋น}}}{\text{Odds}_{\text{๊ณ ๊ธฐ ๋ง์ด ์๋น}}} = \frac{0.43}{1.0} \approx 0.43OR=Odds๊ณ ๊ธฐย ๋ง์ดย ์๋นโOdds๊ณ ๊ธฐย ์ ๊ฒย ์๋นโโ=1.00.43โโ0.43
์ด ๊ฒฝ์ฐ, ๊ณ ๊ธฐ๋ฅผ ์ ๊ฒ ์๋นํ๋ ๊ทธ๋ฃน์ด ๊ณ ๊ธฐ๋ฅผ ๋ง์ด ์๋นํ๋ ๊ทธ๋ฃน๋ณด๋ค ๋น๋ง ๋ฐ์ ๊ฐ๋ฅ์ฑ์ด 0.43๋ฐฐ(์ฆ, ๋ฎ๋ค)๋ผ๋ ์๋ฏธ๋ก ํด์๋ฉ๋๋ค.
- ์ค์ฆ ๋น์ ํฌ๊ธฐ๋ ๋์ผํ์ง๋ง, ๋ถ๋ชจ์ ๋ถ์์ ์์์ ๋ฐ๋ผ ํด์์ด ๋ฌ๋ผ์ง ์ ์์ผ๋ฏ๋ก, ์ฐ๊ตฌ ๋ชฉ์ ์ ๋ง๊ฒ ์์๋ฅผ ์ ํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
- ์ผ๋ฐ์ ์ผ๋ก ๊ด์ฌ ์๋ ๋ณ์(์: ํน์ ํ๋์ ํ์ ๋์ ํจ๊ณผ)๊ฐ ์๋ ๊ทธ๋ฃน์ ๋ถ์๋ก ๋๊ณ ๊ณ์ฐํ๋ ๊ฒ์ด ์ง๊ด์ ์ ๋๋ค.
-
๋ก์ง์คํฑ ํ๊ท ๋ชจ๋ธ์ ํ์์ฑ
์ผ๋ฐ์ ์ธ ์ ํ ํ๊ท ๋ชจ๋ธ์ ์ข ์ ๋ณ์(Y)๊ฐ ์ฐ์ํ์ผ ๋ ์ ์ฉํฉ๋๋ค.
- ํ์ง๋ง ํ์ค์์๋
0
๊ณผ1
๋ก ๊ตฌ๋ถ๋๋ ์ด์ง ๋ณ์(binary variable)๊ฐ ๋ ์์ฃผ ๋ฑ์ฅํฉ๋๋ค.
์๋ฅผ ๋ค์ด:
- A๊ฐ ์ง๋ณ์ด ๋ฐ์ํ ์ฌ๋ถ(ํ๋ฅ )
- B๊ฐ ์ํ์ ๊ตฌ๋งคํ ์ฌ๋ถ(ํ๋ฅ )
- C๊ฐ ์ํ์ ํต๊ณผํ ์ฌ๋ถ(ํ๋ฅ )
์ด์ฒ๋ผ ๊ฒฐ๊ณผ ๊ฐ์ด ๋ ๊ฐ์ ๋ฒ์ฃผ(0 ๋๋ 1)๋ก ๋๋ ๋, ์ ํ ํ๊ท ๋ชจ๋ธ
์ ์ ์ฉํ๋ฉด ์์ธก๊ฐ์ด 0๋ณด๋ค ์๊ฑฐ๋ 1๋ณด๋ค ์ปค์ง๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํฉ๋๋ค.
- ๋ฐ๋ผ์ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์๊ทธ๋ชจ์ด๋ ํจ์(Sigmoid Function)๋ฅผ ์ด์ฉํ์ฌ ์์ธก๊ฐ์ 0๊ณผ 1 ์ฌ์ด๋ก ๋ณํํ๋
๋ก์ง์คํฑ ํ๊ท ๋ชจ๋ธ
์ ์ฌ์ฉํฉ๋๋ค.
๐ก ์๊ทธ๋ชจ์ด๋ ํจ์(Sigmoid Function) ๋?
- ์๊ทธ๋ชจ์ด๋ ํจ์๋ S์ ํํ์ ๊ณก์ ์ ๊ฐ์ง๋ฉฐ, ์ค์ ๊ฐ์ 0๊ณผ 1 ์ฌ์ด๋ก ๋ณํํ๋ ๋น์ ํ ํจ์์ ๋๋ค.
- ์ฃผ์ด์ง ์ ๋ ฅ x์ ๋ํด ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค.sigmoid(x)=11+eโxsigmoid(x) = \frac{1}{1 + e^{-x}}sigmoid(x)=1+eโx1โ
-
๋ก์ง์คํฑ ํ๊ท ๋ชจ๋ธ์ ์ ์
๋ก์ง์คํฑ ํ๊ท๋ ์๊ทธ๋ชจ์ด๋ ํจ์๋ฅผ ์ด์ฉํด ํน์ ์ ๋ ฅ (XXX)์ ๋ํ ํ๋ฅ ์ ๊ณ์ฐํ๋ ๋ชจ๋ธ์ ๋๋ค.
- ๋จ์ํ ํ๋์ (xxx) ๊ฐ์ด ์๋๋ผ, ์ฌ๋ฌ ๊ฐ์ ๋ ๋ฆฝ ๋ณ์( featuresfeaturesfeatures )๋ค์ ๊ณ ๋ คํฉ๋๋ค.
์ผ๋ฐ์ ์ผ๋ก ๋ก์ง์คํฑ ํ๊ท ๋ชจ๋ธ์ ์ ํ ํ๊ท ์์ ์๊ทธ๋ชจ์ด๋ ํจ์์ ์ ์ฉํ์ฌ ํ๋ฅ ์ ๊ณ์ฐํ๋ ๋ฐฉ์์ผ๋ก ์ ์๋ฉ๋๋ค.
ฯ(X)=11+eโ(ฮฒ0+ฮฒ1X1+ฮฒ2X2+โฏ+ฮฒnXn)\pi(X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_n X_n)}}ฯ(X)=1+eโ(ฮฒ0โ+ฮฒ1โX1โ+ฮฒ2โX2โ+โฏ+ฮฒnโXnโ)1โ
์ฌ๊ธฐ์:
- ฮฒ0\beta_0ฮฒ0โ (์ ํธ, bias term)
- ฮฒ1,ฮฒ2,โฆ,ฮฒn\beta_1, \beta_2, โฆ, \beta_nฮฒ1โ,ฮฒ2โ,โฆ,ฮฒnโ (๊ฐ ๋ณ์ X1,X2,โฆ,XnX_1, X_2, โฆ, X_nX1โ,X2โ,โฆ,Xnโ ์ ๋ํ ํ๊ท ๊ณ์)
- X1,X2,โฆ,XnX_1, X_2, โฆ, X_nX1โ,X2โ,โฆ,Xnโ (์ ๋ ฅ ๋ณ์๋ค)
์ฆ, ๋ก์ง์คํฑ ํ๊ท๋ ๋จ์ํ ์๊ทธ๋ชจ์ด๋ ํจ์์ ์ ํ ๊ฒฐํฉ๋ ๋ ๋ฆฝ ๋ณ์๋ค์ ๋์ ํ ๊ฒ์ด๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค.
๐ก ์ค๋ช ์ ํธ์๋ฅผ ์ํด ํ๋์ ์ ๋ ฅ๋ณ์ X ๋ง ๊ฐ์ง๊ณ ์๋ ๋ก์ง์คํฑ ํ๊ท ๋ชจ๋ธ์ ์๋ก ๋ค์ด ์ค๋ช ํ๊ฒ ์ต๋๋ค.
์ด๋ ์๋์ ๊ฐ์ ์์์ผ๋ก ํํ๋ฉ๋๋ค.
ฯ(X)=11+eโ(ฮฒ0+ฮฒ1X)\pi(X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X)}}ฯ(X)=1+eโ(ฮฒ0โ+ฮฒ1โX)1โ
- ์ฌ๊ธฐ์ (ฯ(X)\pi(X)ฯ(X))๋ ํน์ ๋ณ์๊ฐ ์ฃผ์ด์ก์ ๋ ๊ฒฐ๊ณผ๊ฐ 1์ด ๋ ํ๋ฅ ์ ์๋ฏธํฉ๋๋ค.
๐ Odds(์น์ฐ):
-
ํน์ ์ฌ๊ฑด์ด ๋ฐ์ํ ํ๋ฅ ๊ณผ ๋ฐ์ํ์ง ์์ ํ๋ฅ ์ ๋น์จ
Odds=ฯ(X)1โฯ(X)Odds = \frac{\pi(X)}{1 - \pi(X)}Odds=1โฯ(X)ฯ(X)โ
- Odds๊ฐ์ ๋์ถํ๋ฉด, ์๋์ ๊ฐ์ ๊ฐ์ด ๋์ต๋๋ค.Odds=eฮฒ0+ฮฒ1XOdds = e^{\beta_0 + \beta_1 X}Odds=eฮฒ0โ+ฮฒ1โX
๐ Logit ๋ณํ(Logit Transformation):
-
Odds์ ๋ก๊ทธ๋ฅผ ์ทจํ๋ฉด ์ ํ ๊ด๊ณ๋ก ๋ณํ๋จ
log(Odds)=log(ฯ(X)1โฯ(X))=logโก(eฮฒ0+ฮฒ1X)log(Odds) = log \left( \frac{\pi(X)}{1 - \pi(X)} \right) = \log \left( e^{\beta_0 + \beta_1 X} \right)log(Odds)=log(1โฯ(X)ฯ(X)โ)=log(eฮฒ0โ+ฮฒ1โX)
- ๋ก๊ทธ์ ์ฑ์ง์ ์ด์ฉํ๋ฉด,logโก(Odds)=ฮฒ0+ฮฒ1X\log(Odds) = \beta_0 + \beta_1 Xlog(Odds)=ฮฒ0โ+ฮฒ1โX
์ด๋ฅผ ํตํด ๋ก์ง์คํฑ ํ๊ท ๋ชจ๋ธ์ ๊ธฐ์กด ์ ํ ํ๊ท์ ๋น์ทํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ฉด์๋, ๊ฒฐ๊ณผ๊ฐ์ ํ๋ฅ ๋ก ํด์ํ ์ ์์ต๋๋ค.
- ์ฆ, ๋ก์ง์คํฑ ํ๊ท ๋ชจ๋ธ์ ๊ฒฐ๊ตญ log(Odds)๋ฅผ ์ ํ์์ผ๋ก ํํํ ๋ชจ๋ธ์
๋๋ค.
- ๋ฐ๋ผ์, ์ฐ๋ฆฌ๊ฐ ์ถ์ ํ๋ ํ๊ท ๊ณ์(ฮฒ0,ฮฒ1\beta_0, \beta_1ฮฒ0โ,ฮฒ1โ)๋ log(Odds)์์ ๊ด๊ณ๋ฅผ ๋ํ๋ด๋ฉฐ, ์ด๋ฅผ ํตํด ํน์ ๋ณ์์ ๋ณํ๊ฐ ์ค์ฆ์ ๋ฏธ์น๋ ์ํฅ์ ๋ถ์ํ ์ ์์ต๋๋ค. ( logโก(Odds)=ฮฒ0+ฮฒ1X\log(Odds) = \beta_0 + \beta_1 Xlog(Odds)=ฮฒ0โ+ฮฒ1โX )
โ ์ด? ๊ทธ๋ ๋ค๋ฉด X์ ๊ณ์์ธ ฮฒ1\beta_1ฮฒ1โ์ ๋ญ๊ฐ ์จ๊ฒจ์ง ์๋ฏธ๊ฐ ์์ ๊ฑฐ ๊ฐ์๋ฐ?
ฮฒ1\beta_1ฮฒ1โ์ ์๋ฏธ: x๊ฐ ํ๋จ์ ์ฆ๊ฐํ์ ๋ log(odds)์ ์ฆ๊ฐ๋
์ด๋ฅผ ์ง์ ํจ์ ํํ๋ก ๋ณํํ๋ฉด, X๊ฐ ํ ๋จ์ ์ฆ๊ฐํ ๋ ์ค์ฆ(odds)๊ฐ ์ผ๋ง๋ ๋ณํํ๋์ง๋ฅผ ์ ์ ์์ต๋๋ค.
eฮฒ1=oddsย whenย X+1oddsย whenย Xe^{\beta_1} = \frac{\text{odds when } X+1}{\text{odds when } X}eฮฒ1โ=oddsย whenย Xoddsย whenย X+1โ
- ์ฆ, ฮฒ1\beta_1ฮฒ1โ ๊ฐ์ด 0.50.50.5๋ผ๋ฉด X๊ฐ 111 ์ฆ๊ฐํ ๋ odds๊ฐ e0.5โ1.65e^{0.5} \approx 1.65e0.5โ1.65๋ฐฐ ์ฆ๊ฐํ๋ค๋ ์๋ฏธ์ ๋๋ค.
- ๋ง์ฝ ํ๊ท๊ณ์๊ฐ ์ฌ๋ฌ๊ฐ๋ผ๋ฉด, ๊ฐ๊ฐ์ ํ๊ท ๊ณ์(ฮฒ1,ฮฒ2,โฆ,ฮฒn\beta_1, \beta_2, โฆ, \beta_nฮฒ1โ,ฮฒ2โ,โฆ,ฮฒnโ)๋ ๊ฐ ๋ ๋ฆฝ ๋ณ์๋ค์ด ์ข ์ ๋ณ์์ ๋ฏธ์น๋ ๊ฐ๋ณ์ ์ธ ์ํฅ์ ๋ํ๋ ๋๋ค.logโก(Odds)=ฮฒ0+ฮฒ1X1+ฮฒ2X2+โฏ+ฮฒnXn\log(Odds) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_n X_nlog(Odds)=ฮฒ0โ+ฮฒ1โX1โ+ฮฒ2โX2โ+โฏ+ฮฒnโXnโ
- ์ฌ๊ธฐ์ ฮฒi\beta_iฮฒiโ๋ ํด๋น ๋ณ์ XiX_iXiโ๊ฐ ํ ๋จ์ ์ฆ๊ฐํ ๋ log(odds)๊ฐ ๋ณํ๋ ์์ ์๋ฏธํฉ๋๋ค.
- ๋ง์ฝ ฮฒ2=0.7\beta_2 = 0.7ฮฒ2โ=0.7์ด๋ผ๋ฉด, X2X_2X2โ๊ฐ 1 ์ฆ๊ฐํ ๋ odds๋ e0.7โ2.01e^{0.7} \approx 2.01e0.7โ2.01๋ฐฐ ์ฆ๊ฐํ๋ค๋ ๋ป์ ๋๋ค.
- ๋ฐ๋ฉด ฮฒ3=โ0.5\beta_3 = -0.5ฮฒ3โ=โ0.5๋ผ๋ฉด, X3X_3X3โ๊ฐ 1 ์ฆ๊ฐํ ๋ odds๋ eโ0.5โ0.61e^{-0.5} \approx 0.61eโ0.5โ0.61๋ฐฐ ๊ฐ์ํ๋ค๋ ๋ป์ ๋๋ค.
- ์ด๋ฅผ ํตํด ๊ฐ ๋ ๋ฆฝ ๋ณ์๋ค์ด ๊ฒฐ๊ณผ ๋ณ์์ ๋ฏธ์น๋ ์ํฅ์ ๊ฐ๋ณ์ ์ผ๋ก ํด์ํ ์ ์์ต๋๋ค.
Equation. ๋ก์ง์คํฑ ํจ์, ์ค์ฆ(์น์ฐ), ๋ก์ง๋ณํ(Logistic ํ๊ท๋ชจ๋ธ)
ํญ๋ชฉ | ์๊ทธ๋ชจ์ด๋ ํจ์ | ๋ก์ง์คํฑ ํจ์ | ๋ก์ง์คํฑ ํ๊ท |
---|---|---|---|
์ ์ | ํ์ฑํ ํจ์๋ก ์ฌ์ฉ๋๋ ํจ์ | S์ ๋ชจ์์ ์ํ์ ํจ์ | ์ด์ง ๋ถ๋ฅ๋ฅผ ์ํ ํต๊ณ ๋ชจ๋ธ |
์์ | 11+eโx\frac{1}{1 + e^{-x}}1+eโx1โ | 11+eโ(ฮฒ0+ฮฒx)\frac{1}{1 + e^{-(\beta_0 + \beta x)}}1+eโ(ฮฒ0โ+ฮฒx)1โ | logโก(Odds)=ฮฒ0+ฮฒ1X\log(Odds) = \beta_0 + \beta_1 Xlog(Odds)=ฮฒ0โ+ฮฒ1โX |
์ฃผ์ ์ฌ์ฉ์ฒ | ์ ๊ฒฝ๋ง์ ๋น์ ํ ๋ณํ | ํ๋ฅ ๋ชจ๋ธ๋ง | ๋ถ๋ฅ ๋ฌธ์ (์: ์คํธ/๋น์คํธ) |
๋งฅ๋ฝ | ๋ฅ๋ฌ๋ ๋ฐ ํ์ฑํ ํจ์ | ์ํ์ ๊ฐ๋ | ํต๊ณ/๋จธ์ ๋ฌ๋ ๋ชจ๋ธ |
๊ด๊ณ | ๋ก์ง์คํฑ ํจ์์ ์์ ๋์ผ | ๋ก์ง์คํฑ ํ๊ท์ ๊ธฐ๋ฐ์ด ๋จ | ์๊ทธ๋ชจ์ด๋ ํจ์๋ฅผ ํ์ฉ |
Table. ์๊ทธ๋ชจ์ด๋ ํจ์ / ๋ก์ง์คํฑ ํจ์ / ๋ก์ง์คํฑ ํ๊ท
-
๋ก์ง์คํฑ ํ๊ท ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ์ถ์ ๋ฐฉ๋ฒ
5.1. ๋ก์ง์คํฑ ํ๊ท์ ๋ชฉ์
-
๋ก์ง์คํฑ ํ๊ท(Logistic Regression)๋ ์ด์ง ๋ถ๋ฅ(Binary Classification) ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์ ํ ๋ชจ๋ธ์ ๋๋ค.
- ์ถ๋ ฅ ๊ฐ yyy๋ 0 ๋๋ 1์ด๋ฉฐ, ์ ๋ ฅ ๋ฐ์ดํฐ xxx์ ๋ํ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์๊ทธ๋ชจ์ด๋(Sigmoid) ํจ์๋ก ํํ๋ฉ๋๋ค.
ฯ(xi)=P(yi=1โฃxi)=eฮฒ0+ฮฒ1Xi1+โฏ+ฮฒpXip1+eฮฒ0+ฮฒ1Xi1+โฏ+ฮฒpXip\pi(x_i) = P(y_i = 1 | x_i) = \frac{e^{\beta_0 + \beta_1 X_{i1} + \dots + \beta_p X_{ip}}}{1 + e^{\beta_0 + \beta_1 X_{i1} + \dots + \beta_p X_{ip}}}ฯ(xiโ)=P(yiโ=1โฃxiโ)=1+eฮฒ0โ+ฮฒ1โXi1โ+โฏ+ฮฒpโXipโeฮฒ0โ+ฮฒ1โXi1โ+โฏ+ฮฒpโXipโโ |
์ฆ, ๋ชจ๋ธ์ ์ ๋ ฅ xix_ixiโ๊ฐ ์ฃผ์ด์ก์ ๋ yi=1y_i = 1yiโ=1์ผ ํ๋ฅ ์ ์์ธกํฉ๋๋ค.
5.2. ์ต๋ ์ฐ๋ ์ถ์ (MLE, Maximum Likelihood Estimation)
- MLE์ ๋ชฉํ๋ ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ๋ํด ๊ฐ์ฅ ๊ฐ๋ฅ์ฑ์ด ๋์ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ ฮฒ\betaฮฒ๋ฅผ ์ฐพ๋ ๊ฒ์ ๋๋ค.
๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ (xi,yi)(x_i, y_i)(xiโ,yiโ)์ ๋ํ ํ๋ฅ ์ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค.
- yi=1y_i = 1yiโ=1์ผ ํ๋ฅ : P(yi=1)=ฯ(xi)P(y_i = 1) = \pi(x_i)P(yiโ=1)=ฯ(xiโ)
- yi=0y_i = 0yiโ=0์ผ ํ๋ฅ : P(yi=0)=1โฯ(xi)P(y_i = 0) = 1 - \pi(x_i)P(yiโ=0)=1โฯ(xiโ)
์ ์ฒด ๋ฐ์ดํฐ ์ํ nnn๊ฐ์ ๋ํ ์ฐ๋ ํจ์(Likelihood Function) L(ฮฒ)L(\beta)L(ฮฒ)๋ ๊ฐ๋ณ ํ๋ฅ ์ ๊ณฑ์ผ๋ก ํํ๋ฉ๋๋ค.
L(ฮฒ)=โi=1nฯ(xi)yi(1โฯ(xi))1โyiL(\beta) = \prod_{i=1}^{n} \pi(x_i)^{y_i} (1 - \pi(x_i))^{1 - y_i}L(ฮฒ)=i=1โnโฯ(xiโ)yiโ(1โฯ(xiโ))1โyiโ
์ด ์ฐ๋ ํจ์ L(ฮฒ)L(\beta)L(ฮฒ)๋ฅผ ์ต๋๋ก ๋ง๋๋ ฮฒ\betaฮฒ๋ฅผ ์ฐพ๋ ๊ฒ์ด MLE์ ๋ชฉํ์ ๋๋ค.
5.3. ๋ก๊ทธ ๊ฐ๋ฅ๋(Log-Likelihood) ํจ์
- ์ฐ๋ ํจ์๋ ๊ณฑ ํํ์ด๋ฏ๋ก ์ต์ ํ๋ฅผ ์ฝ๊ฒ ํ๊ธฐ ์ํด ๋ก๊ทธ๋ฅผ ์ทจํฉ๋๋ค.
lnโกL(ฮฒ)=โi=1n(yilnโกฯ(xi)+(1โyi)lnโก(1โฯ(xi)))\ln L(\beta) = \sum_{i=1}^{n} \left( y_i \ln \pi(x_i) + (1 - y_i) \ln(1 - \pi(x_i)) \right)lnL(ฮฒ)=i=1โnโ(yiโlnฯ(xiโ)+(1โyiโ)ln(1โฯ(xiโ)))
- ์ด ๋ก๊ทธ ๊ฐ๋ฅ๋ ํจ์(lnโกL\ln LlnL)๋ฅผ ์ต๋ํํ๋ฉด ์ต์ ์ ฮฒ\betaฮฒ๋ฅผ ์ฐพ์ ์ ์์ต๋๋ค.
โ (์ฐธ๊ณ ) ๋ก๊ทธ ๊ฐ๋ฅ๋(Log-Likelihood) ํจ์ ์์ธํ๊ฒ ์ดํด๋ณด๊ธฐ
- ๋ก๊ทธ ๊ฐ๋ฅ๋(Log-Likelihood) ํจ์๋ ์ฐ๋ ํจ์์ ๋ก๊ทธ๋ฅผ ์ทจํ ํํ์ ๋๋ค.
lnโกL=โi(yilnโกฯ(xi)+(1โyi)lnโก(1โฯ(xi)))\ln L = \sum_i \left( y_i \ln \pi(x_i) + (1 - y_i) \ln(1 - \pi(x_i)) \right)lnL=iโโ(yiโlnฯ(xiโ)+(1โyiโ)ln(1โฯ(xiโ)))
- ์ด์ ์๊ทธ๋ชจ์ด๋ ํจ์ ฯ(xi)\pi(x_i)ฯ(xiโ)๋ฅผ ๋์ ํฉ๋๋ค.
ฯ(xi)=eฮฒ0+ฮฒ1X1+โฏ+ฮฒpXp1+eฮฒ0+ฮฒ1X1+โฏ+ฮฒpXp\pi(x_i) = \frac{e^{\beta_0 + \beta_1 X_1 + \dots + \beta_p X_p}}{1 + e^{\beta_0 + \beta_1 X_1 + \dots + \beta_p X_p}}ฯ(xiโ)=1+eฮฒ0โ+ฮฒ1โX1โ+โฏ+ฮฒpโXpโeฮฒ0โ+ฮฒ1โX1โ+โฏ+ฮฒpโXpโโ
- ์ด๋ฅผ lnโกฯ(xi)\ln \pi(x_i)lnฯ(xiโ)์ lnโก(1โฯ(xi))\ln(1 - \pi(x_i))ln(1โฯ(xiโ))์ ์ ์ฉํ๋ฉด:
lnโกฯ(xi)=lnโก(eฮฒ0+ฮฒ1X1+โฏ+ฮฒpXp1+eฮฒ0+ฮฒ1X1+โฏ+ฮฒpXp)\ln \pi(x_i) = \ln \left( \frac{e^{\beta_0 + \beta_1 X_1 + \dots + \beta_p X_p}}{1 + e^{\beta_0 + \beta_1 X_1 + \dots + \beta_p X_p}} \right)lnฯ(xiโ)=ln(1+eฮฒ0โ+ฮฒ1โX1โ+โฏ+ฮฒpโXpโeฮฒ0โ+ฮฒ1โX1โ+โฏ+ฮฒpโXpโโ) =(ฮฒ0+ฮฒ1X1+โฏ+ฮฒpXp)โlnโก(1+eฮฒ0+ฮฒ1X1+โฏ+ฮฒpXp)= (\beta_0 + \beta_1 X_1 + \dots + \beta_p X_p) - \ln(1 + e^{\beta_0 + \beta_1 X_1 + \dots + \beta_p X_p})=(ฮฒ0โ+ฮฒ1โX1โ+โฏ+ฮฒpโXpโ)โln(1+eฮฒ0โ+ฮฒ1โX1โ+โฏ+ฮฒpโXpโ) lnโก(1โฯ(xi))=lnโก(11+eฮฒ0+ฮฒ1X1+โฏ+ฮฒpXp)\ln(1 - \pi(x_i)) = \ln \left( \frac{1}{1 + e^{\beta_0 + \beta_1 X_1 + \dots + \beta_p X_p}} \right)ln(1โฯ(xiโ))=ln(1+eฮฒ0โ+ฮฒ1โX1โ+โฏ+ฮฒpโXpโ1โ) =โlnโก(1+eฮฒ0+ฮฒ1X1+โฏ+ฮฒpXp)= -\ln(1 + e^{\beta_0 + \beta_1 X_1 + \dots + \beta_p X_p})=โln(1+eฮฒ0โ+ฮฒ1โX1โ+โฏ+ฮฒpโXpโ)
- ์ด์ ์ด๋ฅผ ๋ก๊ทธ ๊ฐ๋ฅ๋ ํจ์์ ๋์ ํ๋ฉด:
lnโกL=โiyi((ฮฒ0+ฮฒ1X1+โฏ+ฮฒpXp)โlnโก(1+eฮฒ0+ฮฒ1X1+โฏ+ฮฒpXp))\ln L = \sum_i y_i \left( (\beta_0 + \beta_1 X_1 + \dots + \beta_p X_p) - \ln(1 + e^{\beta_0 + \beta_1 X_1 + \dots + \beta_p X_p}) \right)lnL=iโโyiโ((ฮฒ0โ+ฮฒ1โX1โ+โฏ+ฮฒpโXpโ)โln(1+eฮฒ0โ+ฮฒ1โX1โ+โฏ+ฮฒpโXpโ)) +โi(1โyi)(โlnโก(1+eฮฒ0+ฮฒ1X1+โฏ+ฮฒpXp))+ \sum_i (1 - y_i) \left( -\ln(1 + e^{\beta_0 + \beta_1 X_1 + \dots + \beta_p X_p}) \right)+iโโ(1โyiโ)(โln(1+eฮฒ0โ+ฮฒ1โX1โ+โฏ+ฮฒpโXpโ))
- ์ด๋ฅผ ์ ๊ฐํ๋ฉด:
โiyi(ฮฒ0+ฮฒ1X1+โฏ+ฮฒpXp)โโiyilnโก(1+eฮฒ0+ฮฒ1X1+โฏ+ฮฒpXp)\sum_i y_i (\beta_0 + \beta_1 X_1 + \dots + \beta_p X_p) - \sum_i y_i \ln(1 + e^{\beta_0 + \beta_1 X_1 + \dots + \beta_p X_p})iโโyiโ(ฮฒ0โ+ฮฒ1โX1โ+โฏ+ฮฒpโXpโ)โiโโyiโln(1+eฮฒ0โ+ฮฒ1โX1โ+โฏ+ฮฒpโXpโ) โโi(1โyi)lnโก(1+eฮฒ0+ฮฒ1X1+โฏ+ฮฒpXp)- \sum_i (1 - y_i) \ln(1 + e^{\beta_0 + \beta_1 X_1 + \dots + \beta_p X_p})โiโโ(1โyiโ)ln(1+eฮฒ0โ+ฮฒ1โX1โ+โฏ+ฮฒpโXpโ)
- ์ด์ ๋ ๋ฒ์งธ, ์ธ ๋ฒ์งธ ํญ์ ํฉ์น๋ฉด:
โiyi(ฮฒ0+ฮฒ1X1+โฏ+ฮฒpXp)โโilnโก(1+eฮฒ0+ฮฒ1X1+โฏ+ฮฒpXp)\sum_i y_i (\beta_0 + \beta_1 X_1 + \dots + \beta_p X_p) - \sum_i \ln(1 + e^{\beta_0 + \beta_1 X_1 + \dots + \beta_p X_p})iโโyiโ(ฮฒ0โ+ฮฒ1โX1โ+โฏ+ฮฒpโXpโ)โiโโln(1+eฮฒ0โ+ฮฒ1โX1โ+โฏ+ฮฒpโXpโ)
- ์ ๋ก๊ทธ-์ฐ๋ํจ์(log likelihood function)๊ฐ ์ต๋๊ฐ ๋๋ ํ๋ผ๋ฏธํฐ ฮฒ๋ฅผ ์ฐพ๋ ๊ฒ์ด ๋ชฉ์
-
๋ก๊ทธ-์ฐ๋ํจ์(log likelihood function)๋ ํ๋ผ๋ฏธํฐฮฒ์ ๋ํด ๋น์ ํ์ด๋ฏ๋ก ์ ํํ๊ท
๋ชจ๋ธ๊ณผ ๊ฐ์ด ๋ช ์์ ์ธ ํด๊ฐ ์กด์ฌํ์ง ์์ (์ด๋ฅผ โNo closed-form solution existsโ์ด๋ผ๊ณ ํจ)
๋ฐ๋ผ์, ์ฐ๋ฆฌ๋ ์๋ 5.4. ๋ก์ง์คํฑ ํ๊ท์ ์์ค ํจ์ (Cost Function)์ ๊ฐ์ ์ต์ ํ ์ ๊ทผ์ผ๋ก ์ด๋ฅผ ๋์ถํ๊ณ ์ ํจ.
5.4. ๋ก์ง์คํฑ ํ๊ท์ ์์ค ํจ์ (Cost Function)
- ๋จธ์ ๋ฌ๋์์๋ ์ต์ ํ ๋ฌธ์ ๋ฅผ ์ต์ํ(Minimization) ํํ๋ก ๋ฐ๊พธ๋ ๊ฒ์ด ์ผ๋ฐ์ ์
๋๋ค.
- ์ด๋ฅผ ์ํด ๋ก๊ทธ ๊ฐ๋ฅ๋ ํจ์์ ๋ถํธ๋ฅผ ๋ฐ์ ์์ผ์ Negative Log-Likelihood (NLL)์ ์ ์ํฉ๋๋ค.
- ์ต์ ํ ๊ณผ์ ์์ ์ฐ๋ฆฌ๋ ์ฐ๋๋ฅผ ์ต๋ํํ๋ ๋์ ์์ค์ ์ต์ํํ๋ ๋ฌธ์ ๋ก ๋ณํํฉ๋๋ค.
J(ฮฒ)=โlnโกL(ฮฒ)J(\beta) = -\ln L(\beta)J(ฮฒ)=โlnL(ฮฒ)
๐ (์ ๋ฆฌ) ์ฆ, ์ต๋ ์ฐ๋ ์ถ์ (MLE)์์๋ ln(๐ฟ)ln(๐ฟ)ln(L)์ ์ต๋๋ก ๋ง๋๋ ๊ฒ์ด ๋ชฉํ์ง๋ง, ๋จธ์ ๋ฌ๋์์๋ ์ผ๋ฐ์ ์ผ๋ก ์์ค(loss) ํจ์๋ฅผ ์ต์ํํ๋ ๋ฐฉ์์ผ๋ก ์ต์ ํํฉ๋๋ค.
์ด๋ฅผ ์ํด Negative Log-Likelihood (NLL), ์ฆ ์์ ๋ก๊ทธ ๊ฐ๋ฅ๋๋ฅผ ์ฌ์ฉํฉ๋๋ค.
maxโกฮฒlnโกL(ฮฒ)โminโกฮฒโlnโกL(ฮฒ)\max_{\beta} \ln L(\beta) \quad \Rightarrow \quad \min_{\beta} -\ln L(\beta)ฮฒmaxโlnL(ฮฒ)โฮฒminโโlnL(ฮฒ)
J(ฮฒ)=โโi=1n(yilnโกฯ(xi)+(1โyi)lnโก(1โฯ(xi)))J(\beta) = - \sum_{i=1}^{n} \left( y_i \ln \pi(x_i) + (1 - y_i) \ln(1 - \pi(x_i)) \right)J(ฮฒ)=โi=1โnโ(yiโlnฯ(xiโ)+(1โyiโ)ln(1โฯ(xiโ)))
์ด ์์ Binary Cross-Entropy (BCE) ์์ค ํจ์์ ๋์ผํฉ๋๋ค.
J(ฮฒ)=โ1nโi=1n(yilnโกฯ(xi)+(1โyi)lnโก(1โฯ(xi)))J(\beta) = -\frac{1}{n} \sum_{i=1}^{n} \left( y_i \ln \pi(x_i) + (1 - y_i) \ln(1 - \pi(x_i)) \right)J(ฮฒ)=โn1โi=1โnโ(yiโlnฯ(xiโ)+(1โyiโ)ln(1โฯ(xiโ)))
์ฐธ๊ณ : Binary Cross-Entropy (BCE) ์์ค ํจ์
์ฆ, ๋ก์ง์คํฑ ํ๊ท์ MLE ๋ฌธ์ ๋ ๊ฒฐ๊ตญ Cross-Entropy ์์ค์ ์ต์ํํ๋ ๋ฌธ์ ์ ๊ฐ์์ง๋๋ค.
5.5. argmax ๊ด์ ์์ ํด์
MLE์ ๋ชฉํ๋ ๋ก๊ทธ ๊ฐ๋ฅ๋ lnโกL(ฮฒ)\ln L(\beta)lnL(ฮฒ)๋ฅผ ์ต๋ํํ๋ ฮฒ\betaฮฒ๋ฅผ ์ฐพ๋ ๊ฒ์ ๋๋ค.
ฮฒ^=argโกmaxโกฮฒlnโกL(ฮฒ)\hat{\beta} = \arg\max_{\beta} \ln L(\beta)ฮฒ^โ=argฮฒmaxโlnL(ฮฒ)
ํ์ง๋ง ๋จธ์ ๋ฌ๋์์๋ ์์ค ํจ์(Cost Function)๋ฅผ ์ต์ํํ๋ ๋ฌธ์ ๋ก ๋ณํํฉ๋๋ค.
ฮฒ^=argโกminโกฮฒJ(ฮฒ)=argโกminโกฮฒโlnโกL(ฮฒ)\hat{\beta} = \arg\min_{\beta} J(\beta) = \arg\min_{\beta} -\ln L(\beta)ฮฒ^โ=argฮฒminโJ(ฮฒ)=argฮฒminโโlnL(ฮฒ)
์ฆ, ๋ก๊ทธ ๊ฐ๋ฅ๋๋ฅผ ์ต๋ํํ๋ ๊ฒ๊ณผ Negative Log-Likelihood๋ฅผ ์ต์ํํ๋ ๊ฒ์ ๋๋ฑํ ๋ฌธ์ ์ ๋๋ค.
5.6. ์ต์ข ์ ๋ฆฌ
๊ฐ๋ | ๋ชฉ์ | ํํ์ |
---|---|---|
์ต๋ ์ฐ๋ ์ถ์ (MLE) | ์ฐ๋๋ฅผ ์ต๋ํํ๋ ฮฒ\betaฮฒ ์ฐพ๊ธฐ | L(ฮฒ)=โi=1nฯ(xi)yi(1โฯ(xi))1โyiL(\beta) = \prod_{i=1}^{n} \pi(x_i)^{y_i} (1 - \pi(x_i))^{1 - y_i}L(ฮฒ)=โi=1nโฯ(xiโ)yiโ(1โฯ(xiโ))1โyiโ |
๋ก๊ทธ ๊ฐ๋ฅ๋ (Log-Likelihood) | ์ฐ๋์ ๋ก๊ทธ๋ฅผ ์ทจํด ์ต๋ํ | lnโกL=โi=1n(yilnโกฯ(xi)+(1โyi)lnโก(1โฯ(xi)))\ln L = \sum_{i=1}^{n} \left( y_i \ln \pi(x_i) + (1 - y_i) \ln(1 - \pi(x_i)) \right)lnL=โi=1nโ(yiโlnฯ(xiโ)+(1โyiโ)ln(1โฯ(xiโ))) |
Negative Log-Likelihood (NLL) | ๋ก๊ทธ ๊ฐ๋ฅ๋์ ๋ถํธ๋ฅผ ๋ฐ๊ฟ ์ต์ํ | J(ฮฒ)=โlnโกL(ฮฒ)=โโi=1n(yilnโกฯ(xi)+(1โyi)lnโก(1โฯ(xi)))J(\beta) = -\ln L(\beta) = -\sum_{i=1}^{n} \left( y_i \ln \pi(x_i) + (1 - y_i) \ln(1 - \pi(x_i)) \right)J(ฮฒ)=โlnL(ฮฒ)=โโi=1nโ(yiโlnฯ(xiโ)+(1โyiโ)ln(1โฯ(xiโ))) |
Binary Cross-Entropy (BCE) ์์ค ํจ์ | ๋ก์ง์คํฑ ํ๊ท์์ ์ต์ ํํ๋ ํ์ค ์์ค ํจ์ | J(ฮฒ)=โ1nโi=1n(yilnโกฯ(xi)+(1โyi)lnโก(1โฯ(xi)))J(\beta) = -\frac{1}{n} \sum_{i=1}^{n} \left( y_i \ln \pi(x_i) + (1 - y_i) \ln(1 - \pi(x_i)) \right)J(ฮฒ)=โn1โโi=1nโ(yiโlnฯ(xiโ)+(1โyiโ)ln(1โฯ(xiโ))) |
์ฆ, MLE์์ ๋ก๊ทธ ๊ฐ๋ฅ๋๋ฅผ ์ต๋ํํ๋ ๋ฌธ์ ๋ ๊ฒฐ๊ตญ Cross-Entropy ์์ค์ ์ต์ํํ๋ ๋ฌธ์ ์ ๊ฐ์์ง๋๋ค.
์ด๋ ์ฐ๋ฆฌ๊ฐ ํํ ๋ก์ง์คํฑ ํ๊ท์ ์์ค ํจ์(Binary Cross-Entropy, BCE)๋ฅผ ์ฌ์ฉํ๋ ์ด์ ์ ๋๋ค.
-
๋ก์ง์คํฑ ํ๊ท๋ชจ๋ธ ๊ฒฐ๊ณผ ํด์
๋ก์ง์คํฑ ํ๊ท๋ชจ๋ธ์ ์์ฑํ ํ ๋์ค๋ ๊ฒฐ๊ณผ ํ ์ด๋ธ์ ๊ฒฐ๊ณผ๋ฅผ ํด์ํ๋ ๋ฐฉ๋ฒ์ ์ค๋ช ํฉ๋๋ค.
6.1 ์ถ์ ๋ ํ๋ผ๋ฏธํฐ (Coefficient)
๋ก์ง์คํฑ ํ๊ท๋ชจ๋ธ์์ ํ๋ผ๋ฏธํฐ (Coefficient, ฮฒ\betaฮฒ)๋ ํ ์ด๋ธ์ ๊ฒฐ๊ณผ์์ ๋ก๊ทธ ์ค์ฆ(Log-Odds) ๋ณํ๋์ ๋ํ๋ ๋๋ค.
logโก(ฯ(x)1โฯ(x))=ฮฒ0+ฮฒ1X1+โฏ+ฮฒpXp\log \left( \frac{\pi(x)}{1 - \pi(x)} \right) = \beta_0 + \beta_1 X_1 + \dots + \beta_p X_plog(1โฯ(x)ฯ(x)โ)=ฮฒ0โ+ฮฒ1โX1โ+โฏ+ฮฒpโXpโ
- ฮฒ>0\beta > 0ฮฒ>0 : ํด๋น ๋ณ์๊ฐ ์ฆ๊ฐํ ๋ ์ฑ๊ณต ํ๋ฅ ์ด ์ฆ๊ฐ
- ฮฒ<0\beta < 0ฮฒ<0 : ํด๋น ๋ณ์๊ฐ ์ฆ๊ฐํ ๋ ์ฑ๊ณต ํ๋ฅ ์ด ๊ฐ์
๋ฐ๋ผ์, ํ๊ท๊ณ์๊ฐ ์ฆ๊ฐํ๋ฉด ์ฑ๊ณต ํ๋ฅ ์ด ์ฆ๊ฐํ๊ณ , ํ๊ท๊ณ์๊ฐ ์์๋ฉด ์ฑ๊ณต ํ๋ฅ ์ด ๊ฐ์ํ๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
6.2 ํ๋ผ๋ฏธํฐ ํ์คํธ์ฐจ (Standard Error)
์ถ์ ๋ ํ๋ผ๋ฏธํฐ์ ํ์คํธ์ฐจ (Standard Error, SE)๋ ํด๋น ํ๋ผ๋ฏธํฐ๊ฐ ์ผ๋ง๋ ์ ๋ขฐํ ์ ์๋์ง๋ฅผ ๋ํ๋ ๋๋ค.
- Std. Error๊ฐ ์์์๋ก : ํ๋ผ๋ฏธํฐ ๊ฒฐ๊ณผ์ ์ ๋ขฐ์ฑ์ด ๋์
- Std. Error๊ฐ ํฌ๋ฉด : ํ๋ผ๋ฏธํฐ ๊ฒฐ๊ณผ์ ์ ๋ขฐ์ฑ์ด ๋ฎ์
์ด ๊ฐ์ ์ ๋ขฐ๊ตฌ๊ฐ (Confidence Interval, CI) ๊ณ์ฐ์ ์ฌ์ฉ๋ฉ๋๋ค.
95%ย CI=ฮฒยฑ1.96รStd.ย Error95\% \text{ CI} = \beta \pm 1.96 \times \text{Std. Error}95%ย CI=ฮฒยฑ1.96รStd.ย Error
6.3 p-value (ํต๊ณ์ ์ ์์ฑ)
p-value๋ ํด๋น ํ๋ผ๋ฏธํฐ๊ฐ ์ข ์ ๋ณ์์ ์ ์๋ฏธํ ์ํฅ์ ๋ฏธ์น๋์ง๋ฅผ ํ๋จํ๋ ๊ฐ์ ๋๋ค.
- p-value < 0.05 : ํด๋น ๋ณ์๋ ์ข ์ ๋ณ์์ ์ ์๋ฏธํ ์ํฅ์ ์ค๋ค.
- p-value \geq 0.05 : ํด๋น ๋ณ์๋ ์ข ์ ๋ณ์์ ์ ์๋ฏธํ ์ํฅ์ ์ฃผ์ง ์๋๋ค.
p-value๊ฐ 0.05๋ณด๋ค ์์ผ๋ฉด ํด๋น ํ๋ผ๋ฏธํฐ๋ ์ข ์ ๋ณ์์ ์ ์๋ฏธํ ์ํฅ์ ์ค๋ค๊ณ ํ๋จํ ์ ์์ต๋๋ค.
6.4 Odds Ratio (์น์ฐ ๋น์จ)
๋ก์ง์คํฑ ํ๊ท๋ชจ๋ธ์์ Odds Ratio(์น์ฐ ๋น์จ)์ ํน์ ๋ณ์๊ฐ 1 ์ฆ๊ฐํ ๋ ์ฑ๊ณต(์ข ์ ๋ณ์ Y=1Y=1Y=1)์ ์ค์ฆ(Odds)๊ฐ ๋ช ๋ฐฐ ๋ณํํ๋์ง๋ฅผ ๋ํ๋ด๋ ๊ฐ์ ๋๋ค.
- ์ฐ๋ฆฌ๊ฐ ์ป๋ ํ๊ท๊ณ์ ฮฒ\betaฮฒ๋ ๋ก๊ทธ ์ค์ฆ(Log-Odds)์ ๋ณํ๋์ ์๋ฏธํ๋ฉฐ, ์ด๋ฅผ ์ง์ ํจ์ eฮฒe^{\beta}eฮฒ๋ก ๋ณํํ๋ฉด Odds Ratio(์น์ฐ ๋น์จ)์ ์ป์ ์ ์์ต๋๋ค.
Oddsย Ratio=eฮฒ\text{Odds Ratio} = e^{\beta}Oddsย Ratio=eฮฒ
๐ Odds Ratio ํด์
- Odds Ratio > 1 : ํด๋น ๋ณ์๊ฐ ์ฆ๊ฐํ๋ฉด ์ฑ๊ณต ํ๋ฅ ์ด ์ฆ๊ฐํจ.
- ์: Oddsย Ratio=1.5\text{Odds Ratio} = 1.5Oddsย Ratio=1.5๋ผ๋ฉด, ํด๋น ๋ณ์๊ฐ 1 ์ฆ๊ฐํ ๋ ์ฑ๊ณตํ ํ๋ฅ ์ด 1.5๋ฐฐ ์ฆ๊ฐํจ.
- Odds Ratio = 1 : ํด๋น ๋ณ์๊ฐ ์ฑ๊ณต ํ๋ฅ ์ ์ํฅ์ ์ฃผ์ง ์์.
- Odds Ratio < 1 : ํด๋น ๋ณ์๊ฐ ์ฆ๊ฐํ๋ฉด ์ฑ๊ณต ํ๋ฅ ์ด ๊ฐ์ํจ.
- ์: Oddsย Ratio=0.5\text{Odds Ratio} = 0.5Oddsย Ratio=0.5๋ผ๋ฉด, ํด๋น ๋ณ์๊ฐ 1 ์ฆ๊ฐํ ๋ ์ฑ๊ณตํ ํ๋ฅ ์ด ์ ๋ฐ(50%)๋ก ๊ฐ์ํจ.
-
๊ฒฐ๋ก
๋ก์ง์คํฑ ํ๊ท ๋ชจ๋ธ์ ๋ฒ์ฃผํ ๋ฐ์ดํฐ๋ฅผ ์์ธกํ๋ ๋ฐ ์ ์ฉํ ๋๊ตฌ์ด๋ฉฐ, ์ค์ฆ ๋น๋ฅผ ํตํด ๋ณ์ ๊ฐ์ ๊ด๊ณ๋ฅผ ๋ช ํํ๊ฒ ๋ถ์ํ ์ ์์ต๋๋ค.
- ์ฐ๊ตฌ์์ ์คํ์๋ค์ ์ด๋ฅผ ํ์ฉํ์ฌ ์คํ ๋ฐ์ดํฐ๋ฅผ ๋ณด๋ค ์ง๊ด์ ์ผ๋ก ํด์ํ๊ณ , ์๋ฏธ ์๋ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ ์ ์์ต๋๋ค.
์์ผ๋ก ์คํ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ ๋, ์ค์ฆ ๋น๋ฅผ ํ์ฉํด๋ณด์๊ธธ ์ถ์ฒ๋๋ฆฝ๋๋ค!
ํ์ดํ ์ ๋๋ค ๐