[๋ฅ๋ฌ๋][๊ฐ๋ ์ ๋ฆฌ] Inductive Bias๋?
Inductive Bias
Overview
Inductive Bias๋ ๋ฌด์์ผ๊น์? ์ต๊ทผ ๋ ผ๋ฌธ๋ค์ ๋ณด๋ฉด ๊ทธ๋ฅ Bias๋ ์๋๊ณ Inductive Bias๋ผ๋ ๋ง์ด ์์ฃผ ๋์ค๋ ๊ฒ์ ํ์ธํ ์ ์๋๋ฐ์! ์ค๋์ ํด๋น ๊ฐ๋ ์ ๋ํด ์ ๋ฆฌํด๋ณด๋ ์๊ฐ์ ๊ฐ์ง๋ ค๊ณ ํฉ๋๋ค. ๊ณต๋ถํ๋ฉด์ ์์ฑํ ๊ธ์ด๋ฏ๋ก ํ๋ฆฐ ๊ฐ๋ ์ด ์๋ค๋ฉด ์ธ์ ๋ ํผ๋๋ฐฑ ํ์ํฉ๋๋ค.
Bias(ํธํฅ) and Variance(๋ถ์ฐ)
์ด๋ฏธ ํด๋น ํฌ์คํ ์ ์ฝ๋ ๋ถ๋ค์ ์์๊ฒ ์ง๋ง, ๋จผ์ ๊ฐ๋จํ๊ฒ Bias์ Variance์ ๊ฐ๋ ์ ์ง๊ณ ๋์ด๊ฐ๋๋ก ํ๊ฒ ์ต๋๋ค.
๋จผ์ Error๋ ๋ค์๊ณผ ๊ฐ์ด Bias์ Variance๋ก ๋ถํด๋ ์ ์์ต๋๋ค.

์ ์์์ ํตํด ์ ์ ์๋ ๊ฒ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- Bias(์ ์ ๊ณฑ)์ ์ค์ ๊ฐ(F^โ(X0)\widehat{F}^{*}(X_{0})Fโ(X0โ))๊ณผ ์์ธก๊ฐ๋ค์ ํ๊ท (Fโพโ(X0)\overline{F}^{*}(X_{0})Fโ(X0โ))์ ์ฐจ์ด๋ฅผ ์๋ฏธํฉ๋๋ค. ๋ฎ์ Bias๋ ํ๊ท ์ ์ผ๋ก ์ฐ๋ฆฌ๊ฐ ์ค์ ๊ฐ์ ๊ทผ์ฌํ๊ฒ ์์ธก์ ์ํํ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ฉฐ, ๋์ Bias๋ ์ค์ ๊ฐ๊ณผ ์์ธก๊ฐ์ ํ๊ท ์ด ๋ฉ๋ฆฌ ๋จ์ด์ ธ์์์ผ๋ก poor match๋ฅผ ์๋ฏธํฉ๋๋ค. ์ฆ, Bias๋ ๋ชจ๋ธ์ ์์ธก๊ฐ๊ณผ ์ค์ ๊ฐ์ด ์ผ๋ง๋ ๋จ์ด์ ธ์๋๊ฐ๋ฅผ ์๋ฏธํ๋ฉฐ, Bias๊ฐ ํฌ๊ฒ ๋๋ฉด ๊ณผ์์ ํฉ(underfitting)์ ์ผ๊ธฐํฉ๋๋ค.
- Variance๋ ์์ธก๊ฐ๋ค์ ํ๊ท (Fโพโ(X0)\overline{F}^{*}(X_{0})Fโ(X0โ))์ผ๋ก๋ถํฐ ํน์ ์์ธก๊ฐ๋ค(F^(X0)\widehat{F}(X_{0})F(X0โ))์ด ์ด๋ ์ ๋ ํผ์ ธ์๋ ๊ฐ๋ฅผ ์๋ฏธํฉ๋๋ค. ๋ฎ์ Variance๋ ๋ค์ด์ค๋ ๋ฐ์ดํฐ์ ๋ฐ๋ผ ์์ธก๊ฐ์ด ํฌ๊ฒ ๋ฐ๋์ง ์๋ ๊ฒ์ ์๋ฏธํ๋ฉฐ, ๋์ Variance๋ ๋ค์ด์ค๋ ๋ฐ์ดํฐ์ ๋ฐ๋ผ ์์ธก๊ฐ์ด ํฌ๊ฒ ๋ฐ๋๋ฏ๋ก poor match๋ฅผ ์๋ฏธํฉ๋๋ค. ์ฆ, Variance๋ ์์ธก ๋ชจ๋ธ์ ๋ณต์ก๋๋ผ๊ณ ํด์ํ ์ ์์ผ๋ฉฐ, Variance๊ฐ ํฐ ๋ชจ๋ธ์ ํ๋ จ ๋ฐ์ดํฐ์ ์ง๋์น๊ฒ ์ ํฉ์ ์์ผ ์ผ๋ฐํ๋์ง ์๋ ๊ณผ๋์ ํฉ(overfitting)์ ์ผ๊ธฐํฉ๋๋ค.

์ ๊ทธ๋ฆผ์ Bias์ Variance๋ฅผ ๊ฐ์ฅ ์ ์ค๋ช ํ๋ ๊ทธ๋ฆผ(๊ฐ์ธ์ ์ธ ์๊ฐ)์ผ๋ก ๊ฐ์ด๋ฐ ์์นํ ์ฃผํฉ์ ์์ด ์ฐ๋ฆฌ๊ฐ ์ค์ ๋ก ์์ธกํ๊ณ ์ ํ๋ ๊ฐ(target)์ด๊ณ , ํ๋์ X๋ค์ด ๋ชจ๋ธ์ ๊ฒฐ๊ณผ(output)๋ผ๊ณ ์๊ฐํ์๋ฉด๋ฉ๋๋ค. Bias๊ฐ ๋ฎ์์๋ก ์ค์ ์ ๋ต๊ฐ์ ์์ธก๊ฐ๋ค์ด ๊ฐ๊น๊ฒ ์กด์ฌํ๊ณ , Variance๊ฐ ๋ฎ์์๋ก ์์ธก๊ฐ๋ค์ ํผ์ง ์ ๋๊ฐ ์ค์ด๋๋ ๊ฒ์ ํ ๋์ ๋ณด์ค ์ ์์ต๋๋ค.
ํ์ง๋ง, ํ์ค์ ์ผ๋ก ๋ฎ์ Bias์ ๋ฎ์ Variance ๋ ๊ฐ์ง๋ฅผ ๋์์ ๋ง์กฑํ๋ ๊ฒ์ ๊ฑฐ์ ๋ถ๊ฐ๋ฅํฉ๋๋ค. ๋ฐ๋ผ์ ์ด๋ ์ ๋์ tradeoff๋ ๋ฐ๋์ ์๊ธธ ์ ๋ฐ์ ์์ผ๋ฉฐ ์ด๋ bias-variance trade-off ๋ผ๊ณ ๋ถ๋ฆฝ๋๋ค..
Inductive Bias (๊ท๋ฉํธํฅ)
๊ทธ๋ ๋ค๋ฉด ์ด๋ฒ ํฌ์คํ ์ ๋ฉ์ธ ๋์ฌ์ธ Inductive Bias๋ ๋ฌด์์ผ๊น์?
์ผ๋ฐ์ ์ผ๋ก ๋ชจ๋ธ์ด ๊ฐ๋ generalization problem์ผ๋ก๋ ๋ชจ๋ธ์ด brittle(๋ถ์์ )ํ๋ค๋ ๊ฒ๊ณผ, spurious(๊ฒ์ผ๋ก๋ง ๊ทธ๋ด์ธํ)ํ๋ค๋ ๊ฒ์ด ์์ต๋๋ค.
- Models are brittle : ๋ฐ์ดํฐ์ input์ด ์กฐ๊ธ๋ง ๋ฐ๋์ด๋ ๋ชจ๋ธ์ ๊ฒฐ๊ณผ๊ฐ ๋ง๊ฐ์ง๊ฒ ๋ฉ๋๋ค.
- Models are spurious : ๋ฐ์ดํฐ ๋ณธ์ฐ์ ์๋ฏธ๋ฅผ ํ์ตํ๋ ๊ฒ์ด ์๋ ๊ฒฐ๊ณผ(artifacts)์ ํธํฅ(biases)๋ฅผ ํ์ตํ๊ฒ ๋ฉ๋๋ค.
์ด๋ฌํ ๋ฌธ์ ์ ๋ค์ ํด๊ฒฐํ๊ธฐ ์ํด Inductive Bias๋ฅผ ์ด์ฉํ๊ฒ ๋ฉ๋๋ค. Wikipedia์์ ์ ์๋ฅผ ๋น๋ ค์ค์๋ฉด, Inductive bias๋, ํ์ต ์์๋ ๋ง๋๋ณด์ง ์์๋ ์ํฉ์ ๋ํ์ฌ ์ ํํ ์์ธก์ ํ๊ธฐ ์ํด ์ฌ์ฉํ๋ ์ถ๊ฐ์ ์ธ ๊ฐ์ (additional assumptions)์ ์๋ฏธํฉ๋๋ค.
Machine learning์์๋ ์ด๋ค ๋ชฉํ(target)๋ฅผ ์์ธกํ๊ธฐ ์ํด ํ์ตํ ์ ์๋ ์๊ณ ๋ฆฌ์ฆ ๊ตฌ์ถ์ ๋ชฉํ๋ก ํ๊ณ , ์ด๋ฅผ ์ํด ์ ํ๋ ์์ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ง๊ฒ ๋ฉ๋๋ค. ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ๋์ด ๋ค๋ฅธ ๋ฐ์ดํฐ์ ๋ํด์๋ ์ผ๋ฐํํ ์ ์๋ ๋ฅ๋ ฅ์ ๊ฐ์ง ๋ชจ๋ ๊ธฐ๊ณ ํ์ต ์๊ณ ๋ฆฌ์ฆ์๋ ์ด๋ค ์ ํ์ Inductive Bias๊ฐ ์กด์ฌํ๋๋ฐ, ์ด๋ ๋ชจ๋ธ์ด ๋ชฉํ ํจ์๋ฅผ ํ์ตํ๊ณ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ๋์ด ์ผ๋ฐํํ๊ธฐ ์ํด ๋ง๋ ๊ฐ์ ์ ๋๋ค.
๊ฐ์๊ธฐ ๊ฐ์ ์ด๋ผ๋ ๋ง์ด ๋์์ ํท๊ฐ๋ฆฌ๋ค๊ณ ์? ํธํฅ์ ๊ด์ ์ผ๋ก ๋ค์ ์ ์๋ฅผ ๋ด๋ ค๋ณด์๋ฉด ๋ชจ๋ธ์ด ํ์ต๊ณผ์ ์์ ๋ณธ ์ ์ด ์๋ ๋ถํฌ์ ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฅ ๋ฐ์์ ๋, ํด๋น ๋ฐ์ดํฐ์ ๋ํ ํ๋จ์ ๋ด๋ฆฌ๊ธฐ ์ํด ๊ฐ์ง๊ณ ์๋, ํ์ต๊ณผ์ ์์ ์ต๋๋ Bias(ํธํฅ)์ด๋ผ๊ณ ๋งํ ์ ์์ ๊ฒ ๊ฐ์ต๋๋ค.
์ด๋ฌํ ๋ฑ๋ฑํ ๊ฐ๋ ์ด ์๋ ์กฐ๊ธ ๋ ๋น์ ์ ์ธ ํํ์ ๊ฐ์ง๊ณ ์์๋ฅผ ๋ค์ด๋ณด๊ฒ ์ต๋๋ค. ์ฐ๋ฆฌ๊ฐ ํํ ๋งํ๋ ๋จธ์ ๋ฌ๋/๋ฅ๋ฌ๋์ input๊ณผ output์ ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ง๋ฉด, ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ๋ง๋ ํจ์๋ฅผ ๊ฐ๋ฐฉ์์ ์ฐพ๋ ๊ฒ์ด๋ผ๊ณ ๋น์ ํด ๋ณด๊ฒ ์ต๋๋ค. Inductive Bias๋ ์ฐ๋ฆฌ๊ฐ ํจ์๋ฅผ ์ฐพ๋ ๊ฐ๋ฐฉ์ ํฌ๊ธฐ์ ๋ฐ๋น๋ก(๊ฐ์ ์ ๊ฐ๋์๋ ๋น๋ก)๋๋ ๊ฐ๋ ์ผ๋ก ๋ณด์๋ฉด ๋ ๊ฒ ๊ฐ์ต๋๋ค. ์ค์ ๋ก ๊ฑฐ์ ๋ชจ๋ ํจ์๋ฅผ ํํํ ์ ์๋ MLP(Multi-Linear Perceptron)์ ๊ฒฝ์ฐ ์์ฒญ ํฐ ๊ฐ๋ฐฉ์ด๋ผ๊ณ ์๊ฐํ๋ฉด๋๊ณ , CNN(Convolutional Neural-Net)์ ๊ฒฝ์ฐ ์ ์๋ณด๋ค๋ ์์ ๊ฐ๋ฐฉ์ด๋ผ๊ณ ์๊ฐํ๋ฉด ๋ ๊ฒ ๊ฐ์ต๋๋ค.
๋ช ๊ฐ์ง Inductive Bias๋ฅผ ์๋ก ๋ค์ด๋ณด๊ฒ ์ต๋๋ค.
Translation invariance: ์ด๋ ํ ์ฌ๋ฌผ์ด ๋ค์ด ์๋ ์ด๋ฏธ์ง๋ฅผ ์ ๊ณตํด์ค ๋ ์ฌ๋ฌผ์ ์์น๊ฐ ๋ฐ๋์ด๋ ํด๋น ์ฌ๋ฌผ์ ์ธ์ํ ์ ์์ต๋๋ค.Translation Equivariance: ์ด๋ ํ ์ฌ๋ฌผ์ด ๋ค์ด ์๋ ์ด๋ฏธ์ง๋ฅผ ์ ๊ณตํด์ค ๋ ์ฌ๋ฌผ์ ์์น๊ฐ ๋ฐ๋๋ฉด CNN๊ณผ ๊ฐ์ ์ฐ์ฐ์ activation ์์น ๋ํ ๋ฐ๋๊ฒ ๋ฉ๋๋ค.Maximum conditional independence: ๊ฐ์ค์ด ๋ฒ ์ด์ง์ ํ๋ ์์ํฌ์ ์บ์คํ ๋ ์ ์๋ค๋ฉด ์กฐ๊ฑด๋ถ ๋ ๋ฆฝ์ฑ์ ๊ทน๋ํํฉ๋๋ค.Minimum cross-validation error: ๊ฐ์ค ์ค์์ ์ ํํ๋ ค๊ณ ํ ๋ ๊ต์ฐจ ๊ฒ์ฆ ์ค์ฐจ๊ฐ ๊ฐ์ฅ ๋ฎ์ ๊ฐ์ค์ ์ ํํฉ๋๋ค.Maximum margin: ๋ ํด๋์ค ์ฌ์ด์ ๊ฒฝ๊ณ๋ฅผ ๊ทธ๋ฆด ๋ ๊ฒฝ๊ณ ๋๋น๋ฅผ ์ต๋ํํฉ๋๋ค.Minimum description length: ๊ฐ์ค์ ๊ตฌ์ฑํ ๋ ๊ฐ์ค์ ์ค๋ช ๊ธธ์ด๋ฅผ ์ต์ํํฉ๋๋ค. ์ด๋ ๋ ๊ฐ๋จํ ๊ฐ์ค์ ๋ ์ฌ์ค์ผ ๊ฐ๋ฅ์ฑ์ด ๋๋ค๋ ๊ฐ์ ์ ๊ธฐ๋ฐ์ผ๋ก ํ๊ณ ์์ต๋๋ค.Minimum features: ํน์ ํผ์ณ๊ฐ ์ ์ฉํ๋ค๋ ๊ทผ๊ฑฐ๊ฐ ์๋ ํ ์ญ์ ํด์ผ ํฉ๋๋ค.Nearest neighbors: ํน์ง ๊ณต๊ฐ์ ์๋ ์์ ์ด์์ ๊ฒฝ์ฐ ๋๋ถ๋ถ์ด ๋์ผํ ํด๋์ค์ ์ํ๋ค๊ณ ๊ฐ์ ํฉ๋๋ค.
๋ฅ๋ฌ๋์์์ Inductive Bias
๋ฅ๋ฌ๋์ ๊ด์ ์์ Inductive Bias๋ฅผ ์ด์ผ๊ธฐํด๋ณด์๋ฉด, ๋ฅ๋ฌ๋์์ ์ฐ๋ฆฌ๊ฐ ํํ ์๋ ๋ ์ด์ด์ ๊ตฌ์ฑ์ ์ผ์ข ์ Relational Inductive Bias(๊ด๊ณ ๊ท๋ฉ์ ํธํฅ), ์ฆ hierarchical processing(๊ณ์ธต์ ์ฒ๋ฆฌ)๋ฅผ ์ ๊ณตํฉ๋๋ค. ๋ฅ๋ฌ๋ ๋ ์ด์ด์ ์ข ๋ฅ์ ๋ฐ๋ผ ์ถ๊ฐ์ ์ธ ๊ด๊ณ ์ ๋ ํธํฅ์ ๋ถ๊ณผ๋๋ฉฐ ์ด๋ ์๋ ํ๋ฅผ ์ฐธ๊ณ ํ๋ฉด ๋ ๊ฒ ๊ฐ์ต๋๋ค.

Conclusion
Inductive Bias๊ฐ ๊ฐํ ์๋ก, Sample Efficiency๊ฐ ์ข์์ง๊ธด ํ๋ ๊ทธ๋งํผ ๊ฐ์ ์ด ๊ฐํ๊ฒ ๋ค์ด๊ฐ ๊ฒ์์ผ๋ก ์ข๊ฒ ๋ณผ ์๋ง์ ์์ต๋๋ค. ์ด๋ ์์์ ์๊ฐํ bias-variance tradeoff์ ์ ์ฌํ ๊ฐ๋ ์ผ๋ก ๋ณด์๋ฉด ๋ ๊ฒ ๊ฐ์ต๋๋ค.
๋ง์ ํ๋์ ๋ฅ๋ฌ๋ ๋ฐฉ๋ฒ์ ์ต์ํ์ ์ ํ ํํ ๋ฐ ๊ณ์ฐ ๊ฐ์ ์ ๊ฐ์กฐํ๋ โEnd-to-Endโ ์ค๊ณ ์ฒ ํ์ ๋ฐ๋ฅด๋ฉฐ, ์ด๋ฌํ ํธ๋ ๋๊ฐ ์ ๋๋ถ๋ถ์ ๋ฅ๋ฌ๋ ๊ธฐ๋ฒ๋ค์ด ๋ฐ์ดํฐ ์ง์ฝ์ (Data-Intensive)์ธ์ง๋ฅผ ์ค๋ช ํฉ๋๋ค.
๋ฐ๋ฉด์, ๋ช๋ช ๋ฅ๋ฌ๋ ์ํคํ ์ฒ(Eg. Graph Network)์ ๋ ๊ฐํ ๊ด๊ณ Inductive Bias๋ฅผ ๋ง๋๋ ๊ฒ์ ๋ํ ๋ง์ ์ฐ๊ตฌ๋ค์ด ์กด์ฌํฉ๋๋ค.
์ถ์ฒ
๋ณธ ํฌ์คํ ์ ์๋ ์ฌ์ดํธ๋ค์ ์ฐธ๊ณ ํ์ฌ ์์ฑ๋์์ต๋๋ค.
- https://www.facebook.com/groups/TensorFlowKR/permalink/1485375795136807/
- https://stats.stackexchange.com/questions/208936/what-is-translation-invariance-in-computer-vision-and-convolutional-neural-netwo/208949#208949
- https://stackoverflow.com/questions/35655267/what-is-inductive-bias-in-machine-learning
- https://www.youtube.com/watch?v=cHiG0Ucv6Ck
- https://www.youtube.com/watch?v=mZwszY3kQBg
- https://en.wikipedia.org/wiki/Inductive_bias