[๋์๋ฆฌ๋ทฐ] ๊ฒฝ์ฌ ํ๊ฐ๋ฒ ๊ณ๋ณด ์ ๋ฆฌ(ํํํ์์ ใEasy! ๋ฅ๋ฌ๋ใ)
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/๋ฆฌ๋ทฐ-์ ํธ์ฒ๋ฆฌ-๊ธฐ์ด-์ ๋ฆฌํํํ์์-ใEasy-๋ฅ๋ฌ๋ใ-yzyniith
์๋ ํ์ธ์! ์ง๋ ใEasy! ๋ฅ๋ฌ๋ใ ๋์ ์๊ฐ ๊ฒ์๊ธ(๋ฅ๋ฌ๋ ์ ๋ฌธ์๋ฅผ ์ํ ์ฑ ์ถ์ฒ, ํํํ์ ใEasy! ๋ฅ๋ฌ๋ใ)์ ์ด์ด์ ์ค๋์ ํต์ฌ ์ฑํฐ ๋ถ์ ๋ฐ ์ฌ์ธต ํ๊ตฌ๋ฅผ ํด๋ณด๊ฒ ์ต๋๋ค
๐ธ (์ฐธ๊ณ ) ์ฑ ์ด๋ฏธ์ง๋ค์ ๋ฆฌ๋ทฐ ๋ชฉ์ ์ผ๋ก ์ง์ ์ดฌ์ ํ ์ฒจ๋ถํ์์ต๋๋ค.
์ด๋ฒ ๊ฒ์๊ธ์์๋ โChapter 2 โ ์ธ๊ณต ์ ๊ฒฝ๋ง๊ณผ ์ ํ ํ๊ท, ๊ทธ๋ฆฌ๊ณ ์ต์ ํ ๊ธฐ๋ฒ๋คโ์ ๋ค๋ฃฐ ์์ ์ ๋๋ค.
- ์ด ์ฅ์์๋ ์ธ๊ณต ์ ๊ฒฝ๋ง, ์ ํ ํ๊ท, ๊ทธ๋ฆฌ๊ณ ์ต์ ํ ๊ธฐ๋ฒ ๋ฑ ๋ฅ๋ฌ๋์ ์ดํดํ๋ ๋ฐ ํ์์ ์ธ ํต์ฌ ๊ฐ๋ ๋ค์ ์๊ฐํฉ๋๋ค.
๐ฌ Table of Contents for Chapter 2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
โ
Chapter 2 โ ์ธ๊ณต ์ ๊ฒฝ๋ง๊ณผ ์ ํ ํ๊ท, ๊ทธ๋ฆฌ๊ณ ์ต์ ํ ๊ธฐ๋ฒ๋ค
2.1 ์ธ๊ณต ์ ๊ฒฝ: Weight์ Bias์ ์ง๊ด์ ์ดํด
2.2 ์ธ๊ณต ์ ๊ฒฝ๋ง๊ณผ MLP
2.3 ์ธ๊ณต ์ ๊ฒฝ๋ง์ ํจ์๋ค!
2.4 ์ ํ ํ๊ท, ๊ฐ๋
๋ถํฐ ์๊ณ ๋ฆฌ์ฆ๊น์ง step by step
2.5 ๊ฒฝ์ฌ ํ๊ฐ๋ฒ
2.5.1 ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ๋ ๊ฐ์ง ๋ฌธ์
2.6 ์จ์ดํธ ์ด๊ธฐํ
2.7 ํ๋ฅ ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ
2.8 Mini-Batch Gradient Descent
2.8.1 Batch Size์ Learning Rate์ ์กฐ์
2.9 Momentum
2.10 RMSProp
2.11 Adam
2.12 ๊ฒ์ฆ ๋ฐ์ดํฐ
2.12.1 K-fold ๊ต์ฐจ ๊ฒ์ฆ
์ ๋ ์ด๋ฒ์ ์ด ์ฑ
์ ๋ฆฌ๋ทฐ์ด๋ก ์ ์ ๋์ด ๋ด์ฉ์ ๋ค์ ์ดํด๋ณด๋ฉด์, ์น์ ํ ์์
์ ์ฌ์ด ์ค๋ช
๋๋ถ์ ๋ฅ๋ฌ๋ ๊ฐ๋
์ ๋ณด๋ค ํํํ๊ฒ ์ ๋ฆฌํ ์ ์์์ต๋๋ค.
- ์ ๊ณต์์ ๋ฑ๋ฑํ ์ค๋ช ์ด ๋ถ๋ด์ค๋ฌ์ฐ์ จ๋ค๋ฉด, ์ด ์ฑ ์ ์ ๋ฌธ์์๊ฒ๋ ๋ถ๋ด ์์ด ์ถ์ฒํ ๋งํ ์ฑ ์ ๋๋ค!
๊ธฐ์ธ๊ธฐ์ ์ต์ ํ ๊ธฐ๋ฒ
1. ๊ทธ๋๋์ธํธ(Gradient)๋?
๊ทธ๋๋์ธํธ๋ ๋ค๋ณ์ ํจ์์์ ํจ์๊ฐ์ด ๊ฐ์ฅ ๊ฐํ๋ฅด๊ฒ ์ฆ๊ฐํ๋ ๋ฐฉํฅ๊ณผ ๊ทธ ํฌ๊ธฐ๋ฅผ ๋ํ๋ด๋ ๋ฒกํฐ์ ๋๋ค.
Ex. ์ด๋ค ํจ์ f(x,y)f(x,y)f(x,y)๊ฐ ์์ ๋, ํน์ ์ง์ ์์์ ๊ทธ๋๋์ธํธ๋ ๊ฐ ๋ณ์์ ๋ํ ํธ๋ฏธ๋ถ(partial derivative)์ผ๋ก ๊ตฌํ ์ ์์ต๋๋ค.
โf(x,y)=[โfโx,โfโy]\nabla f(x, y) = \left[ \frac{\partial f}{\partial x}, \frac{\partial f}{\partial y} \right]โf(x,y)=[โxโfโ,โyโfโ]
์ด ๊ทธ๋๋์ธํธ ๋ฒกํฐ๋ ํด๋น ์ง์ ์์ ํจ์๊ฐ ๊ฐ์ฅ ๋น ๋ฅด๊ฒ ์ฆ๊ฐํ๋ ๋ฐฉํฅ์ ๊ฐ๋ฆฌํต๋๋ค.
(์ข) ํํํ์ ใEasy! ๋ฅ๋ฌ๋ใ, (์) Gradient Descent, (ํ) GD ๋น์ - ๋ฑ์ฐ
์ ๊ทธ๋ฆผ์ ๊ฐ์ง๊ณ ์ค์ ๊ณ์ฐ ๊ฐ๋ฅํ ์์๋ฅผ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
Ex. ํจ์ f(x,y)=x2+y2f(x, y) = x^2 + y^2f(x,y)=x2+y2๋ฅผ ์๊ฐํด ๋ณด๊ฒ ์ต๋๋ค.
- ์ด ํจ์๋ ์์ (0,0)(0,0)(0,0)์์ ์ต์๊ฐ์ ๊ฐ์ง๋๋ค.
- ์ฆ, ์ฐ๋ฆฌ๊ฐ ๋ชฉํํ๋ ์ต์๊ฐ์ ์ฐพ์ผ๋ ค๋ฉด ์์ ์ผ๋ก ์ด๋ํด์ผ ํฉ๋๋ค.
1. ๊ทธ๋๋์ธํธ ๊ณ์ฐ
- ์์์ ์ ์ํ๋ ๊ฒ์ฒ๋ผ ํ์ฌ ์์น (x,y)(x, y)(x,y)์์ ๊ฐ์ฅ ๋น ๋ฅด๊ฒ ์ฆ๊ฐํ๋ ๋ฐฉํฅ์ ํจ์ f(x,y)=x2+y2f(x, y) = x^2 + y^2f(x,y)=x2+y2์ ํธ๋ฏธ๋ถ ๊ฐ์ธ [2x,2y][2x, 2y][2x,2y]์ ๋๋ค.
โf(x,y)=[โfโx,โfโy]=[2x,2y]\nabla f(x, y) = \left[ \frac{\partial f}{\partial x}, \frac{\partial f}{\partial y} \right] = [2x, 2y]โf(x,y)=[โxโfโ,โyโfโ]=[2x,2y]
- โf(x,y)=[2x,2y]\nabla f(x, y) = [2x, 2y]โf(x,y)=[2x,2y]๋ (x,y)(x,y)(x,y)์์ ํจ์๊ฐ ์ฆ๊ฐํ๋ ๋ฐฉํฅ์ ๋ํ๋ ๋๋ค.
๐ (์ฐธ๊ณ ) Gradient Descent์ ๋ชฉํ๋ Loss Function์ ์ต์ํํ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ๋ ๊ฒ์ ๋๋ค.
- ์ฐ๋ฆฌ๊ฐ ์ด๋ค ์ต์ ํ ๋ฌธ์ ๋ฅผ ํ ๋, ์๋ฅผ ๋ค์ด ๋จธ์ ๋ฌ๋์์๋ ์์ค ํจ์(Loss Function, L(x,y)) ๊ฐ ์์ต๋๋ค.
- ๋จธ์ ๋ฌ๋์์๋ f(x,y)f(x,y)f(x,y)๊ฐ ์ค์ ๋ก ์์ค ํจ์ L(x,y)L(x,y)L(x,y) ์ญํ ์ ํฉ๋๋ค.
- ๊ฒฐ๊ตญ, ์ฐ๋ฆฌ๋ ์ด(f(x,y)f(x,y)f(x,y), L(x,y)L(x,y)L(x,y))๋ฅผ ์ต์ํํ๋ ๊ฒ์ ๋ชฉ์ ์ผ๋ก ํด์ผํฉ๋๋ค.
2. Gradient Descent ์ํ
- ์ฐ๋ฆฌ๋ ์์ค์ ์ค์ด๊ณ ์ถ์ผ๋ฏ๋ก ๊ทธ๋๋์ธํธ์ ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก ์ด๋ ํด์ผ ํฉ๋๋ค.
(x,y)โ(x,y)โฮฑโ โf(x,y)(x, y) \leftarrow (x, y) - \alpha \cdot \nabla f(x, y)(x,y)โ(x,y)โฮฑโ โf(x,y)
- ์ฌ๊ธฐ์ ฮฑ\alphaฮฑ๋ ํ์ต๋ฅ (learning rate)๋ก, ์ผ๋ง๋ ํฌ๊ฒ ์ด๋ํ ์ง๋ฅผ ๊ฒฐ์ ํฉ๋๋ค.
3. ์ ๋ฐ์ดํธ ๊ณผ์
- ์๋ฅผ ๋ค์ด, ์ด๊ธฐ๊ฐ์ด
(1,1)
์ด๊ณ ํ์ต๋ฅ ์ด0.1
์ด๋ฉด, ์ ๋ฐ์ดํธ๋ ๋ค์๊ณผ ๊ฐ์ด ์ํ๋ฉ๋๋ค.
x=1โ0.1ร2(1)=0.8x = 1 - 0.1 \times 2(1) = 0.8x=1โ0.1ร2(1)=0.8
y=1โ0.1ร2(1)=0.8y = 1 - 0.1 \times 2(1) = 0.8y=1โ0.1ร2(1)=0.8
โ ์ฆ, (1,1)์์ (0.8, 0.8)๋ก ์ด๋ํ๋ฉด์ ์์ค์ด ๊ฐ์ ํฉ๋๋ค.
๐ก (์ ๋ฆฌ) ๊ทธ๋๋์ธํธ๋ ํจ์๊ฐ ๊ฐ์ฅ ๋น ๋ฅด๊ฒ ์ฆ๊ฐํ๋ ๋ฐฉํฅ์ ๊ฐ๋ฆฌํค๋ฏ๋ก, ๊ทธ ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก ์ด๋ํ๋ฉด ์์ค์ ์ต์ํํ๋ ๋ฐฉํฅ์ด ๋ฉ๋๋ค.
2. ์ต์ ํ ๊ธฐ๋ฒ์ด๋?
์ต์ ํ(Optimization)๋ ๋จธ์ ๋ฌ๋ ๋ฐ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ด ์์ค ํจ์(Loss Function)๋ฅผ ์ต์ํํ๊ธฐ ์ํด ๊ฐ์ค์น(Weight)
์ ํธํฅ(Bias)
์ ์กฐ์ ํ๋ ์๊ณ ๋ฆฌ์ฆ์ ์๋ฏธํฉ๋๋ค.
โ ์ ์ต์ ํ๊ฐ ์ค์ํ๊ฐ?
- ๋ชจ๋ธ์ด ๋ ๋์ ์์ธก์ ์ํํ๋๋ก ๊ฐ์ค์น๋ฅผ ์กฐ์
- ์ ๊ฒฝ๋ง์ ํ์ต ์๋๋ฅผ ๊ฐ์
- ๋ฉ๋ชจ๋ฆฌ์ ์ฐ์ฐ ๋น์ฉ์ ์ค์ด๊ณ ํจ์จ์ ์ผ๋ก ํ์ต ๊ฐ๋ฅ
๊ธฐ๋ณธ์ ์ธ ์ต์ ํ ๋ฐฉ๋ฒ์ผ๋ก๋ ์์์ ์๊ฐํ ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Gradient Descent, GD)์ด ์์ง๋ง, ๋ค์ํ ๋ฌธ์ ์ ์ ๊ทน๋ณตํ๊ธฐ ์ํด ์ฌ๋ฌ ๊ฐ์ง ๋ณํ๋ ๋ฐฉ๋ฒ๋ค์ด ๋ฑ์ฅํ์ต๋๋ค.
์ต์ ํ ๊ธฐ๋ฒ๋ค์ ์๋์ ๊ฐ์ ๊ณตํต์ ์ธ ๋ชฉํ๋ฅผ ๊ฐ์ง์ค ์์ต๋๋ค.
๐ ์ต์ ํ ๊ธฐ๋ฒ๋ค์ ๊ณตํต ๋ชฉํ
- ํ์ต ์๋๋ฅผ ๋์ด๊ณ ๋ถํ์ํ ์ฐ์ฐ์ ์ค์ด๋ ๊ฒ
- ๋ ๋น ๋ฅด๊ณ ์์ ์ ์ผ๋ก ์ต์ ํด์ ๋๋ฌํ๋ ๊ฒ
- ์ง๋์ ์ค์ด๊ณ ํจ์จ์ ์ธ ๋ฐฉํฅ์ผ๋ก ์ด๋ํ๋ ๊ฒ
๐ฆพ ์ต์ ํ ๊ธฐ๋ฒ์ ๋ฐ์ ๊ณผ์
์ด๊ธฐ Gradient Descent ๋ฐฉ์์์ ์ถ๋ฐํ์ฌ, ๋ ํจ์จ์ ์ธ ํ์ต๊ณผ ์์ ์ ์ธ ์๋ ด์ ์ํด ๋ค์ํ ๋ฐฉ๋ฒ๋ค์ด ๊ฐ๋ฐ๋์์ต๋๋ค.
- ์ต์ ํ ๊ธฐ๋ฒ์ ๊ฐ๊ฐ์ ๋ฌธ์ ์ ์ ๋ณด์ํ๋ ๋ฐฉ์์ผ๋ก ์ ์ง์ ์ผ๋ก ๋ฐ์ ํด์์ต๋๋ค.
์ต์ ํ ๊ธฐ๋ฒ | ๋ฑ์ฅ ๋ฐฐ๊ฒฝ | ์ฃผ์ ํน์ง |
---|---|---|
Gradient Descent (GD) | 1847๋ Cauchy | ์ ์ฒด ๋ฐ์ดํฐ์ ์ ์ด์ฉํด ์์ ์ ์ผ๋ก ํ์ตํ์ง๋ง ์ฐ์ฐ๋์ด ๋ง์ |
Stochastic Gradient Descent (SGD) | 1951๋ Robbins & Monro | ํ๋์ ์ํ๋ง ์ฌ์ฉํ์ฌ ๋น ๋ฅด๊ฒ ํ์ตํ์ง๋ง ์ง๋์ด ํผ |
Mini-Batch Gradient Descent | 1980๋ ๋ | ์ ์ฒด ๋ฐ์ดํฐ์ ์ํ์ ์ ์ถฉ์์ผ๋ก ํจ์จ์ |
Momentum | 1964๋ Polyak | ์ง๋์ ์ค์ด๊ณ ๋ ๋น ๋ฅด๊ฒ ์๋ ด |
Nesterov Accelerated Gradient (NAG) | 1983๋ Nesterov | Momentum์ ๊ฐ์ ๋ฒ์ , ๋ ๋น ๋ฅด๊ฒ ์๋ ด |
AdaGrad | 2011๋ Duchi et al. | ํฌ์ํ ๋ฐ์ดํฐ์ ๊ฐํ์ง๋ง ํ์ต๋ฅ ๊ฐ์ ๋ฌธ์ |
RMSProp | 2012๋ Hinton | AdaGrad์ ๋ฌธ์ ํด๊ฒฐ, ํ์ต๋ฅ ์กฐ์ ๊ฐ๋ฅ |
AdaDelta | 2012๋ Zeiler | ํ์ต๋ฅ ๊ฐ์ ๋ฌธ์ ํด๊ฒฐ, ํ์ต๋ฅ ์ ๋์ ์ผ๋ก ์กฐ์ |
Adam | 2014๋ Kingma & Ba | Momentum๊ณผ RMSProp ๊ฒฐํฉ, ๊ฐ์ฅ ๋๋ฆฌ ์ฌ์ฉ๋จ |
NAdam | 2016๋ Dozat | Adam์ Nesterov Momentum ์ถ๊ฐ |
- ์๋ ๊ทธ๋ฆผ์ ๋ณ๋์ ์ฐธ๊ณ ์๋ฃ๋ก ํ์ฉํธ ๋์ ์ต์ ํ ๋ฐฉ๋ฒ๋ก ๊ณ๋ณด ์๊ฐํ ์๋ฃ ๊ณต์ ๋๋ฆฝ๋๋ค.
- ํ๋์ ์ดํด๋ณด๊ธฐ ์ข๊ฒ ์ ๋ฆฌ๊ฐ ๋์ด ์์ต๋๋ค. (์๋ ๊ทธ๋ฆผ ์ฐธ๊ณ ) ๐
์ถ์ฒ: ํ์ฉํธ ๋ SlideShare ์๋ฃ (https://www.slideshare.net/slideshow/ss-79607172/79607172#49)
์ด๋ฒ ํฌ์คํ
์์ 2.5 ๊ฒฝ์ฌ ํ๊ฐ๋ฒ
, 2.7 ํ๋ฅ ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ
, 2.8 Mini-Batch Gradient Descent
, 2.8 Mini-Batch Gradient Descent
, 2.9 Momentum
, 2.10 RMSProp
, ๊ทธ๋ฆฌ๊ณ 2.11 Adam
๊น์ง Optimzier ์๋ฆฌ์ฆ๋ฅผ ๋ฌถ์ด์ ์ ๋ฆฌ ๋ฐ ์ดํด๋ณด๋ ค๊ณ ํฉ๋๋ค. (+ NAG
, AdaGrad
, AdaDelta
, NAdam
์์ฒด ์ถ๊ฐ)
์ต์ ํ ๊ธฐ๋ฒ ์ ๋ฆฌ
1. Gradient Descent(GD, ๊ฒฝ์ฌ ํ๊ฐ๋ฒ) - (1847, Cauchy)
๋ฐฐ๊ฒฝ
Gradient Descent๋ ๋ฏธ๋ถ ๊ฐ๋ฅํ ์ฐ์ ํจ์์ ์ต์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด 19์ธ๊ธฐ ์ํ์ Augustin-Louis Cauchy์ ์ํด ์ฒ์ ์ ์๋์์ต๋๋ค.
- ์ดํ ์ปดํจํฐ ๊ณผํ๊ณผ ๋จธ์ ๋ฌ๋์์ ์ต์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ํต์ฌ ์๊ณ ๋ฆฌ์ฆ์ด ๋์์ต๋๋ค.
๊ธฐ์ฌ (Contribution)
- ๋ฏธ๋ถ ๊ฐ๋ฅํ ํจ์์ ์ต์ ํ ๋ฐฉ๋ฒ์ผ๋ก์ ์์ค ํจ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ต์์ ์ ์ฐพ๋ ๋ฐฉ๋ฒ๋ก ์ ํ๋ฆฝ.
- ์ ํ ํ๊ท ๋ฐ ๋ก์ง์คํฑ ํ๊ท์์ ์์ค ํจ์๋ฅผ ์ต์ ํํ๋ ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ๋ฐฉ๋ฒ.
์์
ฮธt+1=ฮธtโฮฑโL(ฮธt)\theta_{t+1} = \theta_t - \alpha \nabla L(\theta_t)ฮธt+1โ=ฮธtโโฮฑโL(ฮธtโ)
- ฮธt\theta_tฮธtโ: ttt๋ฒ์งธ ์ ๋ฐ์ดํธ ์์ ์ ํ๋ผ๋ฏธํฐ
- ฮฑ\alphaฮฑ: ํ์ต๋ฅ (Learning Rate)
- โL(ฮธt)\nabla L(\theta_t)โL(ฮธtโ): ์์ค ํจ์์ ๊ธฐ์ธ๊ธฐ
ํ๊ณ
- ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ํ ๋ฒ์ ์ ๋ฐ์ดํธ๋ฅผ ์ํํ๋ฏ๋ก ์ฐ์ฐ๋์ด ํฌ๊ณ ์๋๊ฐ ๋๋ฆผ.
- ๋ฐ์ดํฐ์ ์ด ์ปค์ง์๋ก ํ์ต ์๋๊ฐ ๊ธ๊ฒฉํ ๊ฐ์.
-
Stochastic Gradient Descent (SGD, ํ๋ฅ ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ) - (1951, Robbins & Monro)
๋ฐฐ๊ฒฝ
๊ธฐ์กด Gradient Descent(GD)์ ์ฃผ์ ๋ฌธ์ ๋ ์ ์ฒด ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํด์ผ ํ๋ฏ๋ก ์ฐ์ฐ๋์ด ๋ง๊ณ ์ ๋ฐ์ดํธ ์๋๊ฐ ๋๋ฆฌ๋ค๋ ์ ์ด์์ต๋๋ค.
- ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Stochastic Gradient Descent(SGD)๊ฐ ๋์ ๋์์ต๋๋ค.
๊ธฐ์ฌ (Contribution)
- ๋๋คํ๊ฒ ์ํ ํ๋๋ง ์ ํํ์ฌ ์ ๋ฐ์ดํธํ๋ ๋ฐฉ์์ผ๋ก, ๊ณ์ฐ๋์ ํฌ๊ฒ ์ค์.
- ํ๋ฅ ์ ์ธ ํน์ฑ์ ํ์ฉํ์ฌ ์ง์ญ ์ต์ ํด(Local Minima)๋ฅผ ๋ฒ์ด๋ ์ ์ญ ์ต์ ํด(Global Minima)๋ก ์ด๋ํ ๊ฐ๋ฅ์ฑ์ ์ฆ๊ฐ.
์์
ฮธt+1=ฮธtโฮฑโL(ฮธt;xi)\theta_{t+1} = \theta_t - \alpha \nabla L(\theta_t; x_i)ฮธt+1โ=ฮธtโโฮฑโL(ฮธtโ;xiโ)
- xix_ixiโ: ๋๋คํ๊ฒ ์ ํ๋ ์ํ
ํ๊ณ
- ๋งค ์ ๋ฐ์ดํธ๊ฐ ๋จ์ผ ์ํ์ ์ํด ๊ฒฐ์ ๋๋ฏ๋ก ์ง๋(Oscillation)์ด ์ฌํ ์ ์์.
- ์์ค ํจ์๊ฐ ๋ถ์์ ํ๊ฒ ์์ง์ด๋ฉฐ ์๋ ด ์๋๊ฐ ์ผ์ ํ์ง ์์.
-
Mini-Batch Gradient Descent (1980s)
๋ฐฐ๊ฒฝ
GD์ SGD์ ์ฅ๋จ์ ์ ์ ์ถฉํ ๋ฐฉ๋ฒ์ผ๋ก ๋ฑ์ฅ.
- GD: ์์ ์ ์ธ ์๋ ด, ํ์ง๋ง ๊ณ์ฐ๋์ด ํผ.
- SGD: ๋น ๋ฅธ ์ ๋ฐ์ดํธ ๊ฐ๋ฅ, ํ์ง๋ง ์ง๋์ด ์ฌํจ.
๊ธฐ์ฌ (Contribution)
- SGD์ ์๋์ GD์ ์์ ์ฑ์ ๋์์ ํ๋ณด.
- ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ง ์๊ณ ์์ Mini-Batch(๋ฏธ๋๋ฐฐ์น) ๋จ์๋ก ๊ฒฝ์ฌ๋ฅผ ๊ณ์ฐํ์ฌ ์ฐ์ฐ๋๊ณผ ์์ ์ฑ์ ์กฐ์ .
์์
ฮธt+1=ฮธtโฮฑโL(ฮธt;Xmini-batch)\theta_{t+1} = \theta_t - \alpha \nabla L(\theta_t; X_{\text{mini-batch}})ฮธt+1โ=ฮธtโโฮฑโL(ฮธtโ;Xmini-batchโ)
- Xmini-batchX_{\text{mini-batch}}Xmini-batchโ: ๋๋คํ๊ฒ ์ ํ๋ ๋ฏธ๋๋ฐฐ์น ๋ฐ์ดํฐ์
ํ๊ณ
- ๋ฏธ๋๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ์ ์ ํ ์กฐ์ ํ์ง ์์ผ๋ฉด SGD์ ์ง๋ ๋ฌธ์ ๋ GD์ ๋๋ฆฐ ์๋ ๋ฌธ์ ๊ฐ ์ฌ์ ํ ๋ฐ์.
-
Momentum (1964, Polyak)
๋ฐฐ๊ฒฝ
SGD๋ ์
๋ฐ์ดํธ๊ฐ ๋ถ์์ ํ์ฌ ์์ค ํจ์์ ๊ณก๋ฅ ์ด ๊ธ๊ฒฉํ ๋ณํํ ๊ฒฝ์ฐ ์๋ ด ์๋๊ฐ ๋๋ ค์ง๊ฑฐ๋ ์ง๋์ด ์ฌํด์ง๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ฌผ๋ฆฌํ์์ ์ฌ์ฉํ๋ ๊ด์ฑ(Inertia) ๊ฐ๋
์ ๋์
ํ์ฌ ๊ฐ์ ํ์์ต๋๋ค.
๊ธฐ์ฌ (Contribution)
- ๊ณผ๊ฑฐ ๊ธฐ์ธ๊ธฐ ๋ฐฉํฅ์ ๊ณ ๋ คํ์ฌ ์ง๋์ ์ค์ด๊ณ ์๋ ด ์๋๋ฅผ ํฅ์.
- ๊ฒฝ์ฌ๋ฉด์ด ๊ฐํ๋ฅด๋ฉด ๋ ๋น ๋ฅด๊ฒ ์์ง์ด๊ณ , ํํํ ๊ตฌ๊ฐ์์๋ ์๋๋ฅผ ์กฐ์ ํจ.
์์
vt=ฮฒvtโ1+(1โฮฒ)โL(ฮธt)v_t = \beta v_{t-1} + (1 - \beta) \nabla L(\theta_t)vtโ=ฮฒvtโ1โ+(1โฮฒ)โL(ฮธtโ)
ฮธt+1=ฮธtโฮฑvt\theta_{t+1} = \theta_t - \alpha v_tฮธt+1โ=ฮธtโโฮฑvtโ
- vtv_tvtโ: ๊ธฐ์ธ๊ธฐ์ ์ด๋ ํ๊ท (์๋)
- ฮฒ\betaฮฒ: ๋ชจ๋ฉํ ๊ณ์ (๋ณดํต 0.9)
ํ๊ณ
- ๋๋ฌด ํฐ ๋ชจ๋ฉํ ๊ฐ์ ์ค๋ฒ์ํ (Overshooting, ์ง๋์น ์ ๋ฐ์ดํธ) ๋ฌธ์ ๋ฅผ ์ ๋ฐํ ์ ์์.
-
Nesterov Accelerated Gradient (NAG) (1983, Nesterov)
๋ฐฐ๊ฒฝ
Momentum ๋ฐฉ์์ ๊ธฐ์ธ๊ธฐ๊ฐ ๊ธ๊ฒฉํ ๋ณํ๋ ์์ญ์์ ๋ถ์ ํํ ์
๋ฐ์ดํธ๋ฅผ ํ ๊ฐ๋ฅ์ฑ์ด ์์. NAG๋ ์ด๋ฅผ ๊ฐ์ ํ์ฌ ๋ณด๋ค ์ ํํ ์์น์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ์์ ๋์
.
๊ธฐ์ฌ (Contribution)
- ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํ๊ธฐ ์ ์ ๋ฏธ๋ฆฌ ํ ๋ฒ ์ ๋ฐ์ดํธ๋ ์์น์์ ๊ณ์ฐํ์ฌ ์ ํ๋๋ฅผ ๋์.
- ์๋ ด ์๋๋ฅผ ๋์ฑ ๋น ๋ฅด๊ฒ ํจ.
์์
vt=ฮณvtโ1+ฮฑโL(ฮธtโฮณvtโ1)v_t = \gamma v_{t-1} + \alpha \nabla L(\theta_t - \gamma v_{t-1})vtโ=ฮณvtโ1โ+ฮฑโL(ฮธtโโฮณvtโ1โ)
ฮธt+1=ฮธtโvt\theta_{t+1} = \theta_t - v_tฮธt+1โ=ฮธtโโvtโ
ํ๊ณ
- ์ ๋ฐ์ดํธ๊ฐ ๋์ฑ ์ ๊ตํด์ง์ง๋ง, ๊ณ์ฐ๋์ด ์ฆ๊ฐ.
-
Adagrad (2011, Duchi, Hazan, Singer)
๋ฐฐ๊ฒฝ
- ํ์ต๋ฅ ์ด ๊ณ ์ ๋์ด ์์ผ๋ฉด, ์ด๋ค ํ๋ผ๋ฏธํฐ๋ ๊ณผ๋ํ๊ฒ ์ ๋ฐ์ดํธ๋๊ณ ์ด๋ค ํ๋ผ๋ฏธํฐ๋ ์ ๋ฐ์ดํธ๊ฐ ๋ถ์กฑํ ์ ์์.
- ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ฐ ํ๋ผ๋ฏธํฐ๋ณ๋ก ํ์ต๋ฅ ์ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ์ ๋์ .
๊ธฐ์ฌ (Contribution)
- ํ์ต๋ฅ ์ ๊ฐ๋ณ์ ์ผ๋ก ์กฐ์ ํ์ฌ ํฌ์ ๋ฐ์ดํฐ(Sparse Data)์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์.
์์
ฮธt+1=ฮธtโฮฑGt+ฯตโL(ฮธt)\theta_{t+1} = \theta_t - \frac{\alpha}{\sqrt{G_t + \epsilon}} \nabla L(\theta_t)ฮธt+1โ=ฮธtโโGtโ+ฯตโฮฑโโL(ฮธtโ)
- GtG_tGtโ: ๊ณผ๊ฑฐ ๊ธฐ์ธ๊ธฐ์ ๋์ ํฉ
ํ๊ณ
- ํ์ต๋ฅ ์ด ๊ณ์ ๊ฐ์ํ์ฌ, ๋์ค์๋ ์ ๋ฐ์ดํธ๊ฐ ๊ฑฐ์ ์ด๋ฃจ์ด์ง์ง ์๋ ๋ฌธ์ ๋ฐ์.
-
RMSProp (2012, Hinton)
๋ฐฐ๊ฒฝ
Adagrad์ ํ์ต๋ฅ ๊ฐ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ต๊ทผ์ ๊ธฐ์ธ๊ธฐ์ ๋ ํฐ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ๋ ๋ฐฉ์์ผ๋ก ๊ฐ์ .
๊ธฐ์ฌ (Contribution)
- ์ต์ ๊ทธ๋๋์ธํธ์ ๋ ๊ฐ์ค์น๋ฅผ ๋์ด Adagrad์ ํ์ต ์ ์ฒด ๋ฌธ์ ๋ฅผ ํด๊ฒฐ.
์์
E[g2]t=ฮฒE[g2]tโ1+(1โฮฒ)gt2E[g^2]_t = \beta E[g^2]_{t-1} + (1 - \beta) g_t^2E[g2]tโ=ฮฒE[g2]tโ1โ+(1โฮฒ)gt2โ
ฮธt+1=ฮธtโฮฑE[g2]t+ฯตgt\theta_{t+1} = \theta_t - \frac{\alpha}{\sqrt{E[g^2]_t + \epsilon}} g_tฮธt+1โ=ฮธtโโE[g2]tโ+ฯตโฮฑโgtโ
ํ๊ณ
- ํน์ ๋ฐ์ดํฐ์ ์์๋ ์ฌ์ ํ ํ์ต ์๋๊ฐ ๋๋ ค์ง ๊ฐ๋ฅ์ฑ ์กด์ฌ.
8. Adadelta (2012, Zeiler)
๋ฐฐ๊ฒฝ
Adagrad์ ์ฃผ์ ํ๊ณ์ ์ ๊ธฐ์ธ๊ธฐ์ ์ ๊ณฑํฉ(GtG_tGtโ)์ด ๊ณ์ ์ปค์ง๋ฉด์ ํ์ต๋ฅ ์ด ์ ์ ์ค์ด๋ค์ด ํ์ต์ด ์ ์ฒด๋๋ ๋ฌธ์ ์์ต๋๋ค.
Adadelta๋ ์ด๋ฅผ ๊ฐ์ ํ์ฌ ํ์ต๋ฅ ์ด ๊ณผ๋ํ๊ฒ ์ค์ด๋๋ ๋ฌธ์ ๋ฅผ ๋ฐฉ์งํ๋ ๋ฐฉ์์ ๋์
ํ์ต๋๋ค.
๊ธฐ์ฌ (Contribution)
- Adagrad์ ํ์ต๋ฅ ๊ฐ์ ๋ฌธ์ ํด๊ฒฐ
- ๊ณผ๊ฑฐ ๋ชจ๋ ๊ธฐ์ธ๊ธฐ์ ์ ๋ณด๋ฅผ ์ฌ์ฉํ์ง ์๊ณ , ์ต๊ทผ์ ๊ธฐ์ธ๊ธฐ๋ง ์ฌ์ฉํ์ฌ ํ์ต๋ฅ ์ ์กฐ์ .
- ํ์ดํผํ๋ผ๋ฏธํฐ ฮฑ(learning rate)๋ฅผ ์ ๊ฑฐ
- ํ์ต๋ฅ ์ ์๋์ผ๋ก ์กฐ์ ํ์ฌ ์ฌ์ฉ์๊ฐ ๋ณ๋๋ก ํ์ต๋ฅ ์ ์ค์ ํ์ง ์์๋ ๋จ.
์์
1) ๊ธฐ์ธ๊ธฐ์ ์ ๊ณฑ์ ๋ํ ์ด๋ ํ๊ท ์ ์ง
E[g2]t=ฮณE[g2]tโ1+(1โฮณ)gt2E[g^2]_t = \gamma E[g^2]_{t-1} + (1 - \gamma) g_t^2E[g2]tโ=ฮณE[g2]tโ1โ+(1โฮณ)gt2โ
2) ์ ๋ฐ์ดํธ ํฌ๊ธฐ์ ๋ํ ์ด๋ ํ๊ท ์ ์ง
E[ฮฮธ2]t=ฮณE[ฮฮธ2]tโ1+(1โฮณ)ฮฮธt2E[\Delta\theta^2]_t = \gamma E[\Delta\theta^2]_{t-1} + (1 - \gamma) \Delta\theta_t^2E[ฮฮธ2]tโ=ฮณE[ฮฮธ2]tโ1โ+(1โฮณ)ฮฮธt2โ
3) ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ
ฮธt+1=ฮธtโE[ฮฮธ2]t+ฯตE[g2]t+ฯตgt\theta_{t+1} = \theta_t - \frac{\sqrt{E[\Delta\theta^2]_t + \epsilon}}{\sqrt{E[g^2]_t + \epsilon}} g_tฮธt+1โ=ฮธtโโE[g2]tโ+ฯตโE[ฮฮธ2]tโ+ฯตโโgtโ
- ฮณ\gammaฮณ (๋ณดํต 0.9) : ๊ณผ๊ฑฐ ๊ธฐ์ธ๊ธฐ์ ์ํฅ๋๋ฅผ ์กฐ์ ํ๋ ๊ฐ์ ๊ณ์ (decay factor).
- ฯต\epsilonฯต : ์์ ์์ ์ฑ์ ์ํ ์์ ๊ฐ.
ํ๊ณ
- ๊ณผ๊ฑฐ์ ๋ณํ๋์ ๊ธฐ๋ฐ์ผ๋ก ํ์ต๋ฅ ์ ์กฐ์ ํ๊ธฐ ๋๋ฌธ์, ๋น ๋ฅธ ๋ณํ๊ฐ ํ์ํ ๊ฒฝ์ฐ์๋ ์ต์ ํ ์๋๊ฐ ๋ค์ ๋๋ ค์ง ์ ์์.
9. Adam (2014, Kingma & Ba)
๋ฐฐ๊ฒฝ
Adam(Adaptive Moment Estimation)์ Momentum๊ณผ RMSProp์ ๊ฒฐํฉํ์ฌ ํ์ต๋ฅ ์ ์กฐ์ ํ๋ ๋ฐฉ์์ผ๋ก ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ๋จ์ ์ ๊ฐ์ ํ ๋ฐฉ๋ฒ์
๋๋ค.
- Momentum: ๊ธฐ์ธ๊ธฐ์ ์ด๋ ํ๊ท ์ ์ ์งํ์ฌ ์ง๋์ ์ค์ด๊ณ ๋น ๋ฅด๊ฒ ์๋ ด.
- RMSProp: ํ์ต๋ฅ ์ ์ ์์ ์ผ๋ก ์กฐ์ ํ์ฌ ๋ถํ์ํ ์ ๋ฐ์ดํธ๋ฅผ ๋ฐฉ์ง.
Adam์ ์ด๋ฌํ ๋ ๊ฐ์ง ๊ฐ๋ ์ ๊ฒฐํฉํ์ฌ ํ์ต ์๋๋ฅผ ๋์ด๋ฉด์๋ ์์ ์ฑ์ ์ ์งํ๋ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.
๊ธฐ์ฌ (Contribution)
- Momentum + RMSProp์ ์ฅ์ ๊ฒฐํฉ
- ํ์ต๋ฅ ์ ๋์ ์ผ๋ก ์กฐ์ ํ์ฌ ๋น ๋ฅด๊ณ ์์ ์ ์ธ ํ์ต ๊ฐ๋ฅ.
- ๊ธฐ์ธ๊ธฐ์ 1์ฐจ(moment)์ 2์ฐจ(moment)๋ฅผ ๋์์ ๊ณ ๋ ค
- ์ผ๋ฐ์ ์ธ ๊ธฐ์ธ๊ธฐ๋ฟ๋ง ์๋๋ผ ๋ณ๋์ฑ(variance)๊น์ง ๋ฐ์ํ์ฌ ํ์ต๋ฅ ์ ์กฐ์ .
์์
1) 1์ฐจ ๋ชจ๋ฉํธ(๊ธฐ์ธ๊ธฐ์ ์ด๋ ํ๊ท )
mt=ฮฒ1mtโ1+(1โฮฒ1)gtm_t = \beta_1 m_{t-1} + (1 - \beta_1) g_tmtโ=ฮฒ1โmtโ1โ+(1โฮฒ1โ)gtโ
2) 2์ฐจ ๋ชจ๋ฉํธ(๊ธฐ์ธ๊ธฐ ์ ๊ณฑ์ ์ด๋ ํ๊ท )
vt=ฮฒ2vtโ1+(1โฮฒ2)gt2v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2vtโ=ฮฒ2โvtโ1โ+(1โฮฒ2โ)gt2โ
3) ํธํฅ ๋ณด์ (Bias Correction)
Adam์ ์ด๊ธฐ ๋จ๊ณ์์ mtm_tmtโ์ vtv_tvtโ๊ฐ 0์ ๊ฐ๊น์์ง๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ณด์ ๊ณ์๋ฅผ ์ ์ฉํฉ๋๋ค.
m^t=mt1โฮฒ1t,v^t=vt1โฮฒ2t\hat{m}_t = \frac{m_t}{1 - \beta_1^t}, \quad \hat{v}_t = \frac{v_t}{1 - \beta_2^t}m^tโ=1โฮฒ1tโmtโโ,v^tโ=1โฮฒ2tโvtโโ
4) ์ต์ข ์ ๋ฐ์ดํธ
ฮธt+1=ฮธtโฮฑv^t+ฯตm^t\theta_{t+1} = \theta_t - \frac{\alpha}{\sqrt{\hat{v}_t} + \epsilon} \hat{m}_tฮธt+1โ=ฮธtโโv^tโโ+ฯตฮฑโm^tโ
ํ์ดํผํ๋ผ๋ฏธํฐ
- ฮฒ1=0.9\beta_1 = 0.9ฮฒ1โ=0.9 (๋ณดํต) โ 1์ฐจ ๋ชจ๋ฉํ ์ ๊ฐ์ ๊ณ์
- ฮฒ2=0.999\beta_2 = 0.999ฮฒ2โ=0.999 (๋ณดํต) โ 2์ฐจ ๋ชจ๋ฉํ ์ ๊ฐ์ ๊ณ์
- ฯต=10โ8\epsilon = 10^{-8}ฯต=10โ8 (๋ณดํต) โ ์์ ์์ ์ฑ์ ์ํ ์์ ๊ฐ
์ฅ์
- ๋น ๋ฅด๊ณ ์์ ์ ์ธ ํ์ต์ด ๊ฐ๋ฅ.
- ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ ์ ๋ ๋ฏผ๊ฐํ๋ฉฐ ๊ธฐ๋ณธ ์ค์ ์ผ๋ก๋ ์ฐ์ํ ์ฑ๋ฅ.
- ๋๋ถ๋ถ์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์์ ๊ธฐ๋ณธ ์ตํฐ๋ง์ด์ ๋ก ์ฌ์ฉ๋จ.
ํ๊ณ
- ์ผ๋ฐ SGD๋ณด๋ค ์ผ๋ฐํ ์ฑ๋ฅ(Generalization)์ด ๋จ์ด์ง ๊ฐ๋ฅ์ฑ์ด ์์.
- ์ผ๋ถ ๋ฌธ์ ์์๋ ํ์ต๋ฅ ์ด ์ง๋์น๊ฒ ์ ์์ ์ผ๋ก ์กฐ์ ๋์ด ์ต์ ํด ๊ทผ์ฒ์์ ๊ณผ๋ํ ์คํ ์ ๊ฐ์ง ์ ์์.
10. Nadam (2016, Dozat)
๋ฐฐ๊ฒฝ
Adam์ Momentum๊ณผ RMSProp์ ๊ฒฐํฉํ ๋ฐฉ์์ด์ง๋ง, Momentum ์
๋ฐ์ดํธ๊ฐ ํ์ฌ ์์น์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํ ํ ์ด๋ํ๋ ๋ฐฉ์์ด๋ผ ์ต์ ๊ฒฝ๋ก๋ฅผ ์ ํํ ์์ธกํ๊ธฐ ์ด๋ ต์ต๋๋ค.
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Nesterov Accelerated Gradient (NAG)์ ๊ฐ๋
์ Adam์ ์ถ๊ฐํ ๊ฒ์ด Nadam(Nesterov-accelerated Adaptive Moment Estimation)์
๋๋ค.
๊ธฐ์ฌ (Contribution)
- Adam์ ํ์ต๋ฅ ์กฐ์ ๊ณผ NAG์ ์์ธก ๊ธฐ๋ฅ์ ๊ฒฐํฉํ์ฌ ๋์ฑ ๋น ๋ฅธ ์๋ ด ๊ฐ๋ฅ.
- ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํ๊ธฐ ์ ์ ๋จผ์ ์ด๋ํ์ฌ ์ต์ ํด์ ๋๋ฌํ๋ ์๋๋ฅผ ๋์.
์์
1) ๊ธฐ์กด์ Adam ์
๋ฐ์ดํธ์ ๋น๊ต
Adam์ ์
๋ฐ์ดํธ:
ฮธt+1=ฮธtโฮฑv^t+ฯตm^t\theta_{t+1} = \theta_t - \frac{\alpha}{\sqrt{\hat{v}_t} + \epsilon} \hat{m}_tฮธt+1โ=ฮธtโโv^tโโ+ฯตฮฑโm^tโ
Nadam์ ์ ๋ฐ์ดํธ:
ฮธt+1=ฮธtโฮฑv^t+ฯต(ฮฒ1m^t+(1โฮฒ1)gt)\theta_{t+1} = \theta_t - \frac{\alpha}{\sqrt{\hat{v}_t} + \epsilon} (\beta_1 \hat{m}_t + (1 - \beta_1) g_t)ฮธt+1โ=ฮธtโโv^tโโ+ฯตฮฑโ(ฮฒ1โm^tโ+(1โฮฒ1โ)gtโ)
์ฆ, ๊ธฐ์กด์ Adam์์ ๋ชจ๋ฉํ ์ ์กฐ๊ธ ๋ ์๋น๊ฒจ ๋ฐ์ํ์ฌ ์ด๋ํ๋ ๋ฐฉ์์ ๋๋ค.
์ฅ์
- Adam๋ณด๋ค ๋ ๋น ๋ฅด๊ณ ์์ ์ ์ผ๋ก ์๋ ด.
- ํนํ, ๊ณก๋ฅ ์ด ํฐ ์์ญ์์ ๋์ฑ ํจ๊ณผ์ .
ํ๊ณ
- Adam๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก, ์ผ๋ฐํ ์ฑ๋ฅ์ด ๋จ์ด์ง ๊ฐ๋ฅ์ฑ์ด ์์.
- ์ผ๋ถ ๋ฌธ์ ์์๋ Adam๊ณผ ํฐ ์ฐจ์ด๊ฐ ๋์ง ์์ ์๋ ์์.
๊ฒฐ๋ก
ํ์ฌ ๋ฅ๋ฌ๋์์๋ Adam์ด ๊ฐ์ฅ ๋๋ฆฌ ์ฌ์ฉ๋๋ฉฐ, ํน์ ๋ฌธ์ ์ ๋ฐ๋ผ RMSProp, Nadam ๋ฑ์ด ์ฌ์ฉ๋ฉ๋๋ค.
๊ฐ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ด์ ์๊ณ ๋ฆฌ์ฆ์ ํ๊ณ๋ฅผ ํด๊ฒฐํ๋ฉด์ ๋ฐ์ ํด์์ผ๋ฉฐ, ์์ผ๋ก๋ ์๋ก์ด ๋ฐฉ์์ด ์ฐ๊ตฌ๋ ๊ฒ์
๋๋ค.
๐ก ๋ณธ ๊ฒ์๊ธ์ ํํํ์์ <Easy! ๋ฅ๋ฌ๋> ์ฑ ์ ๋ฆฌ๋ทฐ์ด ํ๋์ผ๋ก ์์ฑ๋์์ต๋๋ค.
- ๋์ ๊ตฌ๋งค ๋งํฌ 1 (๊ต๋ณด๋ฌธ๊ณ ): https://product.kyobobook.co.kr/detail/S000214848175
- ๋์ ๊ตฌ๋งค ๋งํฌ 2 (์ถํ์ฌ ์์ฌ๋ชฐ): https://shorturl.at/yqZpW