[TREND] ํธ๋ ์คํฌ๋จธ ์ดํ์ ์ฐจ์ธ๋ ์ํคํ ์ณ: MoE, SSM, RetNet, V-JEPA
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/ํธ๋ ๋-ํธ๋ ์คํฌ๋จธ-์ดํ์-์ฐจ์ธ๋-์ํคํ ์ณ-MoE-SSM-RetNet-V-JEPA
2017๋ , โAttention is All You Needโ๋ผ๋ ๋ ผ๋ฌธ๊ณผ ํจ๊ป ๋ฑ์ฅํ ํธ๋์คํฌ๋จธ(Transformer)๋ AI ๋ชจ๋ธ์ ํ์ ์ ์ธ ๋ณํ๋ฅผ ์ด๋์์ต๋๋ค. ํ์ฌ, ๋ํ ์ธ์ด ๋ชจ๋ธ(LLM)๊ณผ ์์ฑ AI๋ ์ธ์ด, ๋น๋์ค, ์ด๋ฏธ์ง ๋ฑ์ ๋ฐ์ดํฐ ์ฒ๋ฆฌ์์ ์๋์ ์ธ ์ฑ๋ฅ์ ๋ฐํํ๋ฉฐ ์ฐ๋ฆฌ ์ถ์ ๋ค์ํ ์์ญ์์ ํ์ฉ๋๊ณ ์์ต๋๋ค.
๊ทธ๋ฌ๋ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋์ ์ฐ์ฐ ๋ณต์ก๋, ๋ง๋ํ ์์ ์๋น, ๊ธด ์ํ์ค ์ฒ๋ฆฌ์ ํ๊ณ ๋ฑ ๋ณธ์ง์ ์ธ ์ ์ฝ์ ๊ฐ์ง๊ณ ์์ต๋๋ค.
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ง์ ๋์์ ์ธ ์ํคํ ์ฒ๊ฐ ์ ์๋์์ต๋๋ค. ์ด๋ฌํ ๊ธฐ์ ์ ํจ์จ์ฑ์ ๊ทน๋ํํ๋ฉด์๋ ์ฑ๋ฅ์ ์ ์งํ๊ฑฐ๋ ํฅ์์ํค๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ฉฐ, AI์ ์ฐจ์ธ๋ ๊ธฐ์ ์ ์ด๋์ด๊ฐ ์ ์ฌ๋ ฅ์ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์ต๊ทผ Mixture of Experts(MoE), Mamba, Mamba-2, Jamba-2, RetNet ๋ฑ ๋ง์ ์ฐ๊ตฌ๋ค์ด ์งํ๋๊ณ ์์ต๋๋ค.
์ ๋ ์ด๋ฌํ ์ฐ๊ตฌ๋ค์ ๋ง์ ๊ด์ฌ์ ๊ฐ์ง๊ณ ์์ต๋๋ค๋งโฆ ์๊ฐ์ด ์์ด์ ํ์ฌ Mamba๋ง ๊น๊ฒ ํ๊ณ , ๋ค๋ฅธ ๊ฒ๋ค์ ์ ๋๋ก ์ดํด๋ณด๊ณ ์์ง ๋ชปํ๊ณ ์๋ค์.. ใ
ใ
๐
๊ฐ์ฌํ๊ฒ๋ ์ ๊ฐ ์ ์ฒญํ๋ Youtube ํฌ๋ฆฌ์์ดํฐ ์๋ ๊ณตํ๋๊ป์ ์ ๊ฐ ๊ด์ฌ์๋ ์ฃผ์ ๋ฅผ ์ด๋ฒ์ ๋ค๋ค์ฃผ์ ์ ์ด๋ฅผ ๋ฒ ์ด์ค๋ก ํ๋ฒ ํธ๋ ๋๋ฅผ ์ ๋ฆฌํด๋ณด๋ ๊ธ์ ์์ฑํด๋ณด๊ฒ ๋์์ต๋๋ค.
[ํธ๋์คํฌ๋จธ๋ฅผ ๋์ด MoE์ SSM๊น์ง, ๋ฏธ๋ AI์ ๋ฐฉํฅ์? AGI ๊ตฌํ ์ํ ์๊ตฌ ์ปดํจํ ๋ ๋๋ฌด ๋์](https://youtu.be/NSt259rpsKM) - ์๋ ๊ณตํ
์ด ๊ธ์์๋ ์๋ ๊ณตํ๋๊ป์ ๋ค๋ค์ฃผ์ ์์ฌ์ ๋ฐ๋ผ์ ์ด๋ฌํ ํ์ ์ ์ธ ๋ชจ๋ธ๋ค์ ํตํฉ์ ์ผ๋ก ์ดํด๋ณด๋ฉฐ, ํธ๋ ์คํฌ๋จธ ์ดํ์ ๋ฏธ๋ AI ๊ธฐ์ ์ ๋ฐ์ ๋ฐฉํฅ์ ํ๊ตฌํฉ๋๋ค.
1. ํธ๋์คํฌ๋จธ: ํ์ ๊ณผ ํ๊ณ
ํธ๋์คํฌ๋จธ์ ํต์ฌ: Attention ๋ฉ์ปค๋์ฆ
ํธ๋์คํฌ๋จธ๋ ์ดํ ์ (Attention) ๋ฉ์ปค๋์ฆ์ ๊ธฐ๋ฐ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ฉฐ, ํ ์คํธ, ์์ฑ, ๋น๋์ค ๋ฑ ๋ค์ํ ๋ฐ์ดํฐ ์ ํ์์ ๋๋ผ์ด ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
- ๋ชจ๋ ๋จ์ด์ ๊ด๊ณ๋ฅผ ๊ณ์ฐํด ๋ฌธ๋งฅ์ ํ์ .
- ๋ฉํฐํค๋ ์ดํ ์ (Multi-head Attention)์ ํตํด ๋ณ๋ ฌ์ ์ผ๋ก ๋จ์ด ๊ฐ ๊ด๊ณ๋ฅผ ๊ณ์ฐ.
์ถ์ฒ : https://www.blossominkyung.com/deeplearning/transformer-mha
์ฃผ์ ํ๊ณ
- ์ฐ์ฐ ๋ณต์ก๋: ๋ชจ๋ ๋จ์ด ๊ฐ์ ๊ด๊ณ๋ฅผ ๊ณ์ฐํด์ผ ํ๊ธฐ ๋๋ฌธ์ O(n2)O(n^2)O(n2)์ ์ฐ์ฐ๋์ ์๊ตฌํ๋ฉฐ, ๋ฐ์ดํฐ ๊ธธ์ด๊ฐ ๊ธธ์ด์ง์๋ก ๊ณ์ฐ ๋ถ๋ด์ด ๊ธฐํ๊ธ์์ ์ผ๋ก ์ฆ๊ฐํฉ๋๋ค.
- ์์ ์๋ชจ: ๋๊ท๋ชจ GPU ๋ฉ๋ชจ๋ฆฌ์ ์ฐ์ฐ ์์์ด ํ์ํด ๋์ ์ ๋ ฅ ์๋ชจ์ ๋น์ฉ์ด ๋ค๋ฐ๋ฆ ๋๋ค.
- ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ(Long-range Dependency): ์ด๊ธฐ ์ ๋ ฅ ์ ๋ณด์ ๋ท๋ถ๋ถ ์ ๋ณด๋ฅผ ์ฐ๊ฒฐ์ง๋ ๋ฐ ํ๊ณ๋ฅผ ๋ณด์ด๋ฉฐ, ๊ธด ๋ฌธ๋งฅ์ ์ฒ๋ฆฌํ๋ ๋ฐ ๋นํจ์จ์ ์ ๋๋ค.
2. Mixture of Experts(MoE): Sparse ์ฐ์ฐ์ผ๋ก ํจ์จ์ฑ ํฅ์
MoE์ ๊ฐ๋ ๊ณผ ์๋ ์๋ฆฌ
MoE(Mixture of Experts)๋ ์กฐ๊ฑด๋ถ ์ฐ์ฐ(Conditional Computation)์ ํตํด ํ์ํ ๊ฒฝ์ฐ์๋ง ํน์ ์ ๋ฌธ๊ฐ ๋คํธ์ํฌ(Experts)๋ฅผ ํ์ฑํํ๋ ๋ฐฉ์์ผ๋ก ์๋ํฉ๋๋ค.
- ํธ๋์คํฌ๋จธ์ ๋น๊ตํ์ฌ ๋ชจ๋ธ์ ์ฉ๋์ ํฌ๊ฒ ๋๋ฆฌ๋ฉด์๋ ์ฐ์ฐ ๋น์ฉ์ ์ค์.
- ๊ฐ ์ ๋ฌธ๊ฐ ๋คํธ์ํฌ๋ ๊ณ ์ ํ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๊ณ , ๊ฒ์ดํ ๋คํธ์ํฌ(Gating Network)๊ฐ ํ์ฑํ ์ฌ๋ถ๋ฅผ ๊ฒฐ์ .
๐ ์ถ์ฒ Reference:
MoE์ ๋ํด์ ๋ ์์ธํ๊ฒ ์๊ณ ์ถ์ผ์ ๋ถ๋ค์ ์๋ ๋งํฌ์ ๋ค์ด๊ฐ์ ์ฝ์ด๋ณด์๊ธธ ๋ฐ๋๋๋ค:
MoE ์ฌ๋ก: Switch Transformer
๋งํฌ
: https://arxiv.org/pdf/2101.03961์ ๋ชฉ
: Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
์ถ์ฒ: MoE layer from the Switch Transformers paper
๊ตฌ๊ธ์ Switch Transformer๋ MoE์ ๋ํ ์ฌ๋ก๋ก, ๋ค์๊ณผ ๊ฐ์ ํน์ง์ ๋ณด์ ๋๋ค:
- ๊ธฐ์กด GPT-3 ๋๋น ํ์ต ์๊ฐ์ 17%๋ก ๋จ์ถ.
- ๋ณ๋ชฉ ํ์์ ๋ฐฉ์งํ๊ธฐ ์ํด ํ ํฐ์ ์ ๋ ฅ์ ๊ท ํ ์๊ฒ ๋ถ๋ฐฐ.
MoE์ ์ฅ์
-
ํจ์จ์ฑ: ๋ชจ๋ธ์ ์ฉ๋์ ํ์ฅํ๋ฉด์๋ ๊ณ์ฐ ๋น์ฉ์ ์ต์ํ.
-
ํนํ๋ ํ์ต: ๊ฐ ์ ๋ฌธ๊ฐ๊ฐ ํน์ ๋ฐ์ดํฐ์ ์ต์ ํ๋์ด ๋์ ์ฑ๋ฅ์ ๋ฐํ.
-
์์ ์ ์ฝ: ํ์ํ ์ ๋ฌธ๊ฐ๋ง ํ์ฑํํ์ฌ ๋ถํ์ํ ๊ณ์ฐ์ ๋ฐฉ์ง.
3. State Space Models(SSM): ๊ธด ์ํ์ค ์ฒ๋ฆฌ์ ํ์
SSM์ ๊ฐ๋ ๊ณผ ์๋ ์๋ฆฌ
SSM(State Space Models)์ ์ํ์ค ๋ฐ์ดํฐ๋ฅผ ์๊ฐ์ ์ผ๋ก ๋ชจ๋ธ๋งํ์ฌ, ํ์ฌ ์ํ์ ๊ณผ๊ฑฐ ์ํ๋ฅผ ํจ์จ์ ์ผ๋ก ์ฐ๊ฒฐํฉ๋๋ค.
- ์ํ ๊ณต๊ฐ(State Space)์ ํตํด ํ์ฌ์ ๊ณผ๊ฑฐ ์ ๋ณด๋ฅผ ์ฐ๊ฒฐ.
- ํธ๋์คํฌ๋จธ์ O(n2)O(n^2)O(n2) ๋ณต์ก๋๋ฅผ ํด๊ฒฐํ๊ณ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ๊ฐ์.
- ๋ชจ๋ ํ ํฐ ๊ฐ ๊ด๊ณ๋ฅผ ๊ณ์ฐํ์ง ์์๋ ๋จ.
- ์ํ์ค ๋ฐ์ดํฐ(ํ ์คํธ, ์์ฑ ๋ฑ)์ ์์ ์ ๋ณด๋ฅผ ์์ฐ์ค๋ฝ๊ฒ ์ฒ๋ฆฌ.
SSM ์ฌ๋ก: Mamba
๋งํฌ
: https://arxiv.org/pdf/2312.00752์ ๋ชฉ
: Mamba: Linear-Time Sequence Modeling with Selective State Spaces- SSM(State Space Models) ๊ธฐ๋ฐ์ผ๋ก ๊ธด ๋ฌธ๋งฅ ์ฒ๋ฆฌ ๋ฅ๋ ฅ๊ณผ ๋น ๋ฅธ ํ์ต ์๋๋ฅผ ์ ๊ณต.
- ๋ถํ์ํ ์ํ ์ ๋ณด ์ ๋ฐ์ดํธ๋ฅผ ์ค์ฌ ํจ์จ์ฑ์ ํฅ์.
์ถ์ฒ: SSM Model from the Mamba paper
Mamba ํน์ง
-
์ ํ ๋ฉ์ปค๋์ฆ ์ถ๊ฐ
- ๊ธฐ์กด SSM ๋ชจ๋ธ์ด ์ ๋ ฅ์ ๋ฐ๋ผ ํน์ ์ ๋ณด๋ฅผ ์ ํํ๊ฑฐ๋ ๋ฌด์ํ๋ ๋ฅ๋ ฅ์ด ๋ถ์กฑํ ์ ์ ๋ณด์ํ๊ธฐ ์ํด, ์ ๋ ฅ ์์กด์ ํ๋ผ๋ฏธํฐ๋ฅผ ๋์ ํ์ฌ ์ ํ์ ์ ๋ณด ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํ๊ฒ ์ค๊ณ.
-
ํจ์จ์ ํ๋์จ์ด ๊ตฌํ
- ์๋ก์ด ์๊ณ ๋ฆฌ์ฆ์ ํตํด GPU ๋ฉ๋ชจ๋ฆฌ ๊ณ์ธต์์ ํจ์จ์ ์ผ๋ก ์๋ํ๋ฉฐ, ๊ธฐ์กด SSM ๋๋น ์ต๋ 3๋ฐฐ ๋น ๋ฅธ ์๋๋ฅผ ์ ๊ณต.
-
๋จ์ํ๋ ์ํคํ ์ฒ
- Mamba๋ Attention์ด๋ MLP ๋ธ๋ก ์์ด๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฐํํ๋๋ก ์ค๊ณ๋ ๊ฐ๋จํ ๊ตฌ์กฐ ์ฑ์ฉ.
SSM + MoE + Transformer ์ฌ๋ก: Jamba
๋งํฌ
: https://arxiv.org/pdf/2403.19887์ ๋ชฉ
: Jamba: A Hybrid Transformer-Mamba Language Model- ํธ๋์คํฌ๋จธ ๋ ์ด์ด์ Mamba ๋ ์ด์ด๋ฅผ ๋ฒ๊ฐ์ ๋ฐฐ์นํ ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ.
- ๊ธด ๋ฌธ๋งฅ์์ ํธ๋์คํฌ๋จธ์ ๊ฐ์ ๊ณผ SSM์ ํจ์จ์ฑ์ ๊ฒฐํฉ.
- ๋๊ท๋ชจ ํ๋ผ๋ฏธํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ฉฐ ๊ธด ์ ๋ ฅ์์๋ ๋์ ์ฑ๋ฅ์ ๋ฐํ.
์ถ์ฒ: Jamba block from the Jamba paper
Jamba ํน์ง
-
Transformer์ Mamba์ ํ์ด๋ธ๋ฆฌ๋ํ
- Transformer๋ Attention ๋ฉ์ปค๋์ฆ์ ํตํด ์ ํํ ๋ฌธ๋งฅ ํํ ๊ฐ๋ฅ.
- Mamba๋ ๊ธด ๋ฌธ๋งฅ์ ์ฒ๋ฆฌํ๋ ๋ฐ ์ ํฉํ๋ฉฐ, Transformer์ ๋์ ๊ณ์ฐ ๋น์ฉ ๋ฌธ์ ๋ฅผ ํด๊ฒฐ.
-
๊ธด ๋ฌธ๋งฅ ์ง์
- ๊ธฐ์กด Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ์ด ๋ฌธ๋งฅ ๊ธธ์ด์์ ์ ์ฝ์ด ์๋ ๋ฐ๋ฉด, Jamba๋ 256K ํ ํฐ ์ด์์ ์ฒ๋ฆฌ ๊ฐ๋ฅ.
-
๋์ ์ฒ๋ฆฌ๋๊ณผ ๋ฉ๋ชจ๋ฆฌ ํจ์จ
- ๊ธด ๋ฌธ๋งฅ์์๋ ์์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋๊ณผ ๋์ ์ฒ๋ฆฌ ์๋๋ฅผ ์ ์ง.
๐ (์ฌ์ด๊ฐ๋ฉฐ) ์ ํ๋ธ ์์์ ๋น์ ์์ ์ฌ๋ฐ๊ฒ ๋๊ผ๋ ์
- ์๋ ๊ณตํ๋์ ๋น์ ๋ฒ์ ํญ์ ๊ฐํํ๊ณค ํ๋๋ฐ, ์ค๋ ๋น์ ๋ ๋๋์ฑ ๊ฐํ์ ๋ฐ์์น๊ณ ๊ฐ๋๋ค ใ ใ ใ ใ ๐๐
- ๊ฐ๊ฐ ํธ๋์คํฌ๋จธ์ SSM์ โ๋๋ ์๋กโ์ โํ์น ์ฐ์ โ TV ํ๋ก๊ทธ๋จ์ ๋น์ ํ๋ ๋ฐโฆ ํฌํ.. ์ด๋ป๊ฒ ๊ทธ๋ฐ ์๊ฐ์ ํ๋ ๊ฒ์ธ์งโฆ
"ํธ๋์คํฌ๋จธ" โ "๋๋ ์๋ก"
:
- โ๋๋ ์๋กโ์ ์ฃผ์ ์ฒ๋ผ, ํธ๋์คํฌ๋จธ๋ ๋ชจ๋ ๋จ์ด๊ฐ ์๋ก ๊ฐ๋ณ์ ์ผ๋ก ๋ํ(์ฐ์ฐ)ํ๋ฉฐ ๋ ๋ฆฝ์ ์ผ๋ก ๊ด๊ณ๋ฅผ ํ์ฑํฉ๋๋ค.
- ์ด๋ ๊ฐ ๋จ์ด๊ฐ ๋ค๋ฅธ ๋จ์ด๋ค๊ณผ ์ง์ ์ฐ๊ฒฐ๋๋ฉฐ ๋ชจ๋ ๊ด๊ณ๋ฅผ ๊ณ์ฐํ๋ค๋ ๊ฒ์ ๋ํ๋ ๋๋ค.
"SSM" โ "ํ์น์ฐ์ "
:
- โํ์น์ฐ์ โ๋ ๊ณผ๊ฑฐ์ ๊ด๊ณ(์ํ)๋ฅผ ์ด์ด๋ฐ์ ์๋ก์ด ๊ด๊ณ๋ฅผ ํ์ฑํด ๋๊ฐ๋ ๊ณผ์ ์ ๋ฌ์ฌํฉ๋๋ค.
- SSM์ ๊ณผ๊ฑฐ ์ ๋ณด๋ฅผ ์ ์งํ๋ฉด์๋ ํ์ฌ์ ์์ฐ์ค๋ฝ๊ฒ ์ฐ๊ฒฐํ๋ฉฐ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋๋ฐ, ์ด๋ ์๊ฐ์ ์์์ ์ํ ๋ณํ๋ฅผ ์์ฐ์ค๋ฝ๊ฒ ๋ฐ์ํฉ๋๋ค.
4. ๊ธฐํ ์ํคํ ์ณ ๋ฐ ์ฐ๊ตฌ
RetNet: Retentive Network
๋งํฌ
: https://arxiv.org/pdf/2307.08621์ ๋ชฉ
: Retentive Network (RetNet): A Successor to Transformer for Large Language Models
RetNet์ ๊ธฐ์กด Transformer์ ๋จ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด ์ค๊ณ๋ ์๋ก์ด ์ธ์ด ๋ชจ๋ธ ์ํคํ ์ฒ์ ๋๋ค. ์ด ๋ชจ๋ธ์ ๋ณ๋ ฌ ํ๋ จ, ์ ๋น์ฉ ์ถ๋ก , ์ฑ๋ฅ ํ์ฅ์ ๋์์ ๋ฌ์ฑํ์ฌ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ์๋ก์ด ํ์ค์ด ๋ ๊ฐ๋ฅ์ฑ์ ์ ์ํฉ๋๋ค.
RetNet์ ๋ฐฐ๊ฒฝ
- Transformer๋ ์ธ์ด ๋ชจ๋ธ์ ํ์ค ์ํคํ ์ฒ๋ก ์๋ฆฌ ์ก์์ผ๋, ์ถ๋ก ํจ์จ์ฑ ๋ฐ ๊ธด ์ํ์ค ์ฒ๋ฆฌ์์ ํ๊ณ๊ฐ ์กด์ฌํฉ๋๋ค.
- RetNet์ Transformer์ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์๋ O(1) ๋ณต์ก๋๋ก ํจ์จ์ ์ธ ์ถ๋ก ๋ฐ ๊ธด ์ํ์ค ์ฒ๋ฆฌ ํจ์จ์ฑ์ ์ ๊ณตํฉ๋๋ค.
์ถ์ฒ: Dual form of RetNet from the RetNet paper
RetNet์ ์ฃผ์ ํน์ง
-
Retention ๋ฉ์ปค๋์ฆ
- ์ํ์ค๋ฅผ ๋ณ๋ ฌ์ ์ผ๋ก ํ์ตํ๊ณ , ์ถ๋ก ์ค์๋ ์์ฐจ์ ์ผ๋ก ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๋ ํ์ด๋ธ๋ฆฌ๋ ๋ฐฉ์์ ์ฑํ.
- ๋ณ๋ ฌ ํํ: Transformer์ ์ ์ฌํ ๋ฐฉ์์ผ๋ก ํ์ต ๋ณ๋ ฌํ ์ง์.
- ์์ฐจ ํํ: ์ถ๋ก ์ ํจ์จ์ฑ์ ์ํด ์์ฐจ์ ์ํ ๊ฐฑ์ ์ ์ฌ์ฉ.
- ์ฒญํฌ ๋ณ๋ ฌ ํํ: ๊ธด ์ํ์ค์์ ์ฒญํฌ ๋จ์ ๋ณ๋ ฌํ๋ฅผ ํตํด ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋ ๊ฐ์.
-
Multi-Scale Retention (MSR)
- ๊ฐ ํค๋(head)๋ง๋ค ์๋ก ๋ค๋ฅธ ๊ฐ์ ์จ(Decay Rate)์ ์ ์ฉํด ๋ค์ํ ์ค์ผ์ผ๋ก ์ํ์ค๋ฅผ ๋ชจ๋ธ๋ง.
- Swish ํ์ฑํ ํจ์์ Group Normalization์ ์ฌ์ฉํด ๋น์ ํ์ฑ์ ๊ฐํํ๊ณ ํ์ต ์์ ์ฑ์ ๊ฐ์ .
-
ํ์ต ๋ฐ ์ถ๋ก
- ํ์ต: ๋ณ๋ ฌ ํํ ๋ฐ ์ฒญํฌ ๋ณ๋ ฌ ํํ์ ํ์ฉํด ๊ธด ์ํ์ค ํ์ต ์๋ ํฅ์.
- ์ถ๋ก : O(1) ๋ณต์ก๋๋ก ํจ์จ์ ์ด๋ฉฐ, ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋๊ณผ ๋๊ธฐ ์๊ฐ์ ํฌ๊ฒ ๊ฐ์.
V-JEPA: Learning Visual Representations from Video
๋งํฌ
: https://arxiv.org/pdf/2404.08471์ ๋ชฉ
: Revisiting Feature Prediction for Learning Visual Representations from Video
V-JEPA๋ ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ํน์ง ์์ธก(feature prediction)์ ๊ธฐ๋ฐ์ผ๋ก ํ ๋น์ง๋ ํ์ต ์ ๊ทผ๋ฒ์ ํ๊ตฌํฉ๋๋ค. ์ด๋ฅผ ์ํด V-JEPA๋ผ๋ ๋น๋์ค ํ์ต ๋ชจ๋ธ ์ํคํ ์ฒ๋ฅผ ์ ์ํ๋ฉฐ, ์ด๋ ํฝ์ ๋ณต์(pixel reconstruction) ๋์ ํน์ง ์์ธก์ ์ฌ์ฉํ์ฌ ๋น๋์ค์ ์ด๋ฏธ์ง ์์ ์์ ํจ์จ์ ์ด๊ณ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
V-JEPA์ ๋ฐฐ๊ฒฝ
- ๊ธฐ์กด ๋น๋์ค ๋ชจ๋ธ์ ํฝ์ ์์ค์ ๋ณต์์ด๋ ์ด๋ฏธ์ง ์ฌ์ ํ์ต ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ๋๋ฐ, ์ด๋ ๋์ ๊ณ์ฐ ๋น์ฉ๊ณผ ๋ฐ์ดํฐ ์ข ์์ฑ์ ์ด๋ํฉ๋๋ค.
- V-JEPA๋ ํน์ง ์์ธก์ ๋จ๋ ๋ชฉํ๋ก ์ฌ์ฉํ์ฌ ๋ ๊ฐ๋จํ๊ณ ํจ์จ์ ์ธ ๋น์ง๋ ํ์ต ๋ฐฉ๋ฒ์ ์ ๊ณตํฉ๋๋ค.
V-JEPA์ ์ฃผ์ ํน์ง
-
ํน์ง ์์ธก ๊ธฐ๋ฐ ํ์ต
- ํฝ์ ๋ณต์์ด ์๋ ํน์ง ์์ธก์ ํตํด ๋ ๊ฐ๊ฒฐํ๊ณ ํจ์จ์ ์ธ ํ์ต.
-
Self-supervised learning
- ๋ ์ด๋ธ ์๋ ๋ฐ์ดํฐ์์ ๋น์ง๋ ํ์ต ์ํ.
-
๋ฉํฐ๋ธ๋ก ๋ง์คํน(Multi-block masking)
- ๊ณต๊ฐ์ ๋ฐ ์๊ฐ์ ์ฐ์ ๋ธ๋ก์ ๋๋ค์ผ๋ก ์ ๊ฑฐํ์ฌ ํ์ต ๊ฐํ๋ฅผ ์ํ ์ด๋ ค์ด ์์ธก ์์ ์ ์์ฑ.
-
์ ์ฐํ ๋คํธ์ํฌ ์ค๊ณ
- ๋น๋์ค ์ ์ฉ ์ํคํ ์ฒ๋ก Vision Transformer(ViT)๋ฅผ ํ์ฉ.
5. ์๋ก์ด ๊ธฐ์ ์ ํตํฉ๊ณผ ํฅํ ์ ๋ง
-
ํจ์จ์ฑ:
MoE์ SSM์ ์ฐ์ฐ๋ ๊ฐ์์ ์์ ํจ์จ์ฑ์, RetNet๊ณผ V-JEPA๋ ๊ธด ์ํ์ค ๋ฐ ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐ ๊ฐ์ ์ ๋ณด์ ๋๋ค.
-
๋ฒ์ฉ์ฑ:
์ด ๊ธฐ์ ๋ค์ ์ธ์ด, ์ด๋ฏธ์ง, ๋น๋์ค ๋ฑ ๋ค์ํ ๋๋ฉ์ธ์์ ํ์ฉ ๊ฐ๋ฅํ๋ฉฐ, ๋ฉํฐ๋ชจ๋ฌ AI๋ก์ ํ์ฅ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋๋ค.
ํธ๋์คํฌ๋จธ๋ ํ๋ AI ๊ธฐ์ ์ ์์ง์ ์ธ ๋ชจ๋ธ์ด์ง๋ง, ์ฐ์ฐ ๋ณต์ก๋์ ์์ ์๋น๋ผ๋ ํ๊ณ๋ก ์ธํด ๋์ฒด ๊ธฐ์ ์ด ํ์ํด์ก์ต๋๋ค. MoE, SSM, RetNet, V-JEPA์ ๊ฐ์ ํ์ ์ ์ธ ์ํคํ ์ฒ๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ฉฐ, ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ ๋ชจ๋๋ฅผ ๊ฐํํ๊ณ ์์ต๋๋ค.
์ค๋์ ๊ฐ๋ต์ ์ผ๋ก ํด๋น ๋ชจ๋ธ๋ค์ ๋ํด์ ์ดํด๋ณด์๋๋ฐ์! ์ด ๋ชจ๋ธ๋ค์ ์ฐจ์ธ๋ AI ๊ธฐ์ ์ ๊ธฐ๋ฐ์ ํ์ฑํ๋ฉฐ, ์ธ์ด, ๋น๋์ค, ์ด๋ฏธ์ง ๋ฑ ๋ค์ํ ๋ฐ์ดํฐ ์ฒ๋ฆฌ์์ ์๋ก์ด ํ์ค์ด ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค๐โโ๏ธ