[Paper Review] Mamba2 - Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/Paper-Review-Transformers-are-SSMs-Generalized-Models-and-Efficient-Algorithms-Through-Structured-State-Space-Duality
- ๋งํฌ : https://arxiv.org/pdf/2405.21060
๋ค์์ ๋ ผ๋ฌธ โTransformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Dualityโ์ ๊ฐ ์ฑํฐ๋ณ๋ก ์์ธํ ๋ฆฌ๋ทฐ ๋ฐ ์ ๋ฆฌ์ ๋๋ค.
-
Introduction
๐ก Contributions
- SSM๊ณผ ์ดํ ์ ๊ฐ์ ์ด๋ก ์ ์ฐ๊ฒฐ์ ํ๋ฆฝํ์ฌ ๋ ๋ชจ๋ธ์ ์ํธ์์ฉ์ ์ดํดํ ์ ์๋ ์ด๋ก ์ ํ๋ ์์ํฌ ์ ๊ณต.
- Mamba-2 ์ํคํ ์ฒ๋ฅผ ์ ์ํ์ฌ SSM์ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํค๊ณ , ์ด๋ฅผ Transformer์ ๋น๊ต ๋ถ์.
- Transformer์ ์ต์ ํ ๊ธฐ๋ฒ์ SSM์ ์ ์ฉํ์ฌ SSM์ ํจ์จ์ฑ์ ๊ทน๋ํ.
๋ ผ๋ฌธ์ ์๋ก ์์๋ Transformers์ ๊ตฌ์กฐํ๋ ์ํ ๊ณต๊ฐ ๋ชจ๋ธ(Structured State Space Models, SSMs)์ ๊ด๊ณ๋ฅผ ํ๊ตฌํ๋ ์ด์ ์ ๋ฐฐ๊ฒฝ์ ์ค๋ช ํฉ๋๋ค. ์ฃผ์ ๋ด์ฉ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
1.1. Transformer์ ์ฑ๊ณต๊ณผ ํจ์จ์ฑ ๋ฌธ์
Transformer๋ ์ธ์ด ๋ชจ๋ธ๋ง์์ ํ๋ ๋ฅ๋ฌ๋์ ์ฑ๊ณต์ ์ด๋ ์ฃผ์ ์ํคํ ์ฒ์ ๋๋ค. ๋ํ์ ์ธ ์๋ก GPT (Generative Pre-trained Transformer) ์๋ฆฌ์ฆ๊ฐ ์์ผ๋ฉฐ, ์ต๊ทผ์๋ Llama์ ๊ฐ์ ๋ชจ๋ธ๋ค๋ ์ด ๊ณ์ด์ ์ํฉ๋๋ค. Transformer์ ํต์ฌ์ธ ์ดํ ์ ๋ฉ์ปค๋์ฆ(Attention Mechanism)์ ์ฃผ์ด์ง ์ํ์ค ๋ด์์ ๋ชจ๋ ๋จ์ด๋ค์ด ์ํธ์์ฉํ ์ ์๋๋ก ํด์ฃผ๋ฉฐ, ์ด๋ฅผ ํตํด ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๊ทธ๋ฌ๋ Transformer๋ ํจ์จ์ฑ ๋ฌธ์ ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. Transformer๋ ํนํ ๋ค์๊ณผ ๊ฐ์ ์ด์ ๋ก ๋นํจ์จ์ ์ผ ์ ์์ต๋๋ค:
- ์ํ์ค ๊ธธ์ด์ ๋ฐ๋ฅธ ๊ณ์ฐ ๋ณต์ก๋: Transformer์ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ์ํ์ค ๊ธธ์ด์ ๋ฐ๋ผ ์ด์ฐจ์ ์ธ ๊ณ์ฐ ๋ณต์ก๋๋ฅผ ๊ฐ์ง๋๋ค. ์ฆ, ์ํ์ค๊ฐ ๊ธธ์ด์ง์๋ก ๊ณ์ฐ ๋น์ฉ์ด ๊ธ๊ฒฉํ ์ฆ๊ฐํฉ๋๋ค.
- ์บ์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋: Autoregressive ๋ฐฉ์(์๊ธฐํ๊ท ๋ฐฉ์)์ผ๋ก ์ ๋ ฅ ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ๋, ์ํ์ค ๊ธธ์ด์ ๋น๋กํ๋ ํฌ๊ธฐ์ ์บ์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์๊ตฌํฉ๋๋ค. ์ด๋ ํนํ ๊ธด ์ํ์ค์ ๊ฒฝ์ฐ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ ์ธก๋ฉด์์ ๋นํจ์จ์ ์ ๋๋ค.
1.2. Structured State Space Models (SSMs)์ ๋ฑ์ฅ
Transformer์ ๋์กฐ์ ์ผ๋ก, Structured State Space Models (SSMs)๋ ์ํ์ค ์ฒ๋ฆฌ์ ์์ด์ ์ ํ์ ์ธ ์ค์ผ์ผ๋ง์ ์ ๊ณตํฉ๋๋ค. ์ฆ, ์ํ์ค ๊ธธ์ด์ ๋น๋กํด์ ๊ณ์ฐ ๋น์ฉ์ด ์ฆ๊ฐํ๋ฉฐ, Autoregressive ์์ฑ ์์๋ ์ผ์ ํ ์ํ ํฌ๊ธฐ๋ฅผ ์ ์งํ ์ ์์ต๋๋ค. ์ด๋ฌํ ํน์ฑ ๋๋ถ์ SSM์ Transformer๋ณด๋ค ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด ์ ๊ณ , ๊ธด ์ํ์ค ์ฒ๋ฆฌ์ ๋ ํจ์จ์ ์ ๋๋ค.
๋ํ์ ์ธ SSM ์ค ํ๋์ธ Mamba ๋ชจ๋ธ์ ์๊ท๋ชจ ๋ฐ ์ค๊ท๋ชจ ๋ฐ์ดํฐ์์ Transformer๋ณด๋ค ๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ SSM์ด ํจ์จ์ ์ธ ์ํ์ค ๋ชจ๋ธ๋ง ๋ฅ๋ ฅ์ ๊ฐ์ง๊ณ ์์์ ๋ํ๋ ๋๋ค.
1.3. ์ฐ๊ตฌ์ ๋ชฉํ: SSM๊ณผ Transformer ๊ฐ์ ๊ด๊ณ ํ๊ตฌ
์ด ๋ ผ๋ฌธ์์ ์ ์๋ค์ SSM๊ณผ Transformer๊ฐ ์๋ก ๋งค์ฐ ์ ์ฌํ ๊ตฌ์กฐ์ ํน์ง์ ๊ฐ์ง๊ณ ์๋ค๊ณ ์ฃผ์ฅํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ด ๋ ผ๋ฌธ์ SSM๊ณผ Transformer์ ํต์ฌ ์์์ธ ์ดํ ์ (Attention) ์ฌ์ด์ ์ด๋ก ์ ์ฐ๊ฒฐ์ ํ๋ฆฝํ๋ ค๊ณ ํฉ๋๋ค. ์ ์๋ค์ ์ด ๋ ๋ชจ๋ธ์ด ๊ตฌ์กฐํ๋ ๋ฐ๋ถ๋ฆฌ ํ๋ ฌ(semiseparable matrices)์ด๋ผ๋ ์ ์ฐ๊ตฌ๋ ํ๋ ฌ ๊ตฌ์กฐ๋ฅผ ํตํด ์ฐ๊ฒฐ๋ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
1.4. State Space Duality (SSD) ํ๋ ์์ํฌ
๋ ผ๋ฌธ์์ ์ ์ํ๋ ํต์ฌ ํ๋ ์์ํฌ๋ State Space Duality (SSD)์ ๋๋ค. ์ด ํ๋ ์์ํฌ๋ SSM๊ณผ ์ดํ ์ ์ ๊ด๊ณ๋ฅผ ์ํ์ ์ผ๋ก ์ ๋ฆฌํ๋ฉฐ, ์ด๋ฅผ ํตํด ๋ ๋ชจ๋ธ ๊ฐ์ ์ํธ ์์ฉ์ ์ค๋ช ํฉ๋๋ค. ์ด ํ๋ ์์ํฌ๋ฅผ ํตํด Transformer์ ์๊ณ ๋ฆฌ์ฆ ๋ฐ ์์คํ ์ต์ ํ ๊ธฐ์ ์ SSM์ ์ ์ฉํ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด SSM์ ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์์ต๋๋ค.
1.5. Mamba-2 ์ํคํ ์ฒ ์ ์
์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ ์ฃผ์ ์ํคํ ์ฒ์ธ Mamba-2๋ ๊ธฐ์กด์ Mamba ๋ชจ๋ธ์ ๊ฐ์ ํ ๊ฒ์ผ๋ก, SSD ํ๋ ์์ํฌ๋ฅผ ์ ์ฉํ์ฌ ๋์ฑ ํจ์จ์ ์ด๊ณ ๋น ๋ฅด๊ฒ ๋์ํ๋ ๋ชจ๋ธ์ ๋๋ค. Mamba-2๋ ๊ธฐ์กด์ Transformer์ ๊ฒฝ์ํ ์ ์๋ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์๋, 2๋ฐฐ์์ 8๋ฐฐ ๋ ๋น ๋ฅธ ๊ณ์ฐ ์๋๋ฅผ ์ ๊ณตํฉ๋๋ค. ์ด๋ฅผ ํตํด Mamba-2๋ Transformer๊ฐ ๊ฐ์ง๊ณ ์๋ ํจ์จ์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ ํฉ๋๋ค.
-
Background and Overview
๐ก SUMMARY
- SSM์ ๊ธฐ๋ณธ ๊ฐ๋ ๊ณผ ์ด๋ฅผ ๋ฅ๋ฌ๋์ ๊ธฐ์กด ์ํ์ค ๋ชจ๋ธ๋ค๊ณผ ์ฐ๊ฒฐ ์ง์ด ์ค๋ช ํฉ๋๋ค. ํนํ, SSM์ด RNN, CNN, ๊ทธ๋ฆฌ๊ณ ์ฐ์ ์๊ฐ ๋ชจ๋ธ๋ค๊ณผ ์ด๋ป๊ฒ ์ฐ๊ฒฐ๋๋ฉฐ, ์ด ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ ๋ ์ด๋ค ์ฅ์ ์ ๊ฐ์ง๋์ง๋ฅผ ๊ฐ์กฐํฉ๋๋ค.
- ๋ํ, ์ ํ์ ์ํ ๊ณต๊ฐ ๋ชจ๋ธ(Selective State Space Models)์ ์๊ฐํ๋ฉด์, SSM์ด ์ด๋ป๊ฒ ํน์ ์ํ์ค์์ ์ค์ํ ์ ๋ณด๋ฅผ ๋ ์ ์ฒ๋ฆฌํ ์ ์๋์ง๋ฅผ ์ค๋ช ํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก SSM์ ๊ฐ์ฅ ํฐ ์ฅ์ ์ธ ํจ์จ์ฑ์ ๋ํด ๋ ผ์ํ๋ฉฐ, ์ํ์ค ์ฒ๋ฆฌ์์ Transformer์ ๋์์ผ๋ก์์ ๊ฐ๋ฅ์ฑ์ ์ ์ํฉ๋๋ค.
์ด ์ฅ์์๋ ๋ ผ๋ฌธ์ ํต์ฌ ๊ฐ๋ ์ธ ๊ตฌ์กฐํ๋ ์ํ ๊ณต๊ฐ ๋ชจ๋ธ(Structured State Space Models, SSMs)์ ๋ฐฐ๊ฒฝ๊ณผ ๊ธฐ๋ณธ ๊ฐ๋ ์ ์ค๋ช ํฉ๋๋ค. ๋ํ, SSM์ด ๋ฅ๋ฌ๋์์ ์ฌ์ฉ๋๋ ์ฌ๋ฌ ๋ชจ๋ธ๋ค๊ณผ ์ด๋ป๊ฒ ์ฐ๊ฒฐ๋๋์ง๋ฅผ ๋ค๋ฃน๋๋ค. ์ฃผ์ ๋ด์ฉ์ ํ๋์ฉ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
2.1. Structured State Space Models (SSMs)์ ๊ธฐ๋ณธ ๊ฐ๋
SSM์ ์ํ์ค ๋ชจ๋ธ๋ก, ์ ๋ ฅ๋ ์ํ์ค ๋ฐ์ดํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ธฐ ์ํด ์ค๊ณ๋์์ต๋๋ค. ์ํ์ค ๋ฐ์ดํฐ๋ ์๊ฐ์ ํ๋ฆ์ ๋ฐ๋ผ ์ผ๋ จ์ ๊ฐ๋ค์ด ์์ฐจ์ ์ผ๋ก ๋ํ๋๋ ๋ฐ์ดํฐ๋ก, ์ผ๋ฐ์ ์ผ๋ก ์์ฐ์ด ์ฒ๋ฆฌ(NLP), ์๊ณ์ด ๋ฐ์ดํฐ ๋ถ์, ์์ฑ ์ธ์ ๋ฑ์์ ๋ง์ด ์ฌ์ฉ๋ฉ๋๋ค.
SSM์ ํต์ฌ ์์ด๋์ด๋ ์ ๋ ฅ ์ํ์ค๋ฅผ ์ํ ๊ณต๊ฐ(state space)์ ๋งคํํ์ฌ, ์ฐ์์ ์ธ ์ํ ๋ณํ๋ฅผ ํตํด ์ถ๋ ฅ์ ์์ฑํ๋ ๊ฒ์ ๋๋ค. ์ด ๊ณผ์ ์์ SSM์ ์ฃผ์ด์ง ์ํ์ค๋ฅผ ํน์ ํ ์ํ ๊ณต๊ฐ์ ํตํด ๋ณํํ๋ฉฐ, ์ด๋ฅผ ์ํ์ ์ผ๋ก ๋ค์๊ณผ ๊ฐ์ ์์์ผ๋ก ํํํ ์ ์์ต๋๋ค.
-
์ํ ๊ฐฑ์ : ์ด์ ์ํ์ ์ ๋ ฅ ๊ฐ์ ๋ฐ๋ผ ํ์ฌ ์ํ๊ฐ ๊ฒฐ์ ๋จ.
ht=Ahtโ1+Bxth_t = A h_{t-1} + B x_thtโ=Ahtโ1โ+Bxtโ
-
์ถ๋ ฅ ์์ฑ: ํ์ฌ ์ํ๋ฅผ ๋ฐํ์ผ๋ก ์ถ๋ ฅ์ด ์์ฑ๋จ.
yt=CThty_t = C^T h_tytโ=CThtโ
์ฌ๊ธฐ์ AAA, BBB, CCC๋ ๊ฐ๊ฐ ์ํ ๊ฐฑ์ ๊ณผ ์ถ๋ ฅ์ ๊ฒฐ์ ํ๋ ํ๋ ฌ์ ๋๋ค. ์ด๋ฌํ ์ํ ๊ณต๊ฐ ๋ชจ๋ธ์ ๊ตฌ์กฐํ๋ ํํ๋ก ํจ์จ์ ์ผ๋ก ๊ตฌํํ ๊ฒ์ด ๊ตฌ์กฐํ๋ ์ํ ๊ณต๊ฐ ๋ชจ๋ธ(SSM)์ ๋๋ค.
2.2. SSM๊ณผ ๋ค๋ฅธ ์ํ์ค ๋ชจ๋ธ ๊ฐ์ ๊ด๊ณ
SSM์ ๋ฅ๋ฌ๋์์ ์ฃผ๋ก ์ฌ์ฉ๋๋ ๋ค๋ฅธ ์ํ์ค ๋ชจ๋ธ๋ค์ธ RNNs (์ํ ์ ๊ฒฝ๋ง), CNNs (ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง), ๊ทธ๋ฆฌ๊ณ ์ฐ์ ์๊ฐ ๋ชจ๋ธ(continuous-time models)๊ณผ ๊น์ ์ฐ๊ด์ ๊ฐ์ง๊ณ ์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ SSM์ด ์ด๋ฌํ ๊ธฐ์กด ๋ชจ๋ธ๋ค๊ณผ ์ด๋ค ์ ์์ ์ ์ฌํ๊ณ ๋ค๋ฅธ์ง๋ฅผ ์ค๋ช ํฉ๋๋ค.
-
์ฐ์ ์๊ฐ ๋ชจ๋ธ(Continuous-Time Models)
SSM์ ์๋ ์ฐ์ ์๊ฐ ์์คํ ์์ ์๊ฐ์ ์ป์ ๋ชจ๋ธ์ ๋๋ค. ์ฐ์ ์๊ฐ ๋ชจ๋ธ์ ์๊ฐ์ ๋ฐ๋ผ ๊ณ์ํด์ ๋ณํ๋ ์์คํ ์ ์ค๋ช ํ๋๋ฐ, ์ด๋ ๋ฌผ๋ฆฌํ์ด๋ ์ ์ด ์ด๋ก ์์ ๋ง์ด ์ฌ์ฉ๋๋ ๊ฐ๋ ์ ๋๋ค. SSM์ ๊ฒฝ์ฐ, ์ฐ์ ์๊ฐ ์์คํ ์ ์ด์ฐํ(discretization)ํ์ฌ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ก ๋ณํํด ์ฌ์ฉํ๋ ๋ฐฉ์์ ๋๋ค. ์ด ๋ฐฉ์์ ์์ฐ์ค๋ฝ๊ฒ ์ฐ์ ์๊ฐ ์์คํ ์์ ์ฌ์ฉ๋๋ ๊ฐ๋ ์ ๊ฐ์ ธ์ ์ํ์ค ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ ์ ์๊ฒ ํด์ค๋๋ค.
-
์ํ ์ ๊ฒฝ๋ง(Recurrent Neural Networks, RNNs)
SSM์ ์ํ ์ ๊ฒฝ๋ง(RNNs)์ ๋ณํ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. RNN๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก, SSM์ ์ด์ ์๊ฐ ๋จ๊ณ์ ์ ๋ณด๋ฅผ ์ด์ฉํด ํ์ฌ ์ํ๋ฅผ ๊ฐฑ์ ํฉ๋๋ค. ํ์ง๋ง RNN๊ณผ๋ ๋ค๋ฅด๊ฒ SSM์ ๋ ๋ณต์กํ ์ํ ๊ฐฑ์ ๊ท์น์ ์ฌ์ฉํ๋ฉฐ, ์ด ๊ท์น์ ๊ตฌ์กฐํ๋ ํ๋ ฌ๋ก ์ ์๋ฉ๋๋ค. SSM์ RNN๊ณผ ๋ฌ๋ฆฌ ์ ํ ๊ตฌ์กฐ๋ฅผ ์ ์งํ๋ฉด์๋, ๋ ํฐ ์ํ ๊ณต๊ฐ์ ๋ค๋ฃฐ ์ ์์ด, RNN์ด ๊ฒช๋ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ (gradient vanishing problem)๋ฅผ ํผํ ์ ์์ต๋๋ค.
-
ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(Convolutional Neural Networks, CNNs)
SSM์ ๋ํ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(CNNs)๊ณผ๋ ์ ์ฌํฉ๋๋ค. SSM์ด ์ผ์ ํ ์ํ ์ ์ด๋ฅผ ํตํด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐฉ์์ CNN์์ ํฉ์ฑ๊ณฑ ํํฐ๊ฐ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐฉ์๊ณผ ๋น์ทํฉ๋๋ค. ํนํ, SSM์ด ์๊ฐ์ ๋ฐ๋ผ ๋ณํ์ง ์๋ ์ํ ์ ์ด(Linear Time-Invariant, LTI)๋ฅผ ๊ฐ์ง ๋, ์ด๋ CNN์์ ์ฌ์ฉํ๋ ์ปจ๋ณผ๋ฃจ์ (Convolution)๊ณผ ๋๋ฑํ ์ญํ ์ ํ๊ฒ ๋ฉ๋๋ค. ์ด ๊ฒฝ์ฐ SSM์ ์ ์ญ์ ์ธ ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๋ CNN์ผ๋ก ์ดํด๋ ์ ์์ต๋๋ค.
2.3. Selective State Space Models (์ ํ์ ์ํ ๊ณต๊ฐ ๋ชจ๋ธ)
SSM์ ๋ณํ ์ค ํ๋์ธ ์ ํ์ ์ํ ๊ณต๊ฐ ๋ชจ๋ธ(Selective State Space Models, SSMs)์ ์๊ฐ์ ๋ฐ๋ผ ๋ค๋ฅด๊ฒ ๋์ํ ์ ์๋ ํน์ฑ์ ๊ฐ์ง๋๋ค. ์ ํ์ SSM์ ์ด์ ์๊ฐ์ ์ํ๋ ์ ๋ ฅ์ ๋ฐ๋ผ ์ผ๋ถ ์ ๋ณด๋ฅผ ์ ํ์ ์ผ๋ก ๋ฌด์ํ๊ฑฐ๋, ์ค์ํ ์ ๋ณด๋ฅผ ์ง์ค์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์์ต๋๋ค. ์ด๋ก ์ธํด ์ ํ์ SSM์ ์ ๋ณด๊ฐ ๋ฐ์ง๋ ๋ฐ์ดํฐ๋ฅผ ๋ ์ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
์๋ฅผ ๋ค์ด, ์์ฐ์ด ์ฒ๋ฆฌ์์ ๊ธด ๋ฌธ์ฅ์ ์ฒ๋ฆฌํ ๋, ๋ชจ๋ ๋จ์ด๊ฐ ์ค์ํ์ง๋ ์์ต๋๋ค. ์ ํ์ SSM์ ์ด๋ฌํ ์ํฉ์์ ์ค์ํ์ง ์์ ๋จ์ด๋ ๋ฌด์ํ๊ณ , ์ค์ํ ๋จ์ด์๋ง ์ง์คํ์ฌ ๋ ํจ์จ์ ์ผ๋ก ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
2.4. SSM์ ํจ์จ์ฑ
SSM์ ๊ฐ์ฅ ํฐ ์ฅ์ ์ค ํ๋๋ ์ํ์ค ๊ธธ์ด์ ๋น๋กํ๋ ์ ํ์ ๊ณ์ฐ ๋ณต์ก๋๋ฅผ ๊ฐ์ง ์ ์๋ค๋ ์ ์ ๋๋ค. Transformer์ ๊ฐ์ ๋ชจ๋ธ์ ์ํ์ค ๊ธธ์ด์ ๋ฐ๋ผ ๊ณ์ฐ ๋ณต์ก๋๊ฐ ์ด์ฐจ์ ์ผ๋ก ์ฆ๊ฐํ๋ ๋ฐ๋ฉด, SSM์ ์ด๋ฅผ ์ ํ์ ์ธ ๋ฐฉ์์ผ๋ก ์ฒ๋ฆฌํ ์ ์์ต๋๋ค. ์ด๋ ํนํ ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ๋ ๋งค์ฐ ์ค์ํ ์ฅ์ ์ผ๋ก ์์ฉํ๋ฉฐ, ๊ณ์ฐ ์์์ ๋ ํจ์จ์ ์ผ๋ก ์ฌ์ฉํ ์ ์๊ฒ ํด์ค๋๋ค.
๋ํ, SSM์ Transformer์์ ์ฌ์ฉํ๋ ์ํํธ๋งฅ์ค ์ดํ ์ ์ ๋์ฒดํ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ์ ์ํฉ๋๋ค. ์ํํธ๋งฅ์ค ์ดํ ์ ์ ์ํ์ค ๊ธธ์ด์ ๋ฐ๋ผ ๋ง์ ๊ณ์ฐ ์์์ ์๋ชจํ๊ฒ ๋์ง๋ง, SSM์ ์ด๋ฅผ ๋ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋ ๋ฐฉ๋ฒ์ ์ ๊ณตํฉ๋๋ค.
-
State Space Models are Structured Matrices
๐ก SUMMARY
- SSM์ ๋ฐ๋ถ๋ฆฌ ํ๋ ฌ(semiseparable matrices)๋ก ํํํ๋ ๋ฐฉ์์ ์๊ฐํ๋ฉฐ, ์ด๋ฅผ ํตํด ์ํ์ค ์ฒ๋ฆฌ์์ SSM์ด ๋งค์ฐ ํจ์จ์ ์ผ ์ ์์์ ์ค๋ช ํฉ๋๋ค.
- ๋ฐ๋ถ๋ฆฌ ํ๋ ฌ์ ํน์ฑ์ ๋ณต์กํ ์ฐ์ฐ์ ๊ฐ์ํํ๊ณ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ฌ, SSM์ด Transformer์ ์ดํ ์ ๋ฉ์ปค๋์ฆ๋ณด๋ค ๋ ๋น ๋ฅด๊ณ ํจ์จ์ ์ผ๋ก ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ์ ์๊ฒ ํด์ค๋๋ค.
- ๋ํ, SSM์ ๊ณ์ฐ์ ์ต์ ํํ๋ ์๋ก์ด ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํ์ฌ SSM์ ์ค์ฉ์ฑ์ ๋์ ๋๋ค.
์ด ์ฅ์์๋ ์ํ ๊ณต๊ฐ ๋ชจ๋ธ(SSM)์ ๊ตฌ์กฐํ๋ ํ๋ ฌ(structured matrices)๊ณผ ์ฐ๊ฒฐํ์ฌ ์ค๋ช ํฉ๋๋ค. ์ด๋ก ์ ์ผ๋ก SSM์ด ์ด๋ป๊ฒ ํน์ ํํ์ ํ๋ ฌ๋ก ํํ๋ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ์ํ์ค ์ฒ๋ฆฌ์์ ํจ์จ์ฑ์ ๊ทน๋ํํ ์ ์๋์ง์ ๋ํ ๋ด์ฉ์ ๋ค๋ฃน๋๋ค. ์ด๋ฅผ ์์ธํ ํ์ด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
3.1. SSM์ ํ๋ ฌ๋ก ํํ
SSM์ ์ํ์ค ๋ณํ(sequence transformation)์ ํ ํํ๋ก, ์ํ์ค ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์กฐํ๋ ๋ฐฉ์์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค. ์ด ์ํ์ค ๋ณํ์ ๊ธฐ๋ณธ์ ์ผ๋ก ํ๋ ฌ ๊ณฑ์ ์ ํํ๋ก ํํ๋ ์ ์์ต๋๋ค.
SSM์ ์ผ๋ฐ์ ์ผ๋ก ๋ค์๊ณผ ๊ฐ์ ์์์ผ๋ก ํํ๋ฉ๋๋ค:
-
์ํ ๊ฐฑ์ :
ht=Ahtโ1+Bxth_t = A h_{t-1} + B x_thtโ=Ahtโ1โ+Bxtโ
์ด์ ์ํ htโ1h_{t-1}htโ1โ์ ํ์ฌ ์ ๋ ฅ xtx_txtโ๊ฐ ์ฃผ์ด์ง๋ฉด, ์ด๋ฅผ ํ๋ ฌ AAA์ BBB๋ฅผ ํตํด ๊ฐฑ์ ๋ ์ํ hth_thtโ๋ฅผ ๊ณ์ฐํฉ๋๋ค.
-
์ถ๋ ฅ ์์ฑ:
yt=CThty_t = C^T h_tytโ=CThtโ
๊ฐฑ์ ๋ ์ํ hth_thtโ๋ฅผ ํ๋ ฌ CCC๋ฅผ ํตํด ์ต์ข ์ถ๋ ฅ yty_tytโ๋ก ๋ณํํฉ๋๋ค.
์ด๋, ์ํ์ค ์ ๋ฐ์ ๊ฑธ์ณ ์ด ๊ณผ์ ์ด ๋ฐ๋ณต๋๋ฉด์ ์ ์ฒด ์ ๋ ฅ ์ํ์ค x=[x0,x1,โฆ,xT]x = [x_0, x_1, โฆ, x_T]x=[x0โ,x1โ,โฆ,xTโ]๊ฐ ์ถ๋ ฅ ์ํ์ค y=[y0,y1,โฆ,yT]y = [y_0, y_1, โฆ, y_T]y=[y0โ,y1โ,โฆ,yTโ]๋ก ๋ณํ๋ฉ๋๋ค. ์ด ๊ณผ์ ์ ํ๋ ฌ ๋ณํ(matrix transformation)์ผ๋ก ์๊ฐํ ์ ์์ผ๋ฉฐ, ์ด๋ SSM์ด ๊ตฌ์กฐํ๋ ํ๋ ฌ์ ํตํด ๊ณ์ฐ๋ ์ ์์์ ์๋ฏธํฉ๋๋ค.
3.2. ๋ฐ๋ถ๋ฆฌ ํ๋ ฌ(Semiseparable Matrices)
์ด ๋ ผ๋ฌธ์์ ๋ค๋ฃจ๋ ์ค์ํ ๊ฐ๋ ์ค ํ๋๋ ๋ฐ๋ถ๋ฆฌ ํ๋ ฌ(semiseparable matrices)์ ๋๋ค. ๋ฐ๋ถ๋ฆฌ ํ๋ ฌ์ ํ๋ ฌ์ ํ์ ๋ธ๋ก(submatrix)์ด ๋ฎ์ ์ฐจ์(rank)์ผ๋ก ํํ๋ ์ ์๋ ํน๋ณํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋๋ค. ์ด๋ ๋ณต์กํ ํ๋ ฌ ์ฐ์ฐ์ ํจ์จ์ ์ผ๋ก ์ํํ ์ ์๋๋ก ๋์์ฃผ๋ฉฐ, ๊ณ์ฐ ์๊ฐ๊ณผ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ด๋ ๋ฐ ๊ธฐ์ฌํฉ๋๋ค.
SSM์ ํต์ฌ์ ๋ฐ๋ก ์ด๋ฌํ ๋ฐ๋ถ๋ฆฌ ํ๋ ฌ๋ก ํํ๋ ์ ์๋ค๋ ์ ์ ๋๋ค. ๋ ผ๋ฌธ์์๋ SSM์ด ๋ฐ๋ถ๋ฆฌ ํ๋ ฌ์ ํน์ ํ ํํ๋ก ๋ํ๋ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ์ํ์ค ๋ณํ์ ํจ์จ์ ์ผ๋ก ์ํํ ์ ์์์ ์ํ์ ์ผ๋ก ์ฆ๋ช ํฉ๋๋ค.
3.3. SSM๊ณผ ๋ฐ๋ถ๋ฆฌ ํ๋ ฌ ๊ฐ์ ๊ด๊ณ
SSM์ ๋ฐ๋ถ๋ฆฌ ํ๋ ฌ๋ก ํํํ๋ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ์ด ์ค๋ช ํ ์ ์์ต๋๋ค:
- ์ ๋ ฅ xxx์ ์ถ๋ ฅ yyy ๊ฐ์ ๋ณํ์ ๋ด๋นํ๋ ์ํ ๊ณต๊ฐ ๋ชจ๋ธ(SSM)์, ๋ณธ์ง์ ์ผ๋ก ํ๋ ฌ ๋ณํ(matrix transformation)์ ํ ํํ์ ๋๋ค.
- SSM์์ ์ฌ์ฉ๋๋ ์ํ ์ ์ด ํ๋ ฌ AAA, ์ ๋ ฅ ๋ณํ ํ๋ ฌ BBB, ๊ทธ๋ฆฌ๊ณ ์ถ๋ ฅ ๋ณํ ํ๋ ฌ CCC๋ ๋ชจ๋ ๊ตฌ์กฐํ๋ ํ๋ ฌ(structured matrices)๋ก ๋ํ๋ ์ ์์ต๋๋ค. ์ด๋ ์ด๋ฌํ ํ๋ ฌ๋ค์ด ๋ฐ๋ถ๋ฆฌ ํ๋ ฌ์ ์ฑ์ง์ ๊ฐ์ง๊ฒ ๋๋ฉด, SSM์ ๋งค์ฐ ํจ์จ์ ์ผ๋ก ๊ณ์ฐ๋ ์ ์์ต๋๋ค.
๋ ผ๋ฌธ์์๋ SSM์ ํตํด ์ํ๋๋ ์ํ์ค ๋ณํ์ด ๋ฐ๋ถ๋ฆฌ ํ๋ ฌ์ ๊ตฌ์กฐ์ ์ด๋ป๊ฒ ์ฐ๊ฒฐ๋๋์ง๋ฅผ ๊ตฌ์ฒด์ ์ผ๋ก ์ค๋ช ํฉ๋๋ค. ๋ฐ๋ถ๋ฆฌ ํ๋ ฌ์ ํ์ ํ๋ ฌ๋ค์ ์ฐจ์์ ์ค์์ผ๋ก์จ, ์ ์ฒด ํ๋ ฌ์ ๋ณต์ก๋๋ฅผ ๋ฎ์ถ๊ณ , ๋ ์ ์ ๊ณ์ฐ๋์ผ๋ก ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๊ฒ ํด์ค๋๋ค.
3.4. ์๋ก์ด ํจ์จ์ฑ ๊ฒฐ๊ณผ
๋ฐ๋ถ๋ฆฌ ํ๋ ฌ์ ํ์ฉํ๋ฉด SSM์ ํจ์จ์ฑ์ ํฌ๊ฒ ๋์ผ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ์ป์ ์ ์๋ ์ฃผ์ ํจ์จ์ฑ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๊ณ์ฐ ๋น์ฉ ๊ฐ์: SSM์ ๋ฐ๋ถ๋ฆฌ ํ๋ ฌ์ ์ฌ์ฉํ์ฌ ์ ์ฒด ๊ณ์ฐ ๋น์ฉ์ ์ค์ผ ์ ์์ต๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ํฐ ํ๋ ฌ์ ๊ณฑํ๋ ๋ฐ ๋๋ ๊ณ์ฐ ๋น์ฉ์ ๋งค์ฐ ํฌ์ง๋ง, ๋ฐ๋ถ๋ฆฌ ํ๋ ฌ์ ์ฐจ์์ ๋ฎ์ถค์ผ๋ก์จ ์ด ๋น์ฉ์ ์ ํ์ ์ผ๋ก ์ค์ผ ์ ์์ต๋๋ค.
- ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ: ๋ฐ๋ถ๋ฆฌ ํ๋ ฌ์ ๊ตฌ์กฐ์ ํน์ฑ์ ํ์ฉํ๋ฉด, ํ๋ ฌ์ ์์ ํ ํํ๋ก ์ ์ฅํ ํ์ ์์ด ํจ์จ์ ์ธ ๋ฐฉ์์ผ๋ก ์ ์ฅํ ์ ์์ต๋๋ค. ์ด๋ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ฌ, ๋ ํฐ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ฒ๋ฆฌํ ์ ์๊ฒ ํฉ๋๋ค.
ํนํ, SSM์ ๋ฐ๋ถ๋ฆฌ ํ๋ ฌ๋ก ๋ณํํจ์ผ๋ก์จ, ๊ธฐ์กด Transformer์์ ์ฌ์ฉ๋๋ ๋ณต์กํ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ์ด์ฐจ์ ์ธ ๊ณ์ฐ ๋ณต์ก๋๋ฅผ ์ ํ์ ์ผ๋ก ์ค์ผ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ๊ธด ์ํ์ค๋ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์๊ฒ ๋ฉ๋๋ค.
3.5. ๊ตฌ์กฐํ๋ ํ๋ ฌ์ ํ์ฉํ ์๋ก์ด ์๊ณ ๋ฆฌ์ฆ
๋ ผ๋ฌธ์์๋ SSM์ ๊ณ์ฐํ๊ธฐ ์ํ ์๋ก์ด ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํฉ๋๋ค. ์ด ์๊ณ ๋ฆฌ์ฆ์ ๊ตฌ์กฐํ๋ ํ๋ ฌ(structured matrices)์ ์ฑ์ง์ ํ์ฉํ์ฌ, ๊ธฐ์กด SSM์ ๊ณ์ฐ ๋ฐฉ์์ ์ต์ ํํฉ๋๋ค.
๊ธฐ์กด์๋ SSM์ ๊ณ์ฐํ๋ ๊ณผ์ ์์ ํฐ ํ๋ ฌ ๊ณฑ์ ์ด ํ์ํ์ผ๋, ์๋ก์ด ์๊ณ ๋ฆฌ์ฆ์ ๋ฐ๋ถ๋ฆฌ ํ๋ ฌ์ ์ฌ์ฉํด ์ด๋ฌํ ๋ณต์กํ ์ฐ์ฐ์ ๋ ๋น ๋ฅด๊ณ ํจ์จ์ ์ผ๋ก ์ํํ ์ ์๊ฒ ํด์ค๋๋ค. ์ด ์๊ณ ๋ฆฌ์ฆ์ ํนํ ๊ธด ์ํ์ค๋ ํฐ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ฒ๋ฆฌํ ๋ ์ ์ฉํ๋ฉฐ, SSM์ ํ์ฉ ๋ฒ์๋ฅผ ํ์ฅ์ํต๋๋ค.
3.6. ํต์ฌ ๋ฉ์์ง: SSM์ ๋ค์ํ ๊ณ์ฐ ๋ฐฉ์
๋ ผ๋ฌธ์์ ๊ฐ์กฐํ๋ ํต์ฌ ๋ฉ์์ง๋ SSM์ ๊ณ์ฐ ๋ฐฉ์์ด ์ฌ๋ฌ ๊ฐ์ง๋ก ๋ณํ๋ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ํ๋ ฌ ๊ณฑ์ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ฌ๊ตฌ์ฑํ ์ ์๋ค๋ ์ ์ ๋๋ค. ๊ฐ๊ธฐ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ผ๋ก ์ํ ๊ณต๊ฐ ๋ชจ๋ธ์ ๊ณ์ฐํ๋ ๋ฐฉ์์ด ๋ชจ๋ ๊ตฌ์กฐํ๋ ํ๋ ฌ ๊ณ์ฐ์ผ๋ก ํ์๋ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ํจ์จ์ ์ธ ๊ณ์ฐ์ด ๊ฐ๋ฅํด์ง๋๋ค.
-
Structured Masked Attention: Generalizing Linear Attention with Structured Matrices
๐ก SUMMARY
- ๊ธฐ์กด์ ์ ํ ์ดํ ์ (linear attention)์ ๊ฐ์ ํ ๊ตฌ์กฐํ๋ ๋ง์คํฌ๋ ์ดํ ์ (SMA)์ ์ ์ํฉ๋๋ค.
- SMA๋ ์ํํธ๋งฅ์ค ์ฐ์ฐ์ ์ ๊ฑฐํ๊ณ , ๊ตฌ์กฐํ๋ ํ๋ ฌ๊ณผ ๋ฐ์ดํฐ ์์กด์ ๋ง์คํฌ๋ฅผ ์ฌ์ฉํ์ฌ ์ํ์ค ๋ฐ์ดํฐ๋ฅผ ๋ ํจ์จ์ ์ด๊ณ ์ ์ฐํ๊ฒ ์ฒ๋ฆฌํ ์ ์๊ฒ ํฉ๋๋ค.
- ๋ํ, SSM๊ณผ SMA ๊ฐ์ ์๋์ ๊ด๊ณ๋ฅผ ํตํด ๋ ๋ชจ๋ธ์ด ๊ฐ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ๊ณต์ ํ๋ฉฐ, ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ๋ ํจ์จ์ ์ผ๋ก ๊ตฌํํ ์ ์์์ ์ค๋ช ํฉ๋๋ค.
์ด ์ฅ์์๋ ๊ธฐ์กด์ ์ ํ ์ดํ ์ (linear attention)์ ๊ตฌ์กฐํ๋ ํ๋ ฌ(structured matrices)์ ์ฌ์ฉํ์ฌ ์ผ๋ฐํํ๋ ๋ฐฉ๋ฒ์ ์ค๋ช ํฉ๋๋ค. ์ ์๋ค์ ์ด ๊ณผ์ ์ ํตํด ์ ํ ์ดํ ์ ์ ๋ ํจ์จ์ ์ด๊ณ ๊ฐ๋ ฅํ ๋ฐฉ์์ผ๋ก ๊ตฌํํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค. ์ด์ ํ๋์ฉ ์์ธํ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
4.1. ๊ธฐ์กด ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ํ๊ณ
Transformer์์ ๊ฐ์ฅ ์ค์ํ ๋ถ๋ถ ์ค ํ๋๋ ์ํํธ๋งฅ์ค ์ดํ ์ (softmax attention)์ ๋๋ค. ์ํํธ๋งฅ์ค ์ดํ ์ ์ ๊ฐ ๋จ์ด๊ฐ ๋ฌธ์ฅ์์ ๋ค๋ฅธ ๋ชจ๋ ๋จ์ด์ ์ํธ์์ฉํ ์ ์๋๋ก ํด์ฃผ๋ฉฐ, ์ด๋ฅผ ํตํด ๋ฌธ์ฅ์ ๋งฅ๋ฝ์ ํ์ ํฉ๋๋ค. ํ์ง๋ง ์ํํธ๋งฅ์ค ์ดํ ์ ์ ์ํ์ค ๊ธธ์ด์ ๋ํด ์ด์ฐจ์ ์ธ ๊ณ์ฐ ๋ณต์ก๋๋ฅผ ๊ฐ์ง๊ธฐ ๋๋ฌธ์, ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ๋๋ ๋นํจ์จ์ ์ ๋๋ค.
-
๊ธฐ์กด ์ดํ ์ ์ ๊ณ์ฐ ๋ณต์ก๋:
์ํํธ๋งฅ์ค ์ดํ ์ ์ ์ ๋ ฅ ์ํ์ค x=[x0,x1,โฆ,xT]x = [x_0, x_1, โฆ, x_T]x=[x0โ,x1โ,โฆ,xTโ]์์ ๋ชจ๋ ๋จ์ด ์์ ๋ํด ์ํธ์์ฉ์ ๊ณ์ฐํฉ๋๋ค. ์ด๋ ๊ธฐ๋ณธ์ ์ผ๋ก T2T^2T2์ ๋น๋กํ๋ ๊ณ์ฐ ๋ณต์ก๋๋ฅผ ์ ๋ฐํฉ๋๋ค. ๋ฐ๋ผ์ ์ํ์ค๊ฐ ๊ธธ์ด์ง์๋ก ๊ณ์ฐ๋์ด ๊ธฐํ๊ธ์์ ์ผ๋ก ์ฆ๊ฐํฉ๋๋ค.
4.2. ์ ํ ์ดํ ์ ์ ๋ฑ์ฅ
์ ํ ์ดํ ์ (linear attention)์ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋์์ผ๋ก ๋ฑ์ฅํ์ต๋๋ค. ์ ํ ์ดํ ์ ์ ์ํํธ๋งฅ์ค ํจ์์ ๊ณ์ฐ์ ๊ฐ์ํํ์ฌ, ์ํ์ค ๊ธธ์ด์ ๋ฐ๋ผ ์ ํ์ ์ธ ๊ณ์ฐ ๋ณต์ก๋๋ฅผ ๊ฐ์ง ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ๋ ๋ ์ ์ ๊ณ์ฐ๋์ผ๋ก ๋น์ทํ ์ฑ๋ฅ์ ๋ผ ์ ์์ต๋๋ค.
์ ํ ์ดํ ์ ์ ํ๋ ฌ ๊ณฑ์ (matrix multiplication)์ ์ฐ๊ด ๋ฒ์น(associativity)์ ํ์ฉํฉ๋๋ค. ์ด๋ฅผ ํตํด ๊ธฐ์กด์ ์ํํธ๋งฅ์ค ์ดํ ์ ์์ ์ํํ๋ ๋ณต์กํ ๊ณ์ฐ์ ๋ ๊ฐ๋จํ ํ๋ ฌ ๊ณฑ์ ์ผ๋ก ๋ณํํ ์ ์์ต๋๋ค.
-
์ ํ ์ดํ ์ ์ ๊ณ์ฐ ๋ฐฉ์:
Y=softmax(QKT)โ VY = \text{softmax}(QK^T) \cdot VY=softmax(QKT)โ V
๋์ , ์ ํ ์ดํ ์ ์ ๋ค์๊ณผ ๊ฐ์ด ์ฌ๊ตฌ์ฑ๋ฉ๋๋ค:
Y=Qโ (KTโ V)Y = Q \cdot (K^T \cdot V)Y=Qโ (KTโ V)
์ด๋ ์ํํธ๋งฅ์ค ์ฐ์ฐ์ ์ ๊ฑฐํ๊ณ , QQQ, KKK, VVV์ ํ๋ ฌ ๊ณฑ์ ์ ํจ์จ์ ์ผ๋ก ์ํํ ์ ์๊ฒ ํด์ค๋๋ค.
4.3. Structured Masked Attention (SMA)์ ๋์
์ด ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ ์ ํ ์ดํ ์ ์ ๋ ๋ฐ์ ์์ผ, ๊ตฌ์กฐํ๋ ๋ง์คํฌ๋ ์ดํ ์ (Structured Masked Attention, SMA)์ด๋ผ๋ ์๋ก์ด ๊ฐ๋ ์ ๋์ ํฉ๋๋ค. SMA๋ ๊ธฐ์กด์ ์ ํ ์ดํ ์ ์ ์ฅ์ ์ ์ ์งํ๋ฉด์๋, ๊ตฌ์กฐํ๋ ํ๋ ฌ์ ์ฑ์ง์ ์ฌ์ฉํด ๋ ํจ์จ์ ์ด๊ณ ์ ์ฐํ ๋ฐฉ์์ผ๋ก ์ดํ ์ ์ ์ํํฉ๋๋ค.
SMA์ ์ฃผ์ ํน์ง:
- ์ํํธ๋งฅ์ค ์ ๊ฑฐ: SMA๋ ์ํํธ๋งฅ์ค ์ฐ์ฐ์ ์ ๊ฑฐํ์ฌ ๊ณ์ฐ ํจ์จ์ฑ์ ๊ทน๋ํํฉ๋๋ค. ์ํํธ๋งฅ์ค๋ ๊ณ์ฐ๋์ด ๋ง๊ณ ๋นํจ์จ์ ์ธ ์ฐ์ฐ ์ค ํ๋๋ก, ์ด๋ฅผ ์ ๊ฑฐํจ์ผ๋ก์จ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ์ฑ๋ฅ์ ๊ฐ์ ํ ์ ์์ต๋๋ค.
- ๊ตฌ์กฐํ๋ ๋ง์คํฌ ์ฌ์ฉ: ๊ธฐ์กด Transformer์์๋ ๊ฐ ๋จ์ด ๊ฐ์ ์ํธ์์ฉ์ ๋จ์ํ ๊ณ์ฐํ์ง๋ง, SMA์์๋ ๊ตฌ์กฐํ๋ ๋ง์คํฌ(structured mask)๋ฅผ ์ฌ์ฉํด ๋ ๋ณต์กํ๊ณ ์ ๊ตํ ์ํธ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ์ด ๋ง์คํฌ๋ ์ํ์ค์ ๊ฐ ์์๊ฐ ์ด๋ป๊ฒ ์ํธ์์ฉํด์ผ ํ๋์ง์ ๋ํ ์ ๋ณด๋ฅผ ๋ด๊ณ ์์ผ๋ฉฐ, ๋ฐ์ดํฐ์ ๊ธฐ๋ฐํ ์์น ์ ๋ณด๋ฅผ ๋ฐ์ํด ์ดํ ์ ์ ํจ๊ณผ๋ฅผ ๊ทน๋ํํ ์ ์์ต๋๋ค.
- ๋ฐ์ดํฐ ์์กด์ ๋ง์คํฌ: SMA์์ ์ฌ์ฉ๋๋ ๋ง์คํฌ๋ ๊ณ ์ ๋ ๊ฒ์ด ์๋๋ผ, ์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ฐ๋ผ ๋์ ์ผ๋ก ๋ณํํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ํ์ค ๋ด์์ ์ค์ํ์ง ์์ ์ ๋ณด๋ ๋ ์ ๊ฒ, ์ค์ํ ์ ๋ณด๋ ๋ ๋ง์ด ๋ฐ์ํ ์ ์์ต๋๋ค.
4.4. SSM๊ณผ SMA์ ์ฐ๊ฒฐ
SMA๋ ๋จ์ํ ๊ธฐ์กด์ ์ ํ ์ดํ ์ ์ ๊ฐ์ ํ ๊ฒ์ ๊ทธ์น์ง ์๊ณ , SSM๊ณผ์ ์ฐ๊ฒฐ ๊ณ ๋ฆฌ๋ฅผ ์ ์ํฉ๋๋ค. ์ ์๋ค์ SSM๊ณผ ์ ํ ์ดํ ์ ์ด ์๋์ (dual) ๊ด๊ณ์ ์๋ค๋ ์ ์ ๊ฐ์กฐํฉ๋๋ค. ์ฆ, SMA๋ SSM์ ์ฑ์ง์ ํ์ฉํด ์ํ์ค ๋ฐ์ดํฐ๋ฅผ ๋ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์์ผ๋ฉฐ, ์ดํ ์ ๋ฉ์ปค๋์ฆ๊ณผ SSM์ด ๋์ผํ ๋ฐฉ์์ผ๋ก ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
์ด ๋ ๋ชจ๋ธ์ ๊ฐ๊ธฐ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ์ง๋ง, ๊ทผ๋ณธ์ ์ธ ์ํ์ ๊ตฌ์กฐ๋ ๋์ผํ๋ค๋ ์ ์์ ์๋์ฑ(duality)์ ๊ฐ์ง๋๋ค. ์ด๋ฅผ ํตํด ์ ์๋ค์ SSM๊ณผ ์ดํ ์ ๊ฐ์ ์ด๋ก ์ ์ฐ๊ฒฐ์ ํ๋ฆฝํฉ๋๋ค.
4.5. SMA์ ์ฅ์
- ํจ์จ์ฑ: SMA๋ ์ ํ ์ดํ ์ ์ ๊ตฌ์กฐํ๋ ํ๋ ฌ๋ก ๋ณํํ์ฌ, ๊ธฐ์กด์ ์ํํธ๋งฅ์ค ์ดํ ์ ๋ณด๋ค ํจ์ฌ ์ ์ ๊ณ์ฐ ์์์ ์ฌ์ฉํ๋ฉด์๋ ๋น์ทํ ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
- ๋ฐ์ดํฐ ์์กด์ ์์น ์ ๋ณด ์ฒ๋ฆฌ: SMA๋ ๋ฐ์ดํฐ์ ์์กดํ ์์น ์ ๋ณด(positional information)๋ฅผ ๋ง์คํฌ๋ก ์ฒ๋ฆฌํ์ฌ, ์ํ์ค ๋ด์์ ์ค์ํ ์์๋ค ๊ฐ์ ์ํธ์์ฉ์ ๊ฐํํฉ๋๋ค. ์ด๋ฅผ ํตํด ์์น ์ ๋ณด์ ๋ฏผ๊ฐํ ์ํ์ค ์์ ์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์ต๋๋ค.
- ์ ์ฐ์ฑ: SMA๋ ๊ธฐ์กด์ ์ดํ ์ ๋ฉ์ปค๋์ฆ๊ณผ ๋ฌ๋ฆฌ, ์ ๋ ฅ ์ํ์ค์ ๊ตฌ์กฐ์ ๋ง์ถ์ด ๋์ ์ผ๋ก ๋ง์คํฌ๋ฅผ ์์ฑํ ์ ์์ด ๋ ์ ์ฐํ ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
4.6. SMA์ ์ ์ฉ ๊ฐ๋ฅ์ฑ
SMA๋ Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ๋์ฒดํ๊ฑฐ๋ ๋ณด์ํ ์ ์์ต๋๋ค. ํนํ, ์ํ์ค ๊ธธ์ด๊ฐ ๊ธธ๊ณ , ๊ณ์ฐ ์์์ด ์ ํ๋ ์ํฉ์์ SMA๋ ๊ธฐ์กด ์ํํธ๋งฅ์ค ์ดํ ์ ๋ณด๋ค ๋ ํจ์จ์ ์ธ ์ ํ์ด ๋ ์ ์์ต๋๋ค. ์ด๋ ์ธ์ด ๋ชจ๋ธ๋ง, ์์ฐ์ด ์ฒ๋ฆฌ, ์๊ณ์ด ๋ถ์ ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ํ์ฉ๋ ์ ์์ต๋๋ค.
-
State Space Duality
๐ก SUMMARY
- SSM๊ณผ ์ฃผ์ ๋ฉ์ปค๋์ฆ์ด ์ด์ค์ฑ(Duality) ๊ด๊ณ์ ์๋ค๋ ๊ฒ์ ์ํ์ ์ผ๋ก ์ค๋ช ํฉ๋๋ค.
- ์ด ์ฅ์ ํต์ฌ์ SSM์ ์ ํ์ ์ฒ๋ฆฌ ๋ฐฉ์๊ณผ ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ๋น์ ํ์ ์ฒ๋ฆฌ ๋ฐฉ์์ด ๋ณธ์ง์ ์ผ๋ก ๋์ผํ ๊ณ์ฐ์ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ์ํํ๋ค๋ ์ ์ ๋๋ค.
- ์ด๋ฅผ ํตํด ๋ ๋ชจ๋ธ์ ์ฅ์ ์ ๊ฒฐํฉํ ์๋ก์ด ์ํคํ ์ฒ๋ฅผ ๋ง๋ค ์ ์์ผ๋ฉฐ, ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ๋ ํจ์จ์ ์ผ๋ก ๊ตฌํํ ์ ์๋ ๋ฐฉ๋ฒ์ ํ๊ตฌํฉ๋๋ค.
์ด ์ฅ์์๋ ๋ ผ๋ฌธ์ ์ค์ฌ ๊ฐ๋ ์ธ ์ํ ๊ณต๊ฐ ์ด์ค์ฑ(State Space Duality, SSD)์ ๋ณธ๊ฒฉ์ ์ผ๋ก ๋ค๋ฃน๋๋ค. SSM(Structured State Space Models)๊ณผ ์ฃผ์ ๋ฉ์ปค๋์ฆ(Attention Mechanism)์ด ์ด๋ป๊ฒ ์ด์ค์ฑ(duality) ๊ด๊ณ๋ฅผ ํตํด ์๋ก ์ฐ๊ฒฐ๋๋์ง๋ฅผ ์ค๋ช ํ๋ฉฐ, ๋ ๊ฐ๋ ์ด ์ํ์ค ๋ชจ๋ธ๋ง์์ ์ด๋ค ๋ฐฉ์์ผ๋ก ์ํธ ๋ณด์์ ์ธ ์ญํ ์ ํ ์ ์๋์ง๋ฅผ ๋ ผ์ํฉ๋๋ค.
๐ค (์ฐธ๊ณ ) ์ด์ค์ฑ(Duality)์ด๋?
์ด์ค์ฑ(Duality)์ด๋ผ๋ ๊ฐ๋ ์ ์ฌ๋ฌ ํ๋ฌธ ๋ถ์ผ์์ ๋ํ๋๋ ์ค์ํ ์ด๋ก ์ ๊ฐ๋ ์ ๋๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก, ๋ ๊ฐ๋ ์ด ์๋ก ๋ค๋ฅธ ๊ฒ์ฒ๋ผ ๋ณด์ด์ง๋ง, ์ค์ ๋์ผํ ๋ฌธ์ ๋ฅผ ์๋ก ๋ค๋ฅธ ๊ด์ ์์ ํํํ ๊ฒ์ ๋งํฉ๋๋ค. ์ฆ, ์ด๋ค ๋ฌธ์ ๋ฅผ A ๋ฐฉ์์ผ๋ก ํ ์ ์์ง๋ง, ๋์ผํ ๋ฌธ์ ๋ฅผ B ๋ฐฉ์์ผ๋ก ํ์ด๋ ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค๋ ๊ฒ์ด ์ด์ค์ฑ์ ํต์ฌ์ ๋๋ค.
์ํ์์๋ ๋ ๊ฐ๋ ์ด ์๋ก ์ํธ ๋ณด์์ ์ธ ๊ด๊ณ์ ์์ ๋, ์ด๋ฅผ ์ด์ค์ (dual) ๊ด๊ณ๋ผ๊ณ ํฉ๋๋ค. ์ด๋ฐ ๊ด๊ณ์์๋ ํ๋์ ๋ฌธ์ ๋ฅผ ๋ค๋ฅธ ํํ๋ก ์ฌ๊ตฌ์ฑํด๋ ๋ณธ์ง์ ์ผ๋ก ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ ๋ฐฉ์์ผ๋ก ์ฐ๊ฒฐ๋ฉ๋๋ค.
5.1. ์ํ ๊ณต๊ฐ ์ด์ค์ฑ(SSD)์ ๊ฐ๋
์ํ ๊ณต๊ฐ ์ด์ค์ฑ(State Space Duality, SSD)์ SSM๊ณผ ์ฃผ์ ๋ฉ์ปค๋์ฆ(Attention Mechanism) ๊ฐ์ ์๋์ ๊ด๊ณ๋ฅผ ์ค๋ช ํ๋ ๊ฐ๋ ์ ๋๋ค. ์ฆ, SSM๊ณผ ์ฃผ์ ๋ฉ์ปค๋์ฆ์ด ๊ฐ๊ฐ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ์ํ์ค ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ์ง๋ง, ๋ณธ์ง์ ์ผ๋ก๋ ๋์ผํ ๊ณ์ฐ์ ์ํํ๊ณ ์๋ค๋ ์ ์ ๊ฐ์กฐํฉ๋๋ค. ์ด ์ด๋ก ์ ์ฐ๊ฒฐ์ ํตํด SSM์ ์ฅ์ ์ ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ์ ์ฉํ๊ฑฐ๋, ๋ฐ๋๋ก ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ์ฅ์ ์ SSM์ ์ ์ฉํ ์ ์์ต๋๋ค.
์ด์ค์ฑ์ ํต์ฌ์ SSM์ ์ ํ์ ์ฒ๋ฆฌ ๋ฐฉ์๊ณผ ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ๋น์ ํ์ ์ฒ๋ฆฌ ๋ฐฉ์์ด ์๋ก ๋ณํ ๊ฐ๋ฅํ๋ฉฐ, ๋์ผํ ๋ฌธ์ ๋ฅผ ํ ์ ์๋ค๋ ์ ์ ๋๋ค.
5.2. SSM๊ณผ ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ๊ด๊ณ
์ฃผ์ ๋ฉ์ปค๋์ฆ์ Transformer์ ํต์ฌ ๊ธฐ๋ฅ์ผ๋ก, ์ ๋ ฅ ์ํ์ค์ ๊ฐ ์์๊ฐ ์๋ก ์ด๋ค ๋ฐฉ์์ผ๋ก ์ํธ์์ฉํ ์ง๋ฅผ ๊ฒฐ์ ํฉ๋๋ค. ๋ฐ๋ฉด, SSM์ ์ ๋ ฅ ์ํ์ค๋ฅผ ์ํ ๊ณต๊ฐ์ ํตํด ๋ณํํ๋ฉด์ ์์ฐจ์ ์ผ๋ก ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค.
- ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ์ํ์ค ๋ด ๋ชจ๋ ์์๊ฐ ์๋ก ์ํฅ์ ๋ฏธ์น ์ ์๋๋ก ๋น์ ํ์ ์ผ๋ก ์ํธ์์ฉํฉ๋๋ค. ์ด๋ ์ดํ ์ ํ๋ ฌ(Attention Matrix)์ ํตํด ์ด๋ฃจ์ด์ง๋ฉฐ, ์ํ์ค์ ๋ชจ๋ ๋จ์ด๋ค์ด ์๋ก์๊ฒ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํด ๊ฐ ๋จ์ด์ ์ค์๋๋ฅผ ๊ณ์ฐํฉ๋๋ค.
- SSM์ ์ํ์ค์ ์ด์ ์ํ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก ํ์ฌ ์ํ๋ฅผ ์ ํ์ ์ผ๋ก ์ ๋ฐ์ดํธํฉ๋๋ค. ์ด ๋ฐฉ์์ RNN์ฒ๋ผ ์์ฐจ์ ์ผ๋ก ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๋, ๋ ํฐ ์ํ ๊ณต๊ฐ์ ์ฌ์ฉํด ๋ ๋ณต์กํ ์ ๋ณด๋ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
5.3. ์ํ ๊ณต๊ฐ ์ด์ค์ฑ์ ์ํ์ ํํ
๋ ผ๋ฌธ์์๋ SSM๊ณผ ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ์ด์ค์ฑ์ ์ํ์ ์ผ๋ก ์ ๋ฆฌํฉ๋๋ค. ํต์ฌ์ SSM์ ์ ํ์ ํํ์ ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ๋น์ ํ์ ํํ๊ฐ ์๋ก ์๋์ ์ด๋ผ๋ ๊ฒ์ ๋๋ค.
-
SSM์ ์ ํ์ ์ฒ๋ฆฌ:
- SSM์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ ํ์ ์ธ ํ๋ ฌ ๋ณํ์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค. ์ฆ, ์ํ ๊ณต๊ฐ์ ๋ณํ๋ฅผ ๋ํ๋ด๋ ํ๋ ฌ์ด ์ ๋ ฅ ์ํ์ค์ ๊ณฑํด์ง๋ฉฐ, ์ด๋ฅผ ํตํด ์ํ๊ฐ ๊ฐฑ์ ๋ฉ๋๋ค.
- ์ด ๊ณผ์ ์ ์ ํ์ ์ด๊ธฐ ๋๋ฌธ์ ๊ณ์ฐ ๋ณต์ก๋๊ฐ ๋ฎ์ผ๋ฉฐ, ํนํ ๊ธด ์ํ์ค์์๋ ํจ์จ์ ์ผ๋ก ๋์ํฉ๋๋ค.
-
์ฃผ์ ๋ฉ์ปค๋์ฆ์ ๋น์ ํ์ ์ฒ๋ฆฌ:
- ๋ฐ๋ฉด, ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ๊ฐ ์ ๋ ฅ์ด ์๋ก ์ํธ์์ฉํ๋ ๋น์ ํ์ ์ดํ ์ ๊ณ์ฐ์ ์ํํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ํ์ค ๋ด์์ ์ค์ํ ๋จ์ด๋ค์ ๋ ๋์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ์ฌ ์ค์ํ ์ ๋ณด๋ฅผ ๊ฐ์กฐํฉ๋๋ค.
- ์ด ๊ณผ์ ์์ ์ํํธ๋งฅ์ค ์ฐ์ฐ๊ณผ ๊ฐ์ ๋น์ ํ์ ์ฐ์ฐ์ด ํฌํจ๋๋ฉฐ, ์ด๋ ๊ณ์ฐ ๋น์ฉ์ด ์๋์ ์ผ๋ก ๋์ต๋๋ค.
๋ ผ๋ฌธ์์๋ SSM์ ์ ํ ์ฒ๋ฆฌ ๋ฐฉ์๊ณผ ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ๋น์ ํ ์ฒ๋ฆฌ ๋ฐฉ์์ด ์๋ก ๋ณํ ๊ฐ๋ฅํ๋ค๋ ์ ์ ๊ฐ์กฐํฉ๋๋ค. ์ฆ, SSM์ ์ ํ์ ๊ณ์ฐ ๋ฐฉ์์ ์ ์ ํ ๋ฐฉ์์ผ๋ก ๋ณํํ๋ฉด ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ๋น์ ํ์ ์ดํ ์ ๊ณ์ฐ์ ๋ชจ๋ฐฉํ ์ ์๊ณ , ๋ฐ๋๋ก ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ๋น์ ํ์ ์ฒ๋ฆฌ๋ฅผ ์ ํ์ ๋ฐฉ์์ผ๋ก ํํํ ์ ์๋ค๋ ๊ฒ์ ๋๋ค.
5.4. SSM๊ณผ ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ๊ฒฐํฉ
์ด์ค์ฑ ํ๋ ์์ํฌ๋ฅผ ํตํด, SSM๊ณผ ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ์ํธ ๋ณด์์ ์ผ๋ก ๋์ํ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ๋ ๋ชจ๋ธ์ ์ฅ์ ์ ๊ฒฐํฉํ ์๋ก์ด ์ํคํ ์ฒ๋ฅผ ์ค๊ณํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, SSM์ ์ ํ์ ๊ณ์ฐ ํจ์จ์ฑ๊ณผ ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ์ ๋ณด ๊ฐ์กฐ ๊ธฐ๋ฅ์ ๊ฒฐํฉํ ๋ชจ๋ธ์ ๋ง๋ค๋ฉด, ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ๋ฉด์๋ ์ค์ํ ์ ๋ณด๋ฅผ ๋์น์ง ์๋ ํจ์จ์ ์ธ ๋ชจ๋ธ์ ์ค๊ณํ ์ ์์ต๋๋ค.
๋ ผ๋ฌธ์์๋ SSM์ด ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ์ ํ์ ํํ์ ๋น์ ํ์ ํํ ๋ชจ๋๋ฅผ ํํํ ์ ์์์ ์ฆ๋ช ํ๋ฉฐ, ๋ ๋ฉ์ปค๋์ฆ์ ์ด๋ก ์ ๊ต์ฐจ์ ์ ๋ํ ์ค๋ช ์ ์ ๊ณตํฉ๋๋ค.
5.5. Kernel Attention๊ณผ SSM์ ๊ด๊ณ
๋ ผ๋ฌธ์ ํนํ Kernel Attention๊ณผ SSM์ ๊ด๊ณ๋ฅผ ๋ค๋ฃน๋๋ค. Kernel Attention์ ์ํํธ๋งฅ์ค๋ฅผ ์ฌ์ฉํ์ง ์๊ณ , ์ปค๋ ํจ์(kernel functions)๋ฅผ ์ด์ฉํด ์ดํ ์ ๊ณ์ฐ์ ํจ์จ์ ์ผ๋ก ์ํํ๋ ๋ฐฉ์์ ๋๋ค. ๋ ผ๋ฌธ์์๋ ์ปค๋ ๊ธฐ๋ฐ ์ดํ ์ ์ด SSM๊ณผ ๋ณธ์ง์ ์ผ๋ก ๋์ผํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์์์ ์ํ์ ์ผ๋ก ์ ์ฆํฉ๋๋ค. ์ปค๋ ์ดํ ์ ์ SSM์ฒ๋ผ ์ฌ๊ท์ (recurrent) ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง ์ ์์ผ๋ฉฐ, ์ด ์ญ์ SSM์ ์ด์ค์ฑ ํ๋ ์์ํฌ ๋ด์์ ์ค๋ช ๋ฉ๋๋ค.
์ฆ, ์ปค๋ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ SSM์ ํ ํํ๋ก ๊ฐ์ฃผ๋ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ์ ํ์ ์ผ๋ก ๊ตฌํํ ์ ์๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ์ด๋ฅผ ํตํด ๊ธฐ์กด์ ๋ณต์กํ ์ดํ ์ ์ฐ์ฐ์ ๋ ๊ฐ๋จํ๊ฒ ์ํํ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ํ๊ตฌํฉ๋๋ค.
5.6. ์ด์ค์ฑ ํ๋ ์์ํฌ์ ์๋ฏธ
์ํ ๊ณต๊ฐ ์ด์ค์ฑ ํ๋ ์์ํฌ๋ SSM๊ณผ ์ฃผ์ ๋ฉ์ปค๋์ฆ์ด ๊ฐ์ ๋ฌธ์ ๋ฅผ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ํด๊ฒฐํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค. ์ด ์ด์ค์ฑ ๊ฐ๋ ์ ํตํด, ๋ ๋ฉ์ปค๋์ฆ์ ๊ฐ์ ์ ๊ฒฐํฉํ์ฌ ๋ ํจ์จ์ ์ธ ์ํ์ค ๋ชจ๋ธ์ ์ค๊ณํ ์ ์์ผ๋ฉฐ, Transformer์ ๊ฐ์ ๊ธฐ์กด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ์ ์ํฉ๋๋ค.
-
A Hardware-Efficient Algorithm for SSD Models
๐ก SUMMARY
- ์ด ์ฅ์ SSM์ ์ค์ฉ์ ์ผ๋ก ์ฌ์ฉํ ์ ์๋๋ก ํ๋์จ์ด ์นํ์ ์ธ ์ต์ ํ๋ฅผ ์ค๋ช ํ๋ฉฐ, ์ด๋ฅผ ํตํด SSM์ด Transformer๋ณด๋ค ๋ ํจ์จ์ ์ผ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ์ ์ํฉ๋๋ค.
- ๋ธ๋ก ๋ถํด(block decomposition) ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ SSD(Structured State Space Duality)์ ํจ์จ์ฑ์ ๊ทน๋ํํ๋ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํฉ๋๋ค.
- ์ด ์๊ณ ๋ฆฌ์ฆ์ ํนํ GPU/TPU์ ๊ฐ์ ํ๋์จ์ด ๊ฐ์๊ธฐ์์ ๋งค์ฐ ํจ๊ณผ์ ์ผ๋ก ๋์ํ๋ฉฐ, ๊ธฐ์กด์ SSM ๋ชจ๋ธ๋ณด๋ค 2๋ฐฐ์์ 8๋ฐฐ ๋ ๋น ๋ฅธ ์๋๋ฅผ ์๋ํฉ๋๋ค.
- ๋ํ, ํ ์ ๋ณ๋ ฌํ์ ์ํ์ค ๋ณ๋ ฌํ๋ฅผ ์ง์ํ์ฌ ๋๊ท๋ชจ ์ํ์ค ๋ฐ์ดํฐ๋ฅผ ๋ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋ ๊ตฌ์กฐ๋ก ์ค๊ณ๋์์ต๋๋ค.
์ด ์ฅ์์๋ ์ํ ๊ณต๊ฐ ์ด์ค์ฑ(State Space Duality, SSD) ํ๋ ์์ํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ํ๋์จ์ด ํจ์จ์ ์ธ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํฉ๋๋ค. ์ด ์๊ณ ๋ฆฌ์ฆ์ SSM์ ๋ณด๋ค ํจ์จ์ ์ผ๋ก ๊ณ์ฐํ ์ ์๋ ๋ฐฉ๋ฒ์ ์ค๋ช ํ๋ฉฐ, ํนํ ํ๋์จ์ด ๊ฐ์๊ธฐ(์: GPU, TPU)์์ ์ต์ ํ๋ ๋ฐฉ์์ผ๋ก ๋์ํ๋๋ก ์ค๊ณ๋์์ต๋๋ค.
6.1. ํ๋์จ์ด ์ต์ ํ์ ํ์์ฑ
Transformer์ ๊ฐ์ ๋๊ท๋ชจ ๋ชจ๋ธ๋ค์ ๋ณ๋ ฌ ์ฒ๋ฆฌ(parallelism)๋ฅผ ํตํด ์ฑ๋ฅ์ ๊ทน๋ํํฉ๋๋ค. ์ด๋ GPU๋ TPU ๊ฐ์ ํ๋์จ์ด ๊ฐ์๊ธฐ์์ ๋๊ท๋ชจ์ ๋ฐ์ดํฐ์ ๋ณต์กํ ์ฐ์ฐ์ ๋น ๋ฅด๊ฒ ์ฒ๋ฆฌํ๊ธฐ ์ํด ๋งค์ฐ ์ค์ํ ์์์ ๋๋ค. ํ์ง๋ง SSM์ ๊ธฐ๋ณธ์ ์ผ๋ก ์ฌ๊ท์ (recurrent) ์ฑ๊ฒฉ์ ๊ฐ์ง๊ธฐ ๋๋ฌธ์, ๋ณ๋ ฌ ์ฒ๋ฆฌ์ ์ ํฉํ์ง ์์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค.
๊ธฐ์กด SSM ๋ชจ๋ธ์ธ Mamba๋ ์ด๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ์ ํ์ ์ํ ๊ณต๊ฐ ๋ชจ๋ธ(Selective State Space Model)์ ๋์ ํ์ผ๋, ์ฌ์ ํ Transformer์ ๋นํด ํ๋์จ์ด ์นํ์ ์ด์ง ์๋ค๋ ํ๊ณ๊ฐ ์์์ต๋๋ค. ์ด๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด ์ด ๋ ผ๋ฌธ์์๋ SSD(Structured State Space Duality) ๊ธฐ๋ฐ์ผ๋ก ํ ์๋ก์ด ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํ์ฌ ๊ณ์ฐ ํจ์จ์ฑ๊ณผ ํ๋์จ์ด ์ต์ ํ๋ฅผ ๋์์ ๋ฌ์ฑํ๊ณ ์ ํฉ๋๋ค.
6.2. SSD ์๊ณ ๋ฆฌ์ฆ์ ํต์ฌ ์์ด๋์ด
์๋ก ์ ์๋ SSD ์๊ณ ๋ฆฌ์ฆ์ ๋ธ๋ก ๋ถํด(block decomposition)๋ผ๋ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ, SSM์ ํจ์จ์ ์ผ๋ก ๊ณ์ฐํ ์ ์๋ ๊ตฌ์กฐ๋ฅผ ๋ง๋ญ๋๋ค. ๊ธฐ์กด์ SSM์ ์ํ ๊ณต๊ฐ์ ์๊ฐ ์ถ์ ๋ฐ๋ผ ์ ํ์ ์ผ๋ก ์ฒ๋ฆฌํ์ง๋ง, ๋ธ๋ก ๋ถํด๋ ์ด๋ฅผ ํ๋ ฌ ๋ธ๋ก(matrix block) ๋จ์๋ก ์ชผ๊ฐ์ด ๋ณ๋ ฌ ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํ๋๋ก ๋ง๋ญ๋๋ค.
-
๋ธ๋ก ๋ถํด(Block Decomposition):
ํ๋ ฌ์ ์์ ๋ธ๋ก ๋จ์๋ก ๋๋์ด ์ฐ์ฐ์ ์ํํ๋ ๊ธฐ๋ฒ์ผ๋ก, ์ด๋ฅผ ํตํด ์ ์ฒด ๊ณ์ฐ์ ๋ณ๋ ฌํํ๊ณ ๋ ๋น ๋ฅด๊ฒ ์ํํ ์ ์์ต๋๋ค. ์ด ๋ฐฉ์์ ํนํ GPU/TPU์ ๊ฐ์ ๋ณ๋ ฌ ์ฐ์ฐ์ ํนํ๋ ํ๋์จ์ด์์ ๋งค์ฐ ํจ์จ์ ์ผ๋ก ๋์ํฉ๋๋ค.
SSD ์๊ณ ๋ฆฌ์ฆ์ ์ด ๋ธ๋ก ๋ถํด ๊ธฐ๋ฒ์ ํ์ฉํ์ฌ, SSM์ ์ ํ ์ฌ๊ท์(linear recurrence)๊ณผ ์ด์ฐจ์ (dual) ํํ์ ์ดํ ์ ์ ๊ฒฐํฉํ ์ต์ ์ ์ฐ์ฐ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ์ด๋ฅผ ํตํด ํ์ต ๋ฐ ์ถ๋ก ์์์ ๊ณ์ฐ ๋น์ฉ์ ์ค์ด๊ณ , ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ต์ ํํ ์ ์์ต๋๋ค.
6.3. ํจ์จ์ฑ ํฅ์ ์์
SSD ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ๋ฉด ๋ค์๊ณผ ๊ฐ์ ํจ์จ์ฑ ํฅ์์ด ๊ฐ๋ฅํฉ๋๋ค:
-
ํ๋ จ ๋ฐ ์ถ๋ก ์๋ ํฅ์:
๊ธฐ์กด์ Mamba ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ฌ 2๋ฐฐ์์ 8๋ฐฐ ๋ ๋น ๋ฅธ ์๋๋ก SSM ์ฐ์ฐ์ ์ํํ ์ ์์ต๋๋ค. ์ด๋ ์ฃผ๋ก ๋ธ๋ก ๋ถํด ๊ธฐ๋ฒ์ ํตํด, ์ฌ๊ท์ ๊ณ์ฐ์ ๋ณ๋ ฌํํจ์ผ๋ก์จ ์ด๋ฃจ์ด์ง๋๋ค.
-
๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ ์ต์ ํ:
SSD ์๊ณ ๋ฆฌ์ฆ์ ๋ฐ๋ถ๋ฆฌ ํ๋ ฌ(semiseparable matrices)์ ๊ตฌ์กฐ์ ํน์ฑ์ ์ด์ฉํด ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ ๋๋ค. ๊ธฐ์กด์ Transformer ๊ธฐ๋ฐ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด ์ํ์ค ๊ธธ์ด์ ๋ฐ๋ผ ์ด์ฐจ์ ์ผ๋ก ์ฆ๊ฐํ์ง๋ง, SSD ์๊ณ ๋ฆฌ์ฆ์ ์ด๋ฅผ ์ ํ์ ์ผ๋ก ์ค์ผ ์ ์์ต๋๋ค.
-
๋ ํฐ ์ํ ๊ณต๊ฐ ์ฒ๋ฆฌ ๊ฐ๋ฅ:
SSD ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ์กด SSM๋ณด๋ค 8๋ฐฐ ๋ ํฐ ์ํ ๊ณต๊ฐ(state size)์ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค. ์ด๋ ๋ ๋ณต์กํ ์ํ์ค ์์ ์ด๋ ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ๋ ๋งค์ฐ ์ ๋ฆฌํฉ๋๋ค. ๋ ํฐ ์ํ ๊ณต๊ฐ์ ์ฒ๋ฆฌํ๋ฉด์๋, ๊ณ์ฐ ์๋์ ๊ฑฐ์ ์ํฅ์ ๋ฏธ์น์ง ์์ต๋๋ค.
6.4. Transformer์์ ๋น๊ต
SSD ์๊ณ ๋ฆฌ์ฆ์ Transformer์ FlashAttention-2์ ๋น๊ตํ์ฌ ์ฑ๋ฅ์ ํ๊ฐํ์์ผ๋ฉฐ, ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ๋ ๊ฒฝ์ฐ Transformer๋ณด๋ค ํจ์ฌ ๋น ๋ฅธ ์๋๋ฅผ ๊ธฐ๋กํ์ต๋๋ค.
- ์ํ์ค ๊ธธ์ด 2K์์ SSD๋ Transformer์ ๋๋ฑํ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ์ํ์ค ๊ธธ์ด 16K์์๋ 6๋ฐฐ ๋ ๋น ๋ฅธ ์ฑ๋ฅ์ ๋ํ๋์ต๋๋ค.
- ์ด๋ SSD ์๊ณ ๋ฆฌ์ฆ์ด ๊ธฐ์กด Transformer ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ํจ์จ์ฑ์ ๋ฐ์ด๋์ ์ ์์์ ๋ณด์ฌ์ฃผ๋ฉฐ, ํนํ ๊ธด ์ํ์ค๋ฅผ ๋ค๋ฃจ๋ ์์ ์์ ์ ๋ฆฌํ๋ค๋ ์ ์ ๊ฐ์กฐํฉ๋๋ค.
6.5. Tensor Parallelism (ํ ์ ๋ณ๋ ฌํ)
SSD ์๊ณ ๋ฆฌ์ฆ์ ๋ ๋ค๋ฅธ ์ค์ํ ํน์ง์ Tensor Parallelism (ํ ์ ๋ณ๋ ฌํ)์ ์ ํฉํ๋ค๋ ๊ฒ์ ๋๋ค. ํ ์ ๋ณ๋ ฌํ๋ ๋๊ท๋ชจ ๋ชจ๋ธ์ ์ฌ๋ฌ GPU์ ๋ถ์ฐ์์ผ ๊ฐ ๋ ์ด์ด๋ฅผ ๋ณ๋ ฌ๋ก ์ฒ๋ฆฌํ๋ ๋ฐฉ์์ ๋๋ค. SSD ์๊ณ ๋ฆฌ์ฆ์ ํ ์ ๋ณ๋ ฌํ๊ฐ ๊ฐ๋ฅํ ๊ตฌ์กฐ๋ก ์ค๊ณ๋์ด, ๋๊ท๋ชจ ์ํ์ค ์์ ์ ๋์ฑ ๋น ๋ฅด๊ณ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
- SSD๋ ๋๊ธฐํ ์ง์ ์ ์ ๋ฐ์ผ๋ก ์ค์ฌ, ๊ฐ ๋ ์ด์ด ๊ฐ์ ๋ฐ์ดํฐ ์ ์ก ๋ฐ ๋ณ๋ ฌ ์ฐ์ฐ์ ๋ ํจ์จ์ ์ผ๋ก ์ํํ ์ ์๊ฒ ํฉ๋๋ค.
6.6. Sequence Parallelism (์ํ์ค ๋ณ๋ ฌํ)
๋ํ, SSD ์๊ณ ๋ฆฌ์ฆ์ Sequence Parallelism (์ํ์ค ๋ณ๋ ฌํ) ๋ฐฉ์๋ ์ง์ํฉ๋๋ค. ์ํ์ค ๋ณ๋ ฌํ๋ ๋งค์ฐ ๊ธด ์ํ์ค๋ฅผ ์ฌ๋ฌ ๋๋ฐ์ด์ค์ ๊ฑธ์ณ ๋ถ์ฐํ์ฌ ์ฒ๋ฆฌํ๋ ๋ฐฉ์์ผ๋ก, ์ํ์ค์ ๊ธธ์ด๊ฐ ๋งค์ฐ ๊ธธ์ด ํ ๋๋ฐ์ด์ค์ ๋ฉ๋ชจ๋ฆฌ๋ก ์ฒ๋ฆฌํ๊ธฐ ์ด๋ ค์ด ๊ฒฝ์ฐ์ ์ ์ฉํฉ๋๋ค.
- SSD ์๊ณ ๋ฆฌ์ฆ์ ์ํ์ค ๋ณ๋ ฌํ๊ฐ ๊ฐ๋ฅํ ๊ตฌ์กฐ๋ก ์ค๊ณ๋์ด, ๋งค์ฐ ๊ธด ์ํ์ค ์์ ์์๋ ํจ์จ์ ์ธ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ์ด ๊ณผ์ ์์ ์ํ ์ํ(recurrent state)๊ฐ ์ฌ๋ฌ ๋๋ฐ์ด์ค ๊ฐ์ ์ ๋ฌ๋ฉ๋๋ค.
6.7. ๋ณ๋ ๊ธธ์ด ์ํ์ค ์ฒ๋ฆฌ
Transformer๋ ๋ณ๋ ๊ธธ์ด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ๋ ํจ๋ฉ(padding)์ ์ฌ์ฉํด์ผ ํ๋ฉฐ, ์ด๋ ํจ์จ์ฑ์ ์ ํ์ํต๋๋ค. ๋ฐ๋ฉด SSD ์๊ณ ๋ฆฌ์ฆ์ ํจ๋ฉ์ด ํ์ ์๊ณ , ๋ณ๋ ๊ธธ์ด์ ์ํ์ค๋ฅผ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ๋ค์ํ ๊ธธ์ด์ ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ๋ ๋ ๋์ ํจ์จ์ฑ์ ๋ฐํํ ์ ์์ต๋๋ค.
-
The Mamba-2 Architecture
๐ก SUMMARY
- Mamba-2๊ฐ ๊ธฐ์กด Mamba ๋ชจ๋ธ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ , ๋ ํจ์จ์ ์ด๊ณ ํ๋์จ์ด ์นํ์ ์ธ ๊ตฌ์กฐ๋ก ์ค๊ณ๋์์์ ์ค๋ช ํฉ๋๋ค.
- Mamba-2๋ ๋ฉํฐํค๋ ๊ตฌ์กฐ, ํ ์ ๋ณ๋ ฌํ, ์ํ์ค ๋ณ๋ ฌํ์ ๊ฐ์ ์ต์ ํ๋ ๋ณ๋ ฌ ์ฒ๋ฆฌ ๊ธฐ๋ฒ์ ๋์ ํ์ฌ Transformer์ ๋น๊ตํ์ ๋๋ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.
- ํนํ Chinchilla Scaling Laws์ ๋ฐ๋ผ ํ์ต๋ Mamba-2๋ ๋ ์ ์ ์์์ผ๋ก๋ ๋ ๋์ ์ฑ๋ฅ์ ๊ธฐ๋กํ์ผ๋ฉฐ, ๊ธด ์ํ์ค ๋ฐ์ดํฐ ์ฒ๋ฆฌ์์ ๋ฐ์ด๋ ํจ์จ์ฑ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
์ด ์ฅ์์๋ ์๋ก์ด Mamba-2 ์ํคํ ์ฒ๋ฅผ ์ค๋ช ํฉ๋๋ค. Mamba-2๋ ๋ ผ๋ฌธ์์ ์ ์๋ ์ํ ๊ณต๊ฐ ์ด์ค์ฑ(State Space Duality, SSD) ํ๋ ์์ํฌ์ ํ๋์จ์ด ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ ์ค๊ณ๋ ์ต์ ๊ตฌ์กฐ์ ๋๋ค. ์ด๋ ๊ธฐ์กด์ Mamba ๋ชจ๋ธ์ ๊ฐ์ ํ ๊ฒ์ผ๋ก, ํนํ ๋ณ๋ ฌ ์ฒ๋ฆฌ(parallelism)์ ํจ์จ์ฑ ์ธก๋ฉด์์ ๋ ๋์ ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
Mamba-2๋ ํนํ Transformer์ ๋น๊ตํ์ ๋๋ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ๊ธด ์ํ์ค ๋ฐ์ดํฐ์ ๋๊ท๋ชจ ํ์ต ํ๊ฒฝ์์ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋ ๋๋ค.
7.1. Mamba์ Mamba-2์ ์ฐจ์ด
๊ธฐ์กด์ Mamba๋ SSM ๊ธฐ๋ฐ์ผ๋ก ์ค๊ณ๋ ๋ชจ๋ธ๋ก, Transformer์ ๊ฒฝ์ํ ์ ์๋ ์ฑ๋ฅ์ ๋ณด์์ผ๋, ํ๋์จ์ด ์ต์ ํ์ ํจ์จ์ฑ ์ธก๋ฉด์์ ์ฌ์ ํ ๋ถ์กฑํ ์ ์ด ์์์ต๋๋ค. ํนํ, ๋ณ๋ ฌ ์ฒ๋ฆฌ ๋ฐ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ์์ ๊ฐ์ ํ ์ฌ์ง๊ฐ ์์๊ณ , ์ด๋ก ์ธํด ๊ธด ์ํ์ค ์ฒ๋ฆฌ์์๋ Transformer๋ณด๋ค ์ฑ๋ฅ์ด ๋ฎ์ ๊ฒฝ์ฐ๊ฐ ๋ฐ์ํ์ต๋๋ค.
Mamba-2๋ ์ด๋ฌํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด, SSD ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐ์ผ๋ก ์ค๊ณ๋์ด ํ๋์จ์ด ๊ฐ์๊ธฐ์์ ๋์ฑ ํจ์จ์ ์ผ๋ก ๋์ํ๋ฉฐ, ํนํ ๋๊ท๋ชจ ๋ณ๋ ฌ ์ฒ๋ฆฌ์ ์ต์ ํ๋์์ต๋๋ค.
7.2. ๋ฉํฐํค๋ ๊ตฌ์กฐ์ ์ ์ฉ
Mamba-2๋ Transformer์ ๋ฉํฐํค๋ ์ดํ ์ (Multi-Head Attention, MHA) ๊ตฌ์กฐ๋ฅผ SSM์ ๋์ ํ์ฌ, ๋ ๋์ ๋ณ๋ ฌ ์ฒ๋ฆฌ ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค. ์ด๋ Mamba์ ์ ํ์ ์ํ ๊ณต๊ฐ ๋ชจ๋ธ(Selective State Space Model)์ด ์ฌ๋ฌ ์ ๋ ฅ์ ๋์์ ์ฒ๋ฆฌํ ์ ์๋๋ก ํ์ฅํ ๊ตฌ์กฐ์ ๋๋ค. Mamba-2์ ์ค๊ณ๋ Transformer์ ๋ฉํฐ๊ฐ ์ดํ ์ (Multi-Value Attention, MVA)๊ณผ ์ ์ฌํ์ง๋ง, SSM์ ์ด์ ์ ํ์ฉํ์ฌ ๋ ํจ์จ์ ์ธ ๋ฐฉ์์ผ๋ก ๋์ํฉ๋๋ค.
7.3. ํ ์ ๋ณ๋ ฌํ(Tensor Parallelism)์ ์ ํฉํ ๊ตฌ์กฐ
Mamba-2๋ ํ ์ ๋ณ๋ ฌํ(Tensor Parallelism)๋ฅผ ์ง์ํ๋ ๊ตฌ์กฐ๋ก ์ค๊ณ๋์์ต๋๋ค. ํ ์ ๋ณ๋ ฌํ๋ ๋๊ท๋ชจ ๋ชจ๋ธ์์ ๊ฐ ๋ ์ด์ด๋ฅผ ์ฌ๋ฌ GPU ๋๋ TPU์ ๋ถ์ฐํ์ฌ ์ฒ๋ฆฌํ๋ ๋ฐฉ์์ผ๋ก, Mamba-2๋ ์ด๋ฅผ ์ ์ฉํด ๋๊ท๋ชจ ํ์ต ํ๊ฒฝ์์ ๋ ํจ์จ์ ์ผ๋ก ๋์ํ ์ ์์ต๋๋ค.
๊ธฐ์กด ๋ชจ๋ธ์์๋ ๊ฐ ๋ ์ด์ด ๊ฐ์ ๋๊ธฐํ ์ง์ ์ด ๋ณ๋ชฉ ํ์์ ์ผ์ผ์ผ ๋ณ๋ ฌ ์ฒ๋ฆฌ ํจ์จ์ฑ์ ์ ํ์ํฌ ์ ์์์ง๋ง, Mamba-2๋ ๋๊ธฐํ ์ง์ ์ ์ ๋ฐ์ผ๋ก ์ค์ฌ, ๊ฐ ๋ ์ด์ด์ ์ฐ์ฐ์ ๋ ๋น ๋ฅด๊ฒ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ๋์์ ์ฒ๋ฆฌํ๋ฉด์๋ ํ์ต ์๋๋ฅผ ๋์ผ ์ ์์ต๋๋ค.
7.4. ๋ณ๋ ฌ ์ฒ๋ฆฌ์์์ ์ต์ ํ
Mamba-2๋ ๋ณ๋ ฌ ์ฒ๋ฆฌ์ ์ ํฉํ๋๋ก ์ค๊ณ๋์์ผ๋ฉฐ, ํนํ ํ ์ ๋ณ๋ ฌํ์ ์ํ์ค ๋ณ๋ ฌํ(Sequence Parallelism)๋ฅผ ๋ชจ๋ ์ง์ํฉ๋๋ค. ์ด๋ ๋งค์ฐ ๊ธด ์ํ์ค ์์ ์์ ๊ฐ ์ํ์ค๋ฅผ ์ฌ๋ฌ ๋๋ฐ์ด์ค์ ๋ถ์ฐ์์ผ ๋ณ๋ ฌ ์ฒ๋ฆฌํ ์ ์๊ฒ ํ๋ฉฐ, ๊ฐ GPU ๊ฐ์ ์ฌ๊ท ์ํ(recurrent state)๋ฅผ ํจ์จ์ ์ผ๋ก ์ ์กํ ์ ์์ต๋๋ค.
๋ํ, Mamba-2๋ Transformer์ ๋ฌ๋ฆฌ ์ํ์ค ๊ธธ์ด์ ๋ฐ๋ผ ํจ๋ฉ(padding)์ ์ฌ์ฉํ ํ์๊ฐ ์์ต๋๋ค. ๋์ , ๊ฐ ์ํ์ค์ ๊ธธ์ด์ ๋ง์ถ ํจ์จ์ ์ธ ์ฐ์ฐ์ ์ํํ ์ ์๊ธฐ ๋๋ฌธ์, ๋ณ๋ ๊ธธ์ด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ๋ ๋์ฑ ๋์ ํจ์จ์ฑ์ ๋ณด์ ๋๋ค.
7.5. Mamba-2์ ์ฑ๋ฅ ํ๊ฐ: Chinchilla Scaling Laws
Mamba-2๋ ํ์ต ๋ฐ ํ๊ฐ ๊ณผ์ ์์ Chinchilla Scaling Laws์ ๋ฐ๋ผ ์ฑ๋ฅ์ ๊ฒ์ฆํ์์ต๋๋ค. Chinchilla Scaling Laws๋ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ์์ ํ๋ จ ๋ฐ์ดํฐ ํฌ๊ธฐ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ์ค๋ช ํ๋ ๋ฒ์น์ผ๋ก, ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก Mamba-2์ ์ฑ๋ฅ์ ๋ถ์ํ์์ต๋๋ค.
Mamba-2๋ Transformer++ ๋ฐ ๊ธฐ์กด Mamba ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ ๋, ํผํ๋ ์ํฐ(perplexity)์ ํ์ต ์๊ฐ(wall-clock time) ๋ชจ๋์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ, Mamba-2๋ ๋ ์ ์ ๊ณ์ฐ ๋น์ฉ์ผ๋ก ๋์ผํ ๋๋ ๋ ๋์ ์ฑ๋ฅ์ ๊ธฐ๋กํ์ผ๋ฉฐ, ์ด๋ Mamba-2์ ํจ์จ์ฑ๊ณผ ์ต์ ํ๋ ๊ตฌ์กฐ๋ฅผ ์ ์ฆํ๋ ๊ฒฐ๊ณผ์ ๋๋ค.
7.6. ์คํ ๊ฒฐ๊ณผ
Mamba-2๋ ๋ค์ํ ํฌ๊ธฐ์ ๋ชจ๋ธ๋ก ์คํ์ ์งํํ์์ผ๋ฉฐ, ์ฌ๋ฌ ํฌ๊ธฐ์์ Mamba-2๊ฐ Transformer ๊ธฐ๋ฐ์ ๋ชจ๋ธ๊ณผ ๋น๊ตํด ๋ ๋์ ์ฑ๋ฅ์ ๊ธฐ๋กํ์ต๋๋ค. ํนํ, ๋ค์๊ณผ ๊ฐ์ ์คํ ๊ฒฐ๊ณผ๊ฐ ์ฃผ๋ชฉํ ๋งํฉ๋๋ค:
- Mamba-2 (2.7B ํ๋ผ๋ฏธํฐ)๋ 300B ํ ํฐ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ จ๋์์ผ๋ฉฐ, Pythia-2.8B ๋ฐ Pythia-6.9B์ ๊ฐ์ Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
- Mamba-2๋ Mamba์ Transformer๋ณด๋ค ๋ ์ ์ ํ์ต ์๊ฐ์ ํ์๋ก ํ์์ผ๋ฉฐ, ๋ ์ ์ ์์์ผ๋ก๋ ๋น์ทํ๊ฑฐ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ์ต๋๋ค.
7.7. Mamba-2์ ์ค๊ณ ์์น
Mamba-2๋ SSM๊ณผ ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ์ด์ค์ฑ(Duality)์ ์ต๋ํ ํ์ฉํ์ฌ, ๋ ํจ์จ์ ์ธ ์ํ์ค ๋ชจ๋ธ์ ์ค๊ณํ๋ ๋ฐ ์ด์ ์ ๋ง์ถ์์ต๋๋ค. ์ด๋ฅผ ํตํด, SSM์ ์ฅ์ (์: ๊ธด ์ํ์ค์์์ ํจ์จ์ฑ)๊ณผ ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ์ฅ์ (์: ์ค์ํ ์ ๋ณด ๊ฐ์กฐ)์ ๊ฒฐํฉํ์ฌ ์๋ก์ด ๋ฐฉ์์ผ๋ก ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ์ ์์์ต๋๋ค.
- SSM์ ๋ณ๋ ฌํ ์ง์: Mamba-2๋ ๊ธฐ์กด SSM๋ณด๋ค ๋ ํฐ ๋ณ๋ ฌํ ์ฑ๋ฅ์ ์ ๊ณตํ๋ฉฐ, ์ด๋ฅผ ํตํด ํ๋์จ์ด ๊ฐ์๊ธฐ์์ ๋ ๋์ ํจ์จ์ฑ์ ๋ฐํํฉ๋๋ค.
- Transformer์ ์ ์ฐ์ฑ ๋์ : Mamba-2๋ Transformer์์ ์ฌ์ฉ๋๋ ์ฌ๋ฌ ๋ณ๋ ฌํ ๋ฐ ์ต์ ํ ๊ธฐ๋ฒ์ ๋์ ํ์ฌ, ๋๊ท๋ชจ ํ์ต ํ๊ฒฝ์์ ๋ ์ ์ฐํ๊ฒ ๋์ํฉ๋๋ค.
-
Systems Optimization for SSMs
๐ก SUMMARY
- ํ ์ ๋ณ๋ ฌํ(Tensor Parallelism)์ ์ํ์ค ๋ณ๋ ฌํ(Sequence Parallelism)๋ฅผ SSM์ ์ ์ฉํ์ฌ, ๋๊ท๋ชจ ๋ชจ๋ธ์ ๋ ํจ์จ์ ์ผ๋ก ํ์ตํ๊ณ ์ถ๋ก ํ ์ ์๋๋ก ์ต์ ํํ๋ ๋ฐฉ๋ฒ์ ์ค๋ช ํฉ๋๋ค.
- ์ด ์ต์ ํ ๊ธฐ๋ฒ์ ํตํด Mamba-2๋ Transformer์ ๋น๊ตํ์ฌ ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ๋ ๋ ๋์ ํจ์จ์ฑ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๋ค์ํ ๊ธธ์ด์ ์ํ์ค๋ฅผ ํจ๋ฉ ์์ด ์ฒ๋ฆฌํ ์ ์์ด ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ๊ณผ ์ฒ๋ฆฌ ์๋ ํฅ์์ ๋์์ ๋ฌ์ฑํ ์ ์์ต๋๋ค.
์ด ์ฅ์์๋ Structured State Space Models (SSMs)์ ๋ณด๋ค ํจ์จ์ ์ผ๋ก ๊ตฌํํ๊ธฐ ์ํด ์์คํ ์ต์ ํ ๊ธฐ๋ฒ์ ์ค๋ช ํฉ๋๋ค. ํนํ, Transformer์์ ์ฌ์ฉ๋ ๋ค์ํ ์์คํ ์ต์ ํ ๊ธฐ๋ฒ์ SSM์ ์ ์ฉํ์ฌ, SSM์ ๋๊ท๋ชจ ๋ชจ๋ธ์์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ๊ณ ์ถ๋ก ํ ์ ์๋๋ก ๋ง๋๋ ๋ฐฉ๋ฒ์ ๋ํด ๋ ผ์ํฉ๋๋ค.
8.1. Transformer ์ต์ ํ ๊ธฐ๋ฒ์ SSM์ ์ ์ฉ
Transformer ๋ชจ๋ธ์ ๋๊ท๋ชจ ํ์ต์์ ํ๋์จ์ด ์ต์ ํ๋ฅผ ์ํ ๋ค์ํ ๊ธฐ๋ฒ์ ์ฌ์ฉํฉ๋๋ค. ํนํ, GPU์ TPU ๊ฐ์ ํ๋์จ์ด ๊ฐ์๊ธฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ ์ ์๋๋ก ์ค๊ณ๋ ๋ณ๋ ฌํ ๊ธฐ์ ์ด ๊ทธ ํต์ฌ์ ๋๋ค. ์ ์๋ค์ ์ด๋ฌํ ์ต์ ํ ๊ธฐ๋ฒ์ SSM์ ์ ์ฉํ์ฌ Mamba-2์ ๊ฐ์ ๋ชจ๋ธ์ด ๋๊ท๋ชจ ๋ฐ์ดํฐ์์ ํจ์จ์ ์ผ๋ก ํ์ต๋ ์ ์๋๋ก ์ค๊ณํฉ๋๋ค.
์ฃผ์ ์ต์ ํ ๊ธฐ๋ฒ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- Tensor Parallelism (ํ ์ ๋ณ๋ ฌํ): ๋ชจ๋ธ์ ์ฌ๋ฌ GPU์ ๋ถ์ฐ์์ผ ๊ฐ GPU๊ฐ ๋ชจ๋ธ์ ์ผ๋ถ๋ฅผ ์ฒ๋ฆฌํ๊ฒ ํฉ๋๋ค. ์ด๋ ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ๋งค์ฐ ํด ๋ ์ ์ฉํ๋ฉฐ, ๊ฐ GPU์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ต์ ํํ ์ ์์ต๋๋ค.
- Sequence Parallelism (์ํ์ค ๋ณ๋ ฌํ): ๋งค์ฐ ๊ธด ์ํ์ค๋ฅผ ์ฌ๋ฌ ๋๋ฐ์ด์ค์ ๊ฑธ์ณ ๋ถ์ฐํ์ฌ ์ฒ๋ฆฌํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ์ํ์ค๊ฐ ๊ธด ๊ฒฝ์ฐ, ๋จ์ผ GPU์ ๋ฉ๋ชจ๋ฆฌ๋ก ์ฒ๋ฆฌํ ์ ์๋ ์ํฉ์ด ๋ฐ์ํ ์ ์๋๋ฐ, ์ํ์ค๋ฅผ ์ฌ๋ฌ ๋ถ๋ถ์ผ๋ก ๋๋ ๋ณ๋ ฌ๋ก ์ฒ๋ฆฌํจ์ผ๋ก์จ ์ด๋ฅผ ํด๊ฒฐํ ์ ์์ต๋๋ค.
8.2. Tensor Parallelism ์ ์ฉ
Tensor Parallelism์ ๋ชจ๋ธ์ ๊ฐ ๋ ์ด์ด๋ฅผ ์ฌ๋ฌ GPU์ ๋ถ์ฐ์ํค๋ ๋ชจ๋ธ ๋ณ๋ ฌํ ๊ธฐ๋ฒ์ผ๋ก, ๋๊ท๋ชจ ๋ชจ๋ธ์์ ๋งค์ฐ ํจ๊ณผ์ ์ ๋๋ค. ์ด ๊ธฐ๋ฒ์ ์ ์ฉํ๋ฉด, ๊ฐ GPU๊ฐ ๋ชจ๋ธ์ ์๋ก ๋ค๋ฅธ ๋ถ๋ถ์ ์ฒ๋ฆฌํ๊ฒ ๋์ด ๊ณ์ฐ ์์์ ๋ ํจ์จ์ ์ผ๋ก ์ฌ์ฉํ ์ ์์ต๋๋ค.
Mamba-2๋ ํ ์ ๋ณ๋ ฌํ์ ์ ํฉํ๊ฒ ์ค๊ณ๋์์ผ๋ฉฐ, ๋ ์ด์ด ๊ฐ ๋๊ธฐํ ํฌ์ธํธ๋ฅผ ์ต์ํํ์ฌ ๊ฐ GPU ๊ฐ์ ๋๊ธฐํ ๋น์ฉ์ ์ค์์ต๋๋ค. ์ด๋ฅผ ํตํด ๋๊ท๋ชจ ๋ชจ๋ธ์ ๋ ๋น ๋ฅด๊ฒ ํ์ตํ ์ ์์ผ๋ฉฐ, ๊ฐ GPU์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋๋ ์ต์ ํํ ์ ์์ต๋๋ค.
8.3. Sequence Parallelism ์ ์ฉ
Sequence Parallelism์ ๋งค์ฐ ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ๋ ์ ์ฉํ ๊ธฐ๋ฒ์ ๋๋ค. ์ํ์ค ๋ณ๋ ฌํ๋ ๊ธด ์ํ์ค๋ฅผ ์ฌ๋ฌ ๋ถ๋ถ์ผ๋ก ๋๋ ๊ฐ๊ฐ์ ๋ถ๋ถ์ ์ฌ๋ฌ GPU์ ํ ๋นํ์ฌ ์ฒ๋ฆฌํฉ๋๋ค. ์ด ๊ณผ์ ์์ ๊ฐ GPU๋ ์ํ์ค์ ์ผ๋ถ๋ถ๋ง ์ฒ๋ฆฌํ๋ฏ๋ก, ๊ฐ GPU์ ๋ฉ๋ชจ๋ฆฌ ๋ถ๋ด์ ์ค์ผ ์ ์์ต๋๋ค.
Mamba-2๋ ์ฌ๊ท์ ์ํ(recurrent state)๋ฅผ ์ฌ๋ฌ ๋๋ฐ์ด์ค ๊ฐ์ ์ ๋ฌํ๋ ๋ฐฉ์์ผ๋ก ์ํ์ค ๋ณ๋ ฌํ๋ฅผ ์ ์ฉํฉ๋๋ค. ์ด๋ฅผ ํตํด ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ๋ ๊ฐ ๋๋ฐ์ด์ค๊ฐ ๋ณ๋ ฌ๋ก ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ ์ ์์ด ๋ฉ๋ชจ๋ฆฌ ๊ด๋ฆฌ๊ฐ ์์ํด์ง๊ณ , ์ฒ๋ฆฌ ์๋๋ ํฅ์๋ฉ๋๋ค.
8.4. ๋ณ๋ ๊ธธ์ด ์ํ์ค ์ฒ๋ฆฌ
Transformer๋ ๋ค์ํ ๊ธธ์ด์ ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ๋ ํจ๋ฉ(padding)์ ์ฌ์ฉํด์ผ ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์ฌ๋ฌ ๋ฌธ์ฅ์ ๊ธธ์ด๊ฐ ๋ค๋ฅผ ๋, ๋ชจ๋ ๋ฌธ์ฅ์ ๊ธธ์ด๋ฅผ ๋์ผํ๊ฒ ๋ง์ถ๊ธฐ ์ํด ์งง์ ๋ฌธ์ฅ์ ํจ๋ฉ์ ์ถ๊ฐํด์ผ ํฉ๋๋ค. ํ์ง๋ง ์ด๋ ๋นํจ์จ์ ์ด๋ฉฐ, ๊ณ์ฐ๋์ ๋ถํ์ํ๊ฒ ์ฆ๊ฐ์ํต๋๋ค.
๋ฐ๋ฉด, Mamba-2๋ ํจ๋ฉ์ ํ์๋ก ํ์ง ์์ต๋๋ค. ์ ํ์ ์ํ ๊ณต๊ฐ ๋ชจ๋ธ(Selective SSM)์ ํน์ฑ์, ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ค์ ๊ธธ์ด์ ๋ง์ถฐ ์ฐ์ฐ์ด ์ด๋ฃจ์ด์ง๋ฏ๋ก, ๋ค์ํ ๊ธธ์ด์ ์ํ์ค๋ฅผ ๋ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ๊ณผ ์ฒ๋ฆฌ ์๋ ๋ชจ๋์์ ๊ฐ์ ์ด ์ด๋ฃจ์ด์ง๋๋ค.
8.5. SSM ์ต์ ํ ๊ธฐ๋ฒ์ ์ฅ์
Transformer์์ ์ฌ์ฉ๋๋ ์ต์ ํ ๊ธฐ๋ฒ์ SSM์ ์ ์ฉํจ์ผ๋ก์จ ๋ค์๊ณผ ๊ฐ์ ์ฅ์ ์ ์ป์ ์ ์์ต๋๋ค:
- ๊ณ์ฐ ๋น์ฉ ์ ๊ฐ: Tensor Parallelism๊ณผ Sequence Parallelism์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ๊ฐ ๋ถ๋ถ์ ๋ถ์ฐ์์ผ ์ฒ๋ฆฌํ ์ ์์ผ๋ฏ๋ก, ๋ณ๋ชฉ ํ์์ ์ค์ด๊ณ ์ ์ฒด์ ์ธ ๊ณ์ฐ ๋น์ฉ์ ์ ๊ฐํ ์ ์์ต๋๋ค.
- ๋ฉ๋ชจ๋ฆฌ ์ต์ ํ: ๋งค์ฐ ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ๋๋ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ํจ์จ์ ์ผ๋ก ๊ด๋ฆฌํ ์ ์์ด, ๋ ํฐ ์ํ์ค๋ ๋ ๋ณต์กํ ๋ชจ๋ธ๋ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
- ๋ณ๋ ๊ธธ์ด ์ํ์ค ์ฒ๋ฆฌ์์ ํจ์จ์ฑ ํฅ์: ํจ๋ฉ์ด ํ์ ์๋ ๊ตฌ์กฐ๋ก ์ค๊ณ๋์ด, ๋ณ๋ ๊ธธ์ด์ ์ํ์ค๋ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์์ต๋๋ค. ์ด๋ ํ์ต ์๊ฐ๊ณผ ๊ณ์ฐ ์์์ ์ ์ฝ์ผ๋ก ์ด์ด์ง๋๋ค.
8.6. ์์คํ ์ต์ ํ์ ์ค์ฉ์ฑ
์ด๋ฌํ ์์คํ ์ต์ ํ ๊ธฐ๋ฒ์ ์ฌ์ฉํ๋ฉด, Mamba-2์ ๊ฐ์ SSM ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ด Transformer์ ๊ฐ์ ๋๊ท๋ชจ ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ ๋๋ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ณด์ผ ์ ์์ต๋๋ค. ํนํ, ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ๋ ์์ ์ด๋ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ์ด ์ค์ํ ํ๊ฒฝ์์ ๋ ๋์ ํจ์จ์ฑ์ ๋ฐํํฉ๋๋ค.
๋ํ, ํ ์ ๋ณ๋ ฌํ์ ์ํ์ค ๋ณ๋ ฌํ๋ฅผ ์ฌ์ฉํ์ฌ GPU/TPU์ ๊ณ์ฐ ์์์ ์ต๋ํ ํ์ฉํ ์ ์๊ธฐ ๋๋ฌธ์, ๋ชจ๋ธ์ ํ์ฅ์ฑ์ด ํฅ์๋ฉ๋๋ค. ์ด๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ด๋ ์๊ณ์ด ๋ฐ์ดํฐ ๋ถ์ ๋ฑ์ ์์ ์์ ๋งค์ฐ ์ค์ํ ์์์ ๋๋ค.
-
Empirical Validation
๐ก SUMMARY
- Mamba-2์ ์ค์ ์ฑ๋ฅ ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ์ ์ํฉ๋๋ค. Mamba-2๋ ์ธ์ด ๋ชจ๋ธ๋ง, ํ๋ จ ํจ์จ์ฑ, ๊ทธ๋ฆฌ๊ณ ๋ณต์กํ ๋ค์ค ์ฟผ๋ฆฌ ์ฐ์ ์์ ์์ Transformer๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ๋ ์ ์ ์์์ผ๋ก ๋ ๋์ ์ฑ๋ฅ์ ๊ธฐ๋กํ์ต๋๋ค.
- ํนํ, ๊ธด ์ํ์ค ์ฒ๋ฆฌ์์ Mamba-2๋ ๊ณ์ฐ ํจ์จ์ฑ๊ณผ ์ฒ๋ฆฌ ์๋ ์ธก๋ฉด์์ ๋งค์ฐ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋์ต๋๋ค.
์ด ์ฅ์์๋ Mamba-2 ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ค์ ๋ก ํ๊ฐํ ์คํ ๊ฒฐ๊ณผ๋ฅผ ์ ์ํฉ๋๋ค. Mamba-2๋ ๋ค์ํ ์ธ์ด ๋ชจ๋ธ๋ง ์์ ์์ Transformer์ ๊ฒฝ์ํ ์ ์๋ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ํ๋ จ ํจ์จ์ฑ๊ณผ ํน์ ์์ ์ฑ๋ฅ์์ ๋ฐ์ด๋ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. ํนํ, ๋ค์ค ์ฟผ๋ฆฌ ์ฐ์ ์์ (Associative Recall Task)๊ณผ ๊ฐ์ ๋ณต์กํ ์์ ์์๋ ํ์ํ ์ฑ๋ฅ์ ์ ์ฆํ์ต๋๋ค. ์ฃผ์ ๋ด์ฉ์ ํ๋์ฉ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
9.1. ์ธ์ด ๋ชจ๋ธ๋ง ์์ ์์์ ์ฑ๋ฅ
Mamba-2๋ ์ธ์ด ๋ชจ๋ธ๋ง ์์ ์์ Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ๊ณผ ๋น๊ตํด๋ ๋งค์ฐ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๊ธฐ๋กํ์ต๋๋ค. ์ด ์ฅ์์๋ Mamba-2์ ํ์ต ํจ์จ์ฑ๊ณผ ๋ค์ด์คํธ๋ฆผ ์์ ์์์ ์ฑ๋ฅ์ ํ๊ฐํ ์คํ ๊ฒฐ๊ณผ๊ฐ ์ ์๋ฉ๋๋ค.
- ์ธ์ด ๋ชจ๋ธ๋ง ํ๊ฐ: Mamba-2๋ Pile ๋ฐ์ดํฐ์ ์ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ํ ํฌ๊ธฐ์ ๋ชจ๋ธ์์ ํ๋ จ๋์์ผ๋ฉฐ, Transformer์ ๋น๊ตํ์ฌ ๋ ๋์ ํผํ๋ ์ํฐ(perplexity)๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. ํผํ๋ ์ํฐ๋ ์ธ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ ์ค์ํ ์งํ๋ก, ๊ฐ์ด ๋ฎ์์๋ก ๋ชจ๋ธ์ด ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ๋ ์ ์์ธกํ๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
- ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋น๊ต: Mamba-2๋ ๋ค์ํ ํฌ๊ธฐ(์: 2.7B ํ๋ผ๋ฏธํฐ)์์ Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ์ธ Pythia์ ๋น๊ตํ์ ๋๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ, Pythia-2.8B ๋ฐ Pythia-6.9B์ ๋น๊ตํ์ ๋, Mamba-2๋ ๊ฐ์ ๋ฐ์ดํฐ๋ก ํ๋ จ๋์์์๋ ๋ถ๊ตฌํ๊ณ ๋ ์ ์ ํ๋ผ๋ฏธํฐ๋ก๋ ์ฐ์ํ ์ฑ๋ฅ์ ๊ธฐ๋กํ์ต๋๋ค.
9.2. ํ๋ จ ํจ์จ์ฑ
Mamba-2๋ ํ์ต ํจ์จ์ฑ ์ธก๋ฉด์์ Transformer๋ณด๋ค ํจ์ฌ ์ ์ ์๊ฐ์ ํ์๋ก ํ์ต๋๋ค. ์ด๋ SSD ์๊ณ ๋ฆฌ์ฆ๊ณผ ๋ณ๋ ฌํ ์ต์ ํ ๋๋ถ์ ์ด๋ฃจ์ด์ง ๊ฒฐ๊ณผ์ ๋๋ค.
- ํ๋ จ ์๋: Mamba-2๋ ๋์ผํ ๊ณ์ฐ ์์์ ์ฌ์ฉํ์ ๋ Transformer๋ณด๋ค ๋ ๋น ๋ฅด๊ฒ ํ๋ จ๋์์ผ๋ฉฐ, ํนํ ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ๋ ์๊ฐ ์ ์ฝ ํจ๊ณผ๊ฐ ์ปธ์ต๋๋ค. ์ด๋ Mamba-2๊ฐ ๋ ํจ์จ์ ์ธ ์ํ ๊ณต๊ฐ ๋ชจ๋ธ๋ง์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
9.3. ๋ค์ค ์ฟผ๋ฆฌ ์ฐ์ ์์ (Associative Recall Task)
Mamba-2๋ ํนํ ๋ค์ค ์ฟผ๋ฆฌ ์ฐ์ ์์ (Associative Recall Task)์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ด ์์ ์ ๋งค์ฐ ๋ณต์กํ ๊ธฐ์ต ๊ฒ์ ์์ ์ผ๋ก, ๋ชจ๋ธ์ด ์ฌ๋ฌ ์ ๋ ฅ ์ฟผ๋ฆฌ๋ฅผ ๋ฐ์ ํด๋นํ๋ ๋ต์ ์ ํํ ์ฐพ์๋ด๋ ๋ฅ๋ ฅ์ ํ๊ฐํฉ๋๋ค. ์ด ์์ ์ Transformer๊ฐ ์ฒ๋ฆฌํ๊ธฐ ์ด๋ ค์ด ๋ณต์กํ ์ํ์ค ์ฐ์ฐ์ ํฌํจํ๊ณ ์์ต๋๋ค.
- ๋ค์ค ์ฟผ๋ฆฌ ์ฐ์ ์์ ๊ฒฐ๊ณผ: Mamba-2๋ Transformer์ ๋น๊ตํ์ ๋ ๋ ์ ์ ๊ณ์ฐ ๋น์ฉ์ผ๋ก๋ ๋ ์ ํํ ๋ต์ ์ฐพ์๋ด๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ Mamba-2๊ฐ ๊ธด ์ํ์ค์์๋ ๋ ํจ์จ์ ์ผ๋ก ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ ์ ์์์ ์์ฌํฉ๋๋ค.
9.4. ํ์ต ๋ฐ์ดํฐ ๋ฐ ๋ชจ๋ธ ํฌ๊ธฐ
Mamba-2๋ Chinchilla Scaling Laws์ ๋ฐ๋ผ ๋ค์ํ ํฌ๊ธฐ์ ๋ชจ๋ธ๋ก ์คํ๋์์ต๋๋ค. ์ด ๋ฒ์น์ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ์์ ํ๋ จ ๋ฐ์ดํฐ ํฌ๊ธฐ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ์ค๋ช ํ๋ฉฐ, ์ต์ ์ ์ฑ๋ฅ์ ์ป๊ธฐ ์ํด ์ด๋ค ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ฐ์ดํฐ ํฌ๊ธฐ๊ฐ ์ ์ ํ์ง๋ฅผ ๊ฒฐ์ ํ๋ ๋ฐ ์ค์ํ ์ญํ ์ ํฉ๋๋ค.
- ์ต์ ์ ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ฐ์ดํฐ ๋น์จ: Mamba-2๋ ํ๋ จ ๋ฐ์ดํฐ์ ๋ชจ๋ธ ํฌ๊ธฐ์ ๋น์จ์ ์ต์ ํํ์ฌ, ๊ฐ์ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ ๋ Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ๋ณด๋ค ๋ ์ ์ ํ๋ผ๋ฏธํฐ๋ก๋ ๋น์ทํ๊ฑฐ๋ ๋ ๋์ ์ฑ๋ฅ์ ๊ธฐ๋กํ์ต๋๋ค. ์ด๋ Mamba-2๊ฐ ์ฃผ์ด์ง ์์์ผ๋ก ํจ์จ์ ์ผ๋ก ํ์ตํ ์ ์์์ ๋ํ๋ ๋๋ค.
9.5. ์คํ ๊ฒฐ๊ณผ ์์ฝ
์คํ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ ์ฃผ์ ์ฑ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค:
- Mamba-2๋ Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ๋ณด๋ค ๋ ๋น ๋ฅด๊ฒ ํ๋ จ๋์์ผ๋ฉฐ, ๊ฐ์ ์์ ๊ณ์ฐ ์์์ ์ฌ์ฉํ์ ๋ ๋ ๋์ ์ฑ๋ฅ์ ๊ธฐ๋กํ์ต๋๋ค.
- ๊ธด ์ํ์ค ์ฒ๋ฆฌ์์ Mamba-2๋ Transformer๋ณด๋ค ๋ ํจ์จ์ ์ผ๋ก ๋์ํ์์ผ๋ฉฐ, ํนํ ๋ค์ค ์ฟผ๋ฆฌ ์ฐ์ ์์ ๊ณผ ๊ฐ์ ๋ณต์กํ ์์ ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
- Mamba-2๋ Chinchilla Scaling Laws๋ฅผ ๋ฐ๋ฅด๋ฉฐ, ๋ ์ ์ ํ๋ผ๋ฏธํฐ๋ก๋ Transformer์ ๋น์ทํ๊ฑฐ๋ ๋ ๋์ ์ฑ๋ฅ์ ๊ธฐ๋กํ ์ ์์์ต๋๋ค.
9.6. ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ
์ด ์ฅ์ ๋ง์ง๋ง ๋ถ๋ถ์์๋, Mamba-2์ ์ฑ๋ฅ์ ๋ฐํ์ผ๋ก ์์ผ๋ก ์ฐ๊ตฌํ ์ ์๋ ๋ค์ํ ๊ฐ๋ฅ์ฑ์ ๋ํด ๋ ผ์ํฉ๋๋ค. ํนํ, Mamba-2์ ํจ์จ์ฑ์ ๋์ฑ ๊ทน๋ํํ๊ธฐ ์ํด์๋ ํ๋์จ์ด ์ต์ ํ์ ๋ชจ๋ธ ์ํคํ ์ฒ์ ๊ฐ์ ์ด ์ง์์ ์ผ๋ก ์ด๋ฃจ์ด์ ธ์ผ ํ๋ค๋ ์ ์ ๊ฐ์กฐํฉ๋๋ค.
๋ํ, Mamba-2์ ์ฑ๋ฅ์ ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ์์ ์์ ์ถ๊ฐ์ ์ผ๋ก ๊ฒ์ฆํจ์ผ๋ก์จ, ๋ ๋ง์ ์์ฉ ๋ถ์ผ์์ Transformer๋ฅผ ๋์ฒดํ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ํ๊ตฌํด์ผ ํ๋ค๊ณ ์ ์ํฉ๋๋ค.
-
Related Work and Discussion
๐ก SUMMARY
- Transformer์ SSM์ ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ์ ์ค๋ช ํ๋ฉฐ, ๋ ๋ชจ๋ธ์ด ์ํ์ค ๋ชจ๋ธ๋ง์์ ์ด๋ค ์ญํ ์ ํด์๋์ง๋ฅผ ๋ ผ์ํฉ๋๋ค.
- ๋ํ, ์ด ๋ ผ๋ฌธ์์ ์ ์ํ ์ํ ๊ณต๊ฐ ์ด์ค์ฑ(Duality) ๊ฐ๋ ์ ํตํด ๋ ๋ชจ๋ธ ๊ฐ์ ์ฐ๊ฒฐ ๊ณ ๋ฆฌ๋ฅผ ์ฐพ์๋ด๊ณ , Mamba-2๊ฐ ๋ ๋ชจ๋ธ์ ์ฅ์ ์ ๊ฒฐํฉํ ์๋ก์ด ์ํคํ ์ฒ์์ ๊ฐ์กฐํฉ๋๋ค.
- ๋ง์ง๋ง์ผ๋ก, ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก๋ ํ๋์จ์ด ์ต์ ํ, ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ์์ ๊ฒ์ฆ, ๋ชจ๋ธ ํ์ฅ์ฑ ๋ฑ์ ์ ์ํ๋ฉฐ, ์์ผ๋ก์ ์ฐ๊ตฌ๊ฐ ๋์ฑ ๋ฐ์ ํ ๊ฐ๋ฅ์ฑ์ ๋ ผ์ํฉ๋๋ค.
์ด ์ฅ์์๋ SSM(Structured State Space Models)๊ณผ Transformer ๋ชจ๋ธ์ด ์์นํ ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ์ ์ค๋ช ํ๊ณ , ์ด ๋ ผ๋ฌธ์ด ๊ธฐ์กด ์ฐ๊ตฌ์ ์ด๋ป๊ฒ ์ฐ๊ฒฐ๋๋์ง์ ๋ํด ๋ ผ์ํฉ๋๋ค. ๋ํ, Mamba-2๊ฐ ์์ผ๋ก ์ฐ๊ตฌ ๋ฐ ๊ฐ๋ฐ์ ๋ฏธ์น ์ํฅ๊ณผ ์ ์ฌ์ ์ธ ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค. ์ฃผ์ ๋ด์ฉ์ ํ๋์ฉ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
10.1. SSM๊ณผ Transformer ๊ด๋ จ ์ฐ๊ตฌ
SSM๊ณผ Transformer๋ ์ํ์ค ๋ชจ๋ธ๋ง์์ ๋ ๊ฐ์ง ์ฃผ์ ํจ๋ฌ๋ค์์ ํ์ฑํ๊ณ ์์ต๋๋ค. ์ด ์ฅ์์๋ ๊ฐ๊ฐ์ ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ์ ์ค๋ช ํ๋ฉฐ, ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ด ์ํ์ค ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐฉ๋ฒ์์ ์ด๋ค ํ๊ณ๋ฅผ ๊ทน๋ณตํด์๋์ง ๋ ผ์ํฉ๋๋ค.
-
Transformer ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ:
Transformer๋ ์ฃผ๋ก ์ฃผ์ ๋ฉ์ปค๋์ฆ(Attention Mechanism)์ ํตํด ์ํ์ค ๋ด์ ๋ชจ๋ ์์๋ค์ด ์ํธ์์ฉํ ์ ์๋๋ก ํ์ฌ, NLP(์์ฐ์ด ์ฒ๋ฆฌ) ๋ฐ ๋ค์ํ ์ํ์ค ์์ ์์ ๋งค์ฐ ์ฑ๊ณต์ ์ธ ๋ชจ๋ธ๋ก ์๋ฆฌ์ก์์ต๋๋ค. ํนํ, ์ํํธ๋งฅ์ค ์ดํ ์ (Softmax Attention)์ ์ฌ์ฉํด ๊ฐ ๋จ์ด๊ฐ ๋ค๋ฅธ ๋ชจ๋ ๋จ์ด์ ์ฃผ์๋ฅผ ๊ธฐ์ธ์ผ ์ ์๊ฒ ํ์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ๊ธด ๋ฌธ๋งฅ์ ์ ์ดํดํ ์ ์์์ต๋๋ค.
ํ์ง๋ง Transformer๋ ๋ค์๊ณผ ๊ฐ์ ํ๊ณ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค:
- ์ด์ฐจ์ ์ธ ๊ณ์ฐ ๋ณต์ก๋: ์ํ์ค ๊ธธ์ด๊ฐ ๊ธธ์ด์ง์๋ก ๊ณ์ฐ ๋น์ฉ์ด ๊ธ๊ฒฉํ ์ฆ๊ฐํฉ๋๋ค.
- ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋ ๋ฌธ์ : ๊ธด ์ํ์ค ์ฒ๋ฆฌ ์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด ํญ๋ฐ์ ์ผ๋ก ์ฆ๊ฐํ์ฌ ๋๊ท๋ชจ ํ์ต์ ๋ถ๋ด์ด ๋ฉ๋๋ค.
-
SSM ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ:
SSM์ ์ฐ์์ ์ธ ์ํ ๊ฐฑ์ ์ ํตํด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ๋ฉฐ, ์ด๋ฅผ ์ ํ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์์ด ๋ ํจ์จ์ ์ ๋๋ค. ํนํ, ์ ํ ๋ณต์ก๋๋ก ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ๋๋ฌธ์ ๊ธด ์ํ์ค์์๋ ๋งค์ฐ ํจ์จ์ ์ผ๋ก ๋์ํ ์ ์์ต๋๋ค. ๊ธฐ์กด ์ฐ๊ตฌ์์๋ S4 ๋ฐ Mamba์ ๊ฐ์ SSM์ด Transformer์ ๋น๊ตํด ์๊ท๋ชจ ๋ฐ ์ค๊ท๋ชจ ์์ ์์ ๋งค์ฐ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ณด์ผ ์ ์์์ ์ ์ฆํ์ต๋๋ค.
10.2. Transformer์ SSM์ ์ตํฉ ์ฐ๊ตฌ
์ด ๋ ผ๋ฌธ์ Transformer์ SSM์ ์ฐ๊ฒฐํ๋ ค๋ ์ฐ๊ตฌ๋ก, ๋ ๋ชจ๋ธ์ด ์ด์ค์ฑ(Duality) ๊ด๊ณ์ ์์์ ์ฆ๋ช ํฉ๋๋ค. Transformer์ ๋น์ ํ์ ์ธ ์ฃผ์ ๋ฉ์ปค๋์ฆ๊ณผ SSM์ ์ ํ์ ์ํ์ค ์ฒ๋ฆฌ ๋ฐฉ์์ด ๋์ผํ ์ด๋ก ์ ๊ธฐ๋ฐ์์ ์ค๋ช ๋ ์ ์๋ค๋ ์ ์์, ๋ ๋ชจ๋ธ ๊ฐ์ ์ฐ๊ฒฐ ๊ณ ๋ฆฌ๋ฅผ ์ฐพ์๋ด๊ณ ์ด๋ฅผ ํตํด ๋ ๋ชจ๋ธ์ ์ฅ์ ์ ๊ฒฐํฉํ ์๋ก์ด ์ํคํ ์ฒ๋ฅผ ์ค๊ณํ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
- Transformer ์ต์ ํ ๊ธฐ๋ฒ์ SSM์ ์ ์ฉํ์ฌ ๋ ํจ์จ์ ์ธ ๋ชจ๋ธ์ ์ค๊ณํ ์ ์์์ ์ ์ฆํ์ต๋๋ค.
- Mamba-2๋ ๋ ๋ชจ๋ธ์ ๊ฐ์ ์ ๊ฒฐํฉํ ์ํคํ ์ฒ๋ก, SSM์ ํจ์จ์ฑ๊ณผ Transformer์ ์ ์ฐ์ฑ์ ๋ชจ๋ ์ด๋ฆด ์ ์์ต๋๋ค.
10.3. FlashAttention ๋ฐ Kernel Attention๊ณผ์ ๊ด๋ จ์ฑ
์ด ๋ ผ๋ฌธ์์๋ FlashAttention๊ณผ Kernel Attention๊ณผ๋ ์ฐ๊ฒฐ๋ฉ๋๋ค. FlashAttention์ Transformer์์ ์ดํ ์ ๊ณ์ฐ์ ๋ ๋น ๋ฅด๊ฒ ์ฒ๋ฆฌํ๊ธฐ ์ํ ์ต์ ๊ธฐ์ ๋ก, ํนํ ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ๋ ๋งค์ฐ ํจ๊ณผ์ ์ ๋๋ค. Kernel Attention์ ์ปค๋ ํจ์(kernel functions)๋ฅผ ์ฌ์ฉํด ์ํํธ๋งฅ์ค ์ฐ์ฐ์ ๋์ฒดํ๋ ๋ฐฉ์์ผ๋ก, ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ๊ณ์ฐ ๋ณต์ก๋๋ฅผ ์ค์ด๊ธฐ ์ํ ์ฐ๊ตฌ์ ๋๋ค.
์ด ๋ ผ๋ฌธ์ FlashAttention ๋ฐ Kernel Attention์ด SSM์ ๊ตฌ์กฐ์๋ ๋ฐ์ ํ๊ฒ ์ฐ๊ด๋์ด ์์์ ๋ณด์ฌ์ค๋๋ค. ํนํ, SSM์ ์ปค๋ ์ดํ ์ ๊ณผ ์ ํ ์ฌ๊ท ๋ฐฉ์์ ๊ฒฐํฉํด ๋ ํจ์จ์ ์ธ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ๊ตฌํํ ์ ์๋ ์ ์ฌ๋ ฅ์ ๊ฐ์ง๊ณ ์์ต๋๋ค.
10.4. ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ
๋ง์ง๋ง์ผ๋ก, ์ด ๋ ผ๋ฌธ์ ์์ผ๋ก์ ์ฐ๊ตฌ ๋ฐฉํฅ์ ๋ํด ๋ ผ์ํฉ๋๋ค. ํนํ, Mamba-2๊ฐ Transformer์ SSM์ ์ฅ์ ์ ๊ฒฐํฉํ์ฌ ์๋ก์ด ์ํ์ค ๋ชจ๋ธ๋ก ์๋ฆฌ ์ก์ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ํ๊ตฌํฉ๋๋ค.
-
SSM์ ํ๋์จ์ด ์ต์ ํ:
SSM์ ๋ณ๋ ฌ ์ฒ๋ฆฌ์ ์ ํฉํ๋๋ก ์ค๊ณ๋์์ง๋ง, ๋ ๋์ ํ๋์จ์ด ์ต์ ํ๊ฐ ํ์ํฉ๋๋ค. GPU์ TPU ๊ฐ์ ์ต์ ํ๋์จ์ด์์ ๋ ํจ์จ์ ์ผ๋ก ๋์ํ ์ ์๋๋ก ์ต์ ํ๋ ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ๋ฐํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
-
๋ค์ํ ๋ค์ด์คํธ๋ฆผ ์์ ์์์ ์ฑ๋ฅ ๊ฒ์ฆ:
Mamba-2๋ ์ฃผ๋ก ์ธ์ด ๋ชจ๋ธ๋ง ์์ ์์ ํ๊ฐ๋์์ง๋ง, ๋ค๋ฅธ ์์ ์์๋ ์ฑ๋ฅ์ ์ถ๊ฐ๋ก ๊ฒ์ฆํ ํ์๊ฐ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์์ฑ ์ธ์, ์ด๋ฏธ์ง ์ฒ๋ฆฌ, ์๊ณ์ด ๋ฐ์ดํฐ ๋ถ์ ๋ฑ์ ์์ ์์ Mamba-2์ ์ฑ๋ฅ์ ํ๊ฐํ์ฌ ๋ชจ๋ธ์ ๋ฒ์ฉ์ฑ์ ๋์ผ ์ ์์ต๋๋ค.
-
๋ชจ๋ธ ํ์ฅ์ฑ:
Mamba-2๋ ํ์ฌ ์ค๊ฐ ๊ท๋ชจ์ ๋ชจ๋ธ์์ Transformer์ ๊ฒฝ์ํ ์ ์๋ ์ฑ๋ฅ์ ๋ณด์์ง๋ง, ๋ ํฐ ๊ท๋ชจ์ ๋ชจ๋ธ๋ก ํ์ฅํ์ฌ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. ๋๊ท๋ชจ ํ์ต ํ๊ฒฝ์์ Mamba-2๊ฐ ์ผ๋ง๋ ์ ํ์ฅ๋ ์ ์๋์ง, ๊ทธ๋ฆฌ๊ณ ๋๊ท๋ชจ Transformer์์ ์ฑ๋ฅ ๋น๊ต๋ฅผ ํตํด ๋ชจ๋ธ์ ๊ฒฝ์๋ ฅ์ ํ๊ฐํด์ผ ํฉ๋๋ค.
-
Transformer์ SSM์ ์ตํฉ:
๋ ๋ชจ๋ธ์ ์ด์ค์ฑ ๊ด๊ณ๋ฅผ ๋ ๊น์ด ์ฐ๊ตฌํ์ฌ, Transformer์ SSM์ ์ฅ์ ์ ๊ฒฐํฉํ ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ์ ๊ฐ๋ฐํ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด, ์ํ์ค ๋ชจ๋ธ๋ง์ ์ฑ๋ฅ์ ๊ทน๋ํํ๋ ์๋ก์ด ์ํคํ ์ฒ๋ฅผ ํ๊ตฌํ ์ ์์ต๋๋ค.