[Paper Review] Mamba2 - Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

Posted by Euisuk's Dev Log on October 2, 2024

[Paper Review] Mamba2 - Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

์›๋ณธ ๊ฒŒ์‹œ๊ธ€: https://velog.io/@euisuk-chung/Paper-Review-Transformers-are-SSMs-Generalized-Models-and-Efficient-Algorithms-Through-Structured-State-Space-Duality

๋‹ค์Œ์€ ๋…ผ๋ฌธ โ€œTransformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Dualityโ€์˜ ๊ฐ ์ฑ•ํ„ฐ๋ณ„๋กœ ์ž์„ธํ•œ ๋ฆฌ๋ทฐ ๋ฐ ์ •๋ฆฌ์ž…๋‹ˆ๋‹ค.

  1. Introduction

๐Ÿ’ก Contributions

  • SSM๊ณผ ์–ดํ…์…˜ ๊ฐ„์˜ ์ด๋ก ์  ์—ฐ๊ฒฐ์„ ํ™•๋ฆฝํ•˜์—ฌ ๋‘ ๋ชจ๋ธ์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ์ด๋ก ์  ํ”„๋ ˆ์ž„์›Œํฌ ์ œ๊ณต.
  • Mamba-2 ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ œ์•ˆํ•˜์—ฌ SSM์˜ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๊ณ , ์ด๋ฅผ Transformer์™€ ๋น„๊ต ๋ถ„์„.
  • Transformer์˜ ์ตœ์ ํ™” ๊ธฐ๋ฒ•์„ SSM์— ์ ์šฉํ•˜์—ฌ SSM์˜ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”.

๋…ผ๋ฌธ์˜ ์„œ๋ก ์—์„œ๋Š” Transformers์™€ ๊ตฌ์กฐํ™”๋œ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(Structured State Space Models, SSMs)์˜ ๊ด€๊ณ„๋ฅผ ํƒ๊ตฌํ•˜๋Š” ์ด์œ ์™€ ๋ฐฐ๊ฒฝ์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์ฃผ์š” ๋‚ด์šฉ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

1.1. Transformer์˜ ์„ฑ๊ณต๊ณผ ํšจ์œจ์„ฑ ๋ฌธ์ œ

Transformer๋Š” ์–ธ์–ด ๋ชจ๋ธ๋ง์—์„œ ํ˜„๋Œ€ ๋”ฅ๋Ÿฌ๋‹์˜ ์„ฑ๊ณต์„ ์ด๋ˆ ์ฃผ์š” ์•„ํ‚คํ…์ฒ˜์ž…๋‹ˆ๋‹ค. ๋Œ€ํ‘œ์ ์ธ ์˜ˆ๋กœ GPT (Generative Pre-trained Transformer) ์‹œ๋ฆฌ์ฆˆ๊ฐ€ ์žˆ์œผ๋ฉฐ, ์ตœ๊ทผ์—๋Š” Llama์™€ ๊ฐ™์€ ๋ชจ๋ธ๋“ค๋„ ์ด ๊ณ„์—ด์— ์†ํ•ฉ๋‹ˆ๋‹ค. Transformer์˜ ํ•ต์‹ฌ์ธ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜(Attention Mechanism)์€ ์ฃผ์–ด์ง„ ์‹œํ€€์Šค ๋‚ด์—์„œ ๋ชจ๋“  ๋‹จ์–ด๋“ค์ด ์ƒํ˜ธ์ž‘์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ด์ฃผ๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ Transformer๋Š” ํšจ์œจ์„ฑ ๋ฌธ์ œ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. Transformer๋Š” ํŠนํžˆ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ด์œ ๋กœ ๋น„ํšจ์œจ์ ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

  • ์‹œํ€€์Šค ๊ธธ์ด์— ๋”ฐ๋ฅธ ๊ณ„์‚ฐ ๋ณต์žก๋„: Transformer์˜ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ์‹œํ€€์Šค ๊ธธ์ด์— ๋”ฐ๋ผ ์ด์ฐจ์ ์ธ ๊ณ„์‚ฐ ๋ณต์žก๋„๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ์ฆ‰, ์‹œํ€€์Šค๊ฐ€ ๊ธธ์–ด์งˆ์ˆ˜๋ก ๊ณ„์‚ฐ ๋น„์šฉ์ด ๊ธ‰๊ฒฉํžˆ ์ฆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
  • ์บ์‹œ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰: Autoregressive ๋ฐฉ์‹(์ž๊ธฐํšŒ๊ท€ ๋ฐฉ์‹)์œผ๋กœ ์ž…๋ ฅ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ, ์‹œํ€€์Šค ๊ธธ์ด์— ๋น„๋ก€ํ•˜๋Š” ํฌ๊ธฐ์˜ ์บ์‹œ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ํŠนํžˆ ๊ธด ์‹œํ€€์Šค์˜ ๊ฒฝ์šฐ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ ์ธก๋ฉด์—์„œ ๋น„ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค.

1.2. Structured State Space Models (SSMs)์˜ ๋“ฑ์žฅ

Transformer์™€ ๋Œ€์กฐ์ ์œผ๋กœ, Structured State Space Models (SSMs)๋Š” ์‹œํ€€์Šค ์ฒ˜๋ฆฌ์— ์žˆ์–ด์„œ ์„ ํ˜•์ ์ธ ์Šค์ผ€์ผ๋ง์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ์‹œํ€€์Šค ๊ธธ์ด์— ๋น„๋ก€ํ•ด์„œ ๊ณ„์‚ฐ ๋น„์šฉ์ด ์ฆ๊ฐ€ํ•˜๋ฉฐ, Autoregressive ์ƒ์„ฑ ์‹œ์—๋„ ์ผ์ •ํ•œ ์ƒํƒœ ํฌ๊ธฐ๋ฅผ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํŠน์„ฑ ๋•๋ถ„์— SSM์€ Transformer๋ณด๋‹ค ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์ด ์ ๊ณ , ๊ธด ์‹œํ€€์Šค ์ฒ˜๋ฆฌ์— ๋” ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค.

๋Œ€ํ‘œ์ ์ธ SSM ์ค‘ ํ•˜๋‚˜์ธ Mamba ๋ชจ๋ธ์€ ์†Œ๊ทœ๋ชจ ๋ฐ ์ค‘๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์—์„œ Transformer๋ณด๋‹ค ๋” ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Š” SSM์ด ํšจ์œจ์ ์ธ ์‹œํ€€์Šค ๋ชจ๋ธ๋ง ๋Šฅ๋ ฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Œ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

1.3. ์—ฐ๊ตฌ์˜ ๋ชฉํ‘œ: SSM๊ณผ Transformer ๊ฐ„์˜ ๊ด€๊ณ„ ํƒ๊ตฌ

์ด ๋…ผ๋ฌธ์—์„œ ์ €์ž๋“ค์€ SSM๊ณผ Transformer๊ฐ€ ์„œ๋กœ ๋งค์šฐ ์œ ์‚ฌํ•œ ๊ตฌ์กฐ์  ํŠน์ง•์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค๊ณ  ์ฃผ์žฅํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์ด ๋…ผ๋ฌธ์€ SSM๊ณผ Transformer์˜ ํ•ต์‹ฌ ์š”์†Œ์ธ ์–ดํ…์…˜(Attention) ์‚ฌ์ด์˜ ์ด๋ก ์  ์—ฐ๊ฒฐ์„ ํ™•๋ฆฝํ•˜๋ ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์ด ๋‘ ๋ชจ๋ธ์ด ๊ตฌ์กฐํ™”๋œ ๋ฐ˜๋ถ„๋ฆฌ ํ–‰๋ ฌ(semiseparable matrices)์ด๋ผ๋Š” ์ž˜ ์—ฐ๊ตฌ๋œ ํ–‰๋ ฌ ๊ตฌ์กฐ๋ฅผ ํ†ตํ•ด ์—ฐ๊ฒฐ๋  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

1.4. State Space Duality (SSD) ํ”„๋ ˆ์ž„์›Œํฌ

๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•˜๋Š” ํ•ต์‹ฌ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” State Space Duality (SSD)์ž…๋‹ˆ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” SSM๊ณผ ์–ดํ…์…˜์˜ ๊ด€๊ณ„๋ฅผ ์ˆ˜ํ•™์ ์œผ๋กœ ์ •๋ฆฌํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๋‘ ๋ชจ๋ธ ๊ฐ„์˜ ์ƒํ˜ธ ์ž‘์šฉ์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด Transformer์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ฐ ์‹œ์Šคํ…œ ์ตœ์ ํ™” ๊ธฐ์ˆ ์„ SSM์— ์ ์šฉํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด SSM์˜ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

1.5. Mamba-2 ์•„ํ‚คํ…์ฒ˜ ์ œ์•ˆ

์ด ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•˜๋Š” ์ฃผ์š” ์•„ํ‚คํ…์ฒ˜์ธ Mamba-2๋Š” ๊ธฐ์กด์˜ Mamba ๋ชจ๋ธ์„ ๊ฐœ์„ ํ•œ ๊ฒƒ์œผ๋กœ, SSD ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ ์šฉํ•˜์—ฌ ๋”์šฑ ํšจ์œจ์ ์ด๊ณ  ๋น ๋ฅด๊ฒŒ ๋™์ž‘ํ•˜๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. Mamba-2๋Š” ๊ธฐ์กด์˜ Transformer์™€ ๊ฒฝ์Ÿํ•  ์ˆ˜ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„, 2๋ฐฐ์—์„œ 8๋ฐฐ ๋” ๋น ๋ฅธ ๊ณ„์‚ฐ ์†๋„๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด Mamba-2๋Š” Transformer๊ฐ€ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ํšจ์œจ์„ฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค.


  1. Background and Overview

๐Ÿ’ก SUMMARY

  • SSM์˜ ๊ธฐ๋ณธ ๊ฐœ๋…๊ณผ ์ด๋ฅผ ๋”ฅ๋Ÿฌ๋‹์˜ ๊ธฐ์กด ์‹œํ€€์Šค ๋ชจ๋ธ๋“ค๊ณผ ์—ฐ๊ฒฐ ์ง€์–ด ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, SSM์ด RNN, CNN, ๊ทธ๋ฆฌ๊ณ  ์—ฐ์† ์‹œ๊ฐ„ ๋ชจ๋ธ๋“ค๊ณผ ์–ด๋–ป๊ฒŒ ์—ฐ๊ฒฐ๋˜๋ฉฐ, ์ด ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ ์–ด๋–ค ์žฅ์ ์„ ๊ฐ€์ง€๋Š”์ง€๋ฅผ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.
  • ๋˜ํ•œ, ์„ ํƒ์  ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(Selective State Space Models)์„ ์†Œ๊ฐœํ•˜๋ฉด์„œ, SSM์ด ์–ด๋–ป๊ฒŒ ํŠน์ • ์‹œํ€€์Šค์—์„œ ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ๋” ์ž˜ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ SSM์˜ ๊ฐ€์žฅ ํฐ ์žฅ์ ์ธ ํšจ์œจ์„ฑ์— ๋Œ€ํ•ด ๋…ผ์˜ํ•˜๋ฉฐ, ์‹œํ€€์Šค ์ฒ˜๋ฆฌ์—์„œ Transformer์˜ ๋Œ€์•ˆ์œผ๋กœ์„œ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

์ด ์žฅ์—์„œ๋Š” ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ๊ฐœ๋…์ธ ๊ตฌ์กฐํ™”๋œ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(Structured State Space Models, SSMs)์˜ ๋ฐฐ๊ฒฝ๊ณผ ๊ธฐ๋ณธ ๊ฐœ๋…์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, SSM์ด ๋”ฅ๋Ÿฌ๋‹์—์„œ ์‚ฌ์šฉ๋˜๋Š” ์—ฌ๋Ÿฌ ๋ชจ๋ธ๋“ค๊ณผ ์–ด๋–ป๊ฒŒ ์—ฐ๊ฒฐ๋˜๋Š”์ง€๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค. ์ฃผ์š” ๋‚ด์šฉ์„ ํ•˜๋‚˜์”ฉ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

2.1. Structured State Space Models (SSMs)์˜ ๊ธฐ๋ณธ ๊ฐœ๋…

SSM์€ ์‹œํ€€์Šค ๋ชจ๋ธ๋กœ, ์ž…๋ ฅ๋œ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋Š” ์‹œ๊ฐ„์˜ ํ๋ฆ„์— ๋”ฐ๋ผ ์ผ๋ จ์˜ ๊ฐ’๋“ค์ด ์ˆœ์ฐจ์ ์œผ๋กœ ๋‚˜ํƒ€๋‚˜๋Š” ๋ฐ์ดํ„ฐ๋กœ, ์ผ๋ฐ˜์ ์œผ๋กœ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP), ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ ๋ถ„์„, ์Œ์„ฑ ์ธ์‹ ๋“ฑ์—์„œ ๋งŽ์ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

SSM์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ์ž…๋ ฅ ์‹œํ€€์Šค๋ฅผ ์ƒํƒœ ๊ณต๊ฐ„(state space)์— ๋งคํ•‘ํ•˜์—ฌ, ์—ฐ์†์ ์ธ ์ƒํƒœ ๋ณ€ํ™”๋ฅผ ํ†ตํ•ด ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ SSM์€ ์ฃผ์–ด์ง„ ์‹œํ€€์Šค๋ฅผ ํŠน์ •ํ•œ ์ƒํƒœ ๊ณต๊ฐ„์„ ํ†ตํ•ด ๋ณ€ํ™˜ํ•˜๋ฉฐ, ์ด๋ฅผ ์ˆ˜ํ•™์ ์œผ๋กœ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์ƒํƒœ ๊ฐฑ์‹ : ์ด์ „ ์ƒํƒœ์™€ ์ž…๋ ฅ ๊ฐ’์— ๋”ฐ๋ผ ํ˜„์žฌ ์ƒํƒœ๊ฐ€ ๊ฒฐ์ •๋จ.

    ht=Ahtโˆ’1+Bxth_t = A h_{t-1} + B x_thtโ€‹=Ahtโˆ’1โ€‹+Bxtโ€‹

  • ์ถœ๋ ฅ ์ƒ์„ฑ: ํ˜„์žฌ ์ƒํƒœ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ถœ๋ ฅ์ด ์ƒ์„ฑ๋จ.

    yt=CThty_t = C^T h_tytโ€‹=CThtโ€‹

์—ฌ๊ธฐ์„œ AAA, BBB, CCC๋Š” ๊ฐ๊ฐ ์ƒํƒœ ๊ฐฑ์‹ ๊ณผ ์ถœ๋ ฅ์„ ๊ฒฐ์ •ํ•˜๋Š” ํ–‰๋ ฌ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์„ ๊ตฌ์กฐํ™”๋œ ํ˜•ํƒœ๋กœ ํšจ์œจ์ ์œผ๋กœ ๊ตฌํ˜„ํ•œ ๊ฒƒ์ด ๊ตฌ์กฐํ™”๋œ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(SSM)์ž…๋‹ˆ๋‹ค.

2.2. SSM๊ณผ ๋‹ค๋ฅธ ์‹œํ€€์Šค ๋ชจ๋ธ ๊ฐ„์˜ ๊ด€๊ณ„

SSM์€ ๋”ฅ๋Ÿฌ๋‹์—์„œ ์ฃผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ๋‹ค๋ฅธ ์‹œํ€€์Šค ๋ชจ๋ธ๋“ค์ธ RNNs (์ˆœํ™˜ ์‹ ๊ฒฝ๋ง), CNNs (ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง), ๊ทธ๋ฆฌ๊ณ  ์—ฐ์† ์‹œ๊ฐ„ ๋ชจ๋ธ(continuous-time models)๊ณผ ๊นŠ์€ ์—ฐ๊ด€์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” SSM์ด ์ด๋Ÿฌํ•œ ๊ธฐ์กด ๋ชจ๋ธ๋“ค๊ณผ ์–ด๋–ค ์ ์—์„œ ์œ ์‚ฌํ•˜๊ณ  ๋‹ค๋ฅธ์ง€๋ฅผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.

  1. ์—ฐ์† ์‹œ๊ฐ„ ๋ชจ๋ธ(Continuous-Time Models)

    SSM์€ ์›๋ž˜ ์—ฐ์† ์‹œ๊ฐ„ ์‹œ์Šคํ…œ์—์„œ ์˜๊ฐ์„ ์–ป์€ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์—ฐ์† ์‹œ๊ฐ„ ๋ชจ๋ธ์€ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๊ณ„์†ํ•ด์„œ ๋ณ€ํ•˜๋Š” ์‹œ์Šคํ…œ์„ ์„ค๋ช…ํ•˜๋Š”๋ฐ, ์ด๋Š” ๋ฌผ๋ฆฌํ•™์ด๋‚˜ ์ œ์–ด ์ด๋ก ์—์„œ ๋งŽ์ด ์‚ฌ์šฉ๋˜๋Š” ๊ฐœ๋…์ž…๋‹ˆ๋‹ค. SSM์˜ ๊ฒฝ์šฐ, ์—ฐ์† ์‹œ๊ฐ„ ์‹œ์Šคํ…œ์„ ์ด์‚ฐํ™”(discretization)ํ•˜์—ฌ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ๋กœ ๋ณ€ํ™˜ํ•ด ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ด ๋ฐฉ์‹์€ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์—ฐ์† ์‹œ๊ฐ„ ์‹œ์Šคํ…œ์—์„œ ์‚ฌ์šฉ๋˜๋Š” ๊ฐœ๋…์„ ๊ฐ€์ ธ์™€ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค.

  2. ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง(Recurrent Neural Networks, RNNs)

    SSM์€ ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง(RNNs)์˜ ๋ณ€ํ˜•์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. RNN๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, SSM์€ ์ด์ „ ์‹œ๊ฐ„ ๋‹จ๊ณ„์˜ ์ •๋ณด๋ฅผ ์ด์šฉํ•ด ํ˜„์žฌ ์ƒํƒœ๋ฅผ ๊ฐฑ์‹ ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ RNN๊ณผ๋Š” ๋‹ค๋ฅด๊ฒŒ SSM์€ ๋” ๋ณต์žกํ•œ ์ƒํƒœ ๊ฐฑ์‹  ๊ทœ์น™์„ ์‚ฌ์šฉํ•˜๋ฉฐ, ์ด ๊ทœ์น™์€ ๊ตฌ์กฐํ™”๋œ ํ–‰๋ ฌ๋กœ ์ •์˜๋ฉ๋‹ˆ๋‹ค. SSM์€ RNN๊ณผ ๋‹ฌ๋ฆฌ ์„ ํ˜• ๊ตฌ์กฐ๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ๋„, ๋” ํฐ ์ƒํƒœ ๊ณต๊ฐ„์„ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ์–ด, RNN์ด ๊ฒช๋Š” ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ(gradient vanishing problem)๋ฅผ ํ”ผํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  3. ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง(Convolutional Neural Networks, CNNs)

    SSM์€ ๋˜ํ•œ ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง(CNNs)๊ณผ๋„ ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค. SSM์ด ์ผ์ •ํ•œ ์ƒํƒœ ์ „์ด๋ฅผ ํ†ตํ•ด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ์‹์€ CNN์—์„œ ํ•ฉ์„ฑ๊ณฑ ํ•„ํ„ฐ๊ฐ€ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ์‹๊ณผ ๋น„์Šทํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, SSM์ด ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋ณ€ํ•˜์ง€ ์•Š๋Š” ์ƒํƒœ ์ „์ด(Linear Time-Invariant, LTI)๋ฅผ ๊ฐ€์งˆ ๋•Œ, ์ด๋Š” CNN์—์„œ ์‚ฌ์šฉํ•˜๋Š” ์ปจ๋ณผ๋ฃจ์…˜(Convolution)๊ณผ ๋™๋“ฑํ•œ ์—ญํ• ์„ ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ด ๊ฒฝ์šฐ SSM์€ ์ „์—ญ์ ์ธ ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” CNN์œผ๋กœ ์ดํ•ด๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

2.3. Selective State Space Models (์„ ํƒ์  ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ)

SSM์˜ ๋ณ€ํ˜• ์ค‘ ํ•˜๋‚˜์ธ ์„ ํƒ์  ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(Selective State Space Models, SSMs)์€ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋‹ค๋ฅด๊ฒŒ ๋™์ž‘ํ•  ์ˆ˜ ์žˆ๋Š” ํŠน์„ฑ์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ์„ ํƒ์  SSM์€ ์ด์ „ ์‹œ๊ฐ„์˜ ์ƒํƒœ๋‚˜ ์ž…๋ ฅ์— ๋”ฐ๋ผ ์ผ๋ถ€ ์ •๋ณด๋ฅผ ์„ ํƒ์ ์œผ๋กœ ๋ฌด์‹œํ•˜๊ฑฐ๋‚˜, ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ์ง‘์ค‘์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด ์„ ํƒ์  SSM์€ ์ •๋ณด๊ฐ€ ๋ฐ€์ง‘๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๋” ์ž˜ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์—์„œ ๊ธด ๋ฌธ์žฅ์„ ์ฒ˜๋ฆฌํ•  ๋•Œ, ๋ชจ๋“  ๋‹จ์–ด๊ฐ€ ์ค‘์š”ํ•˜์ง€๋Š” ์•Š์Šต๋‹ˆ๋‹ค. ์„ ํƒ์  SSM์€ ์ด๋Ÿฌํ•œ ์ƒํ™ฉ์—์„œ ์ค‘์š”ํ•˜์ง€ ์•Š์€ ๋‹จ์–ด๋Š” ๋ฌด์‹œํ•˜๊ณ , ์ค‘์š”ํ•œ ๋‹จ์–ด์—๋งŒ ์ง‘์ค‘ํ•˜์—ฌ ๋” ํšจ์œจ์ ์œผ๋กœ ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

2.4. SSM์˜ ํšจ์œจ์„ฑ

SSM์˜ ๊ฐ€์žฅ ํฐ ์žฅ์  ์ค‘ ํ•˜๋‚˜๋Š” ์‹œํ€€์Šค ๊ธธ์ด์— ๋น„๋ก€ํ•˜๋Š” ์„ ํ˜•์  ๊ณ„์‚ฐ ๋ณต์žก๋„๋ฅผ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. Transformer์™€ ๊ฐ™์€ ๋ชจ๋ธ์€ ์‹œํ€€์Šค ๊ธธ์ด์— ๋”ฐ๋ผ ๊ณ„์‚ฐ ๋ณต์žก๋„๊ฐ€ ์ด์ฐจ์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜๋Š” ๋ฐ˜๋ฉด, SSM์€ ์ด๋ฅผ ์„ ํ˜•์ ์ธ ๋ฐฉ์‹์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํŠนํžˆ ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ๋งค์šฐ ์ค‘์š”ํ•œ ์žฅ์ ์œผ๋กœ ์ž‘์šฉํ•˜๋ฉฐ, ๊ณ„์‚ฐ ์ž์›์„ ๋” ํšจ์œจ์ ์œผ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค.

๋˜ํ•œ, SSM์€ Transformer์—์„œ ์‚ฌ์šฉํ•˜๋Š” ์†Œํ”„ํŠธ๋งฅ์Šค ์–ดํ…์…˜์„ ๋Œ€์ฒดํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์†Œํ”„ํŠธ๋งฅ์Šค ์–ดํ…์…˜์€ ์‹œํ€€์Šค ๊ธธ์ด์— ๋”ฐ๋ผ ๋งŽ์€ ๊ณ„์‚ฐ ์ž์›์„ ์†Œ๋ชจํ•˜๊ฒŒ ๋˜์ง€๋งŒ, SSM์€ ์ด๋ฅผ ๋” ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.


  1. State Space Models are Structured Matrices

๐Ÿ’ก SUMMARY

  • SSM์„ ๋ฐ˜๋ถ„๋ฆฌ ํ–‰๋ ฌ(semiseparable matrices)๋กœ ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ์‹์„ ์†Œ๊ฐœํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ์‹œํ€€์Šค ์ฒ˜๋ฆฌ์—์„œ SSM์ด ๋งค์šฐ ํšจ์œจ์ ์ผ ์ˆ˜ ์žˆ์Œ์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.
  • ๋ฐ˜๋ถ„๋ฆฌ ํ–‰๋ ฌ์˜ ํŠน์„ฑ์€ ๋ณต์žกํ•œ ์—ฐ์‚ฐ์„ ๊ฐ„์†Œํ™”ํ•˜๊ณ  ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ์ค„์—ฌ, SSM์ด Transformer์˜ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜๋ณด๋‹ค ๋” ๋น ๋ฅด๊ณ  ํšจ์œจ์ ์œผ๋กœ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค.
  • ๋˜ํ•œ, SSM์˜ ๊ณ„์‚ฐ์„ ์ตœ์ ํ™”ํ•˜๋Š” ์ƒˆ๋กœ์šด ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ œ์•ˆํ•˜์—ฌ SSM์˜ ์‹ค์šฉ์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค.

์ด ์žฅ์—์„œ๋Š” ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(SSM)์„ ๊ตฌ์กฐํ™”๋œ ํ–‰๋ ฌ(structured matrices)๊ณผ ์—ฐ๊ฒฐํ•˜์—ฌ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ก ์ ์œผ๋กœ SSM์ด ์–ด๋–ป๊ฒŒ ํŠน์ • ํ˜•ํƒœ์˜ ํ–‰๋ ฌ๋กœ ํ‘œํ˜„๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ์‹œํ€€์Šค ์ฒ˜๋ฆฌ์—์„œ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ๋Š”์ง€์— ๋Œ€ํ•œ ๋‚ด์šฉ์„ ๋‹ค๋ฃน๋‹ˆ๋‹ค. ์ด๋ฅผ ์ž์„ธํžˆ ํ’€์–ด๋ณด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

3.1. SSM์„ ํ–‰๋ ฌ๋กœ ํ‘œํ˜„

SSM์€ ์‹œํ€€์Šค ๋ณ€ํ™˜(sequence transformation)์˜ ํ•œ ํ˜•ํƒœ๋กœ, ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ์กฐํ™”๋œ ๋ฐฉ์‹์œผ๋กœ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์ด ์‹œํ€€์Šค ๋ณ€ํ™˜์€ ๊ธฐ๋ณธ์ ์œผ๋กœ ํ–‰๋ ฌ ๊ณฑ์…ˆ์˜ ํ˜•ํƒœ๋กœ ํ‘œํ˜„๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

SSM์€ ์ผ๋ฐ˜์ ์œผ๋กœ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค:

  • ์ƒํƒœ ๊ฐฑ์‹ :

    ht=Ahtโˆ’1+Bxth_t = A h_{t-1} + B x_thtโ€‹=Ahtโˆ’1โ€‹+Bxtโ€‹

    ์ด์ „ ์ƒํƒœ htโˆ’1h_{t-1}htโˆ’1โ€‹์™€ ํ˜„์žฌ ์ž…๋ ฅ xtx_txtโ€‹๊ฐ€ ์ฃผ์–ด์ง€๋ฉด, ์ด๋ฅผ ํ–‰๋ ฌ AAA์™€ BBB๋ฅผ ํ†ตํ•ด ๊ฐฑ์‹ ๋œ ์ƒํƒœ hth_thtโ€‹๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.

  • ์ถœ๋ ฅ ์ƒ์„ฑ:

    yt=CThty_t = C^T h_tytโ€‹=CThtโ€‹

    ๊ฐฑ์‹ ๋œ ์ƒํƒœ hth_thtโ€‹๋ฅผ ํ–‰๋ ฌ CCC๋ฅผ ํ†ตํ•ด ์ตœ์ข… ์ถœ๋ ฅ yty_tytโ€‹๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.

์ด๋•Œ, ์‹œํ€€์Šค ์ „๋ฐ˜์— ๊ฑธ์ณ ์ด ๊ณผ์ •์ด ๋ฐ˜๋ณต๋˜๋ฉด์„œ ์ „์ฒด ์ž…๋ ฅ ์‹œํ€€์Šค x=[x0,x1,โ€ฆ,xT]x = [x_0, x_1, โ€ฆ, x_T]x=[x0โ€‹,x1โ€‹,โ€ฆ,xTโ€‹]๊ฐ€ ์ถœ๋ ฅ ์‹œํ€€์Šค y=[y0,y1,โ€ฆ,yT]y = [y_0, y_1, โ€ฆ, y_T]y=[y0โ€‹,y1โ€‹,โ€ฆ,yTโ€‹]๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์€ ํ–‰๋ ฌ ๋ณ€ํ™˜(matrix transformation)์œผ๋กœ ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” SSM์ด ๊ตฌ์กฐํ™”๋œ ํ–‰๋ ฌ์„ ํ†ตํ•ด ๊ณ„์‚ฐ๋  ์ˆ˜ ์žˆ์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

3.2. ๋ฐ˜๋ถ„๋ฆฌ ํ–‰๋ ฌ(Semiseparable Matrices)

์ด ๋…ผ๋ฌธ์—์„œ ๋‹ค๋ฃจ๋Š” ์ค‘์š”ํ•œ ๊ฐœ๋… ์ค‘ ํ•˜๋‚˜๋Š” ๋ฐ˜๋ถ„๋ฆฌ ํ–‰๋ ฌ(semiseparable matrices)์ž…๋‹ˆ๋‹ค. ๋ฐ˜๋ถ„๋ฆฌ ํ–‰๋ ฌ์€ ํ–‰๋ ฌ์˜ ํ•˜์œ„ ๋ธ”๋ก(submatrix)์ด ๋‚ฎ์€ ์ฐจ์›(rank)์œผ๋กœ ํ‘œํ˜„๋  ์ˆ˜ ์žˆ๋Š” ํŠน๋ณ„ํ•œ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ์ด๋Š” ๋ณต์žกํ•œ ํ–‰๋ ฌ ์—ฐ์‚ฐ์„ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ฃผ๋ฉฐ, ๊ณ„์‚ฐ ์‹œ๊ฐ„๊ณผ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ์ค„์ด๋Š” ๋ฐ ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.

SSM์˜ ํ•ต์‹ฌ์€ ๋ฐ”๋กœ ์ด๋Ÿฌํ•œ ๋ฐ˜๋ถ„๋ฆฌ ํ–‰๋ ฌ๋กœ ํ‘œํ˜„๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” SSM์ด ๋ฐ˜๋ถ„๋ฆฌ ํ–‰๋ ฌ์˜ ํŠน์ •ํ•œ ํ˜•ํƒœ๋กœ ๋‚˜ํƒ€๋‚  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ์‹œํ€€์Šค ๋ณ€ํ™˜์„ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Œ์„ ์ˆ˜ํ•™์ ์œผ๋กœ ์ฆ๋ช…ํ•ฉ๋‹ˆ๋‹ค.

3.3. SSM๊ณผ ๋ฐ˜๋ถ„๋ฆฌ ํ–‰๋ ฌ ๊ฐ„์˜ ๊ด€๊ณ„

SSM์„ ๋ฐ˜๋ถ„๋ฆฌ ํ–‰๋ ฌ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๊ณผ์ •์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

  • ์ž…๋ ฅ xxx์™€ ์ถœ๋ ฅ yyy ๊ฐ„์˜ ๋ณ€ํ™˜์„ ๋‹ด๋‹นํ•˜๋Š” ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(SSM)์€, ๋ณธ์งˆ์ ์œผ๋กœ ํ–‰๋ ฌ ๋ณ€ํ™˜(matrix transformation)์˜ ํ•œ ํ˜•ํƒœ์ž…๋‹ˆ๋‹ค.
  • SSM์—์„œ ์‚ฌ์šฉ๋˜๋Š” ์ƒํƒœ ์ „์ด ํ–‰๋ ฌ AAA, ์ž…๋ ฅ ๋ณ€ํ™˜ ํ–‰๋ ฌ BBB, ๊ทธ๋ฆฌ๊ณ  ์ถœ๋ ฅ ๋ณ€ํ™˜ ํ–‰๋ ฌ CCC๋Š” ๋ชจ๋‘ ๊ตฌ์กฐํ™”๋œ ํ–‰๋ ฌ(structured matrices)๋กœ ๋‚˜ํƒ€๋‚  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋•Œ ์ด๋Ÿฌํ•œ ํ–‰๋ ฌ๋“ค์ด ๋ฐ˜๋ถ„๋ฆฌ ํ–‰๋ ฌ์˜ ์„ฑ์งˆ์„ ๊ฐ€์ง€๊ฒŒ ๋˜๋ฉด, SSM์€ ๋งค์šฐ ํšจ์œจ์ ์œผ๋กœ ๊ณ„์‚ฐ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋…ผ๋ฌธ์—์„œ๋Š” SSM์„ ํ†ตํ•ด ์ˆ˜ํ–‰๋˜๋Š” ์‹œํ€€์Šค ๋ณ€ํ™˜์ด ๋ฐ˜๋ถ„๋ฆฌ ํ–‰๋ ฌ์˜ ๊ตฌ์กฐ์™€ ์–ด๋–ป๊ฒŒ ์—ฐ๊ฒฐ๋˜๋Š”์ง€๋ฅผ ๊ตฌ์ฒด์ ์œผ๋กœ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ถ„๋ฆฌ ํ–‰๋ ฌ์€ ํ•˜์œ„ ํ–‰๋ ฌ๋“ค์˜ ์ฐจ์›์„ ์ค„์ž„์œผ๋กœ์จ, ์ „์ฒด ํ–‰๋ ฌ์˜ ๋ณต์žก๋„๋ฅผ ๋‚ฎ์ถ”๊ณ , ๋” ์ ์€ ๊ณ„์‚ฐ๋Ÿ‰์œผ๋กœ ๊ฐ™์€ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค.

3.4. ์ƒˆ๋กœ์šด ํšจ์œจ์„ฑ ๊ฒฐ๊ณผ

๋ฐ˜๋ถ„๋ฆฌ ํ–‰๋ ฌ์„ ํ™œ์šฉํ•˜๋ฉด SSM์˜ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ๋†’์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์–ป์„ ์ˆ˜ ์žˆ๋Š” ์ฃผ์š” ํšจ์œจ์„ฑ ๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  • ๊ณ„์‚ฐ ๋น„์šฉ ๊ฐ์†Œ: SSM์€ ๋ฐ˜๋ถ„๋ฆฌ ํ–‰๋ ฌ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ „์ฒด ๊ณ„์‚ฐ ๋น„์šฉ์„ ์ค„์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ํฐ ํ–‰๋ ฌ์„ ๊ณฑํ•˜๋Š” ๋ฐ ๋“œ๋Š” ๊ณ„์‚ฐ ๋น„์šฉ์€ ๋งค์šฐ ํฌ์ง€๋งŒ, ๋ฐ˜๋ถ„๋ฆฌ ํ–‰๋ ฌ์€ ์ฐจ์›์„ ๋‚ฎ์ถค์œผ๋กœ์จ ์ด ๋น„์šฉ์„ ์„ ํ˜•์ ์œผ๋กœ ์ค„์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋ฉ”๋ชจ๋ฆฌ ์ ˆ์•ฝ: ๋ฐ˜๋ถ„๋ฆฌ ํ–‰๋ ฌ์˜ ๊ตฌ์กฐ์  ํŠน์„ฑ์„ ํ™œ์šฉํ•˜๋ฉด, ํ–‰๋ ฌ์„ ์™„์ „ํ•œ ํ˜•ํƒœ๋กœ ์ €์žฅํ•  ํ•„์š” ์—†์ด ํšจ์œจ์ ์ธ ๋ฐฉ์‹์œผ๋กœ ์ €์žฅํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ์ค„์—ฌ, ๋” ํฐ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

ํŠนํžˆ, SSM์„ ๋ฐ˜๋ถ„๋ฆฌ ํ–‰๋ ฌ๋กœ ๋ณ€ํ™˜ํ•จ์œผ๋กœ์จ, ๊ธฐ์กด Transformer์—์„œ ์‚ฌ์šฉ๋˜๋Š” ๋ณต์žกํ•œ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์ด์ฐจ์ ์ธ ๊ณ„์‚ฐ ๋ณต์žก๋„๋ฅผ ์„ ํ˜•์ ์œผ๋กœ ์ค„์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ธด ์‹œํ€€์Šค๋„ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

3.5. ๊ตฌ์กฐํ™”๋œ ํ–‰๋ ฌ์„ ํ™œ์šฉํ•œ ์ƒˆ๋กœ์šด ์•Œ๊ณ ๋ฆฌ์ฆ˜

๋…ผ๋ฌธ์—์„œ๋Š” SSM์„ ๊ณ„์‚ฐํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๊ตฌ์กฐํ™”๋œ ํ–‰๋ ฌ(structured matrices)์˜ ์„ฑ์งˆ์„ ํ™œ์šฉํ•˜์—ฌ, ๊ธฐ์กด SSM์˜ ๊ณ„์‚ฐ ๋ฐฉ์‹์„ ์ตœ์ ํ™”ํ•ฉ๋‹ˆ๋‹ค.

๊ธฐ์กด์—๋Š” SSM์„ ๊ณ„์‚ฐํ•˜๋Š” ๊ณผ์ •์—์„œ ํฐ ํ–‰๋ ฌ ๊ณฑ์…ˆ์ด ํ•„์š”ํ–ˆ์œผ๋‚˜, ์ƒˆ๋กœ์šด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋ฐ˜๋ถ„๋ฆฌ ํ–‰๋ ฌ์„ ์‚ฌ์šฉํ•ด ์ด๋Ÿฌํ•œ ๋ณต์žกํ•œ ์—ฐ์‚ฐ์„ ๋” ๋น ๋ฅด๊ณ  ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค. ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ํŠนํžˆ ๊ธด ์‹œํ€€์Šค๋‚˜ ํฐ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ์œ ์šฉํ•˜๋ฉฐ, SSM์˜ ํ™œ์šฉ ๋ฒ”์œ„๋ฅผ ํ™•์žฅ์‹œํ‚ต๋‹ˆ๋‹ค.

3.6. ํ•ต์‹ฌ ๋ฉ”์‹œ์ง€: SSM์˜ ๋‹ค์–‘ํ•œ ๊ณ„์‚ฐ ๋ฐฉ์‹

๋…ผ๋ฌธ์—์„œ ๊ฐ•์กฐํ•˜๋Š” ํ•ต์‹ฌ ๋ฉ”์‹œ์ง€๋Š” SSM์˜ ๊ณ„์‚ฐ ๋ฐฉ์‹์ด ์—ฌ๋Ÿฌ ๊ฐ€์ง€๋กœ ๋ณ€ํ˜•๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋ฅผ ํ–‰๋ ฌ ๊ณฑ์…ˆ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ์žฌ๊ตฌ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๊ฐ๊ธฐ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์œผ๋กœ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์„ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ์‹์ด ๋ชจ๋‘ ๊ตฌ์กฐํ™”๋œ ํ–‰๋ ฌ ๊ณ„์‚ฐ์œผ๋กœ ํ™˜์›๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ํšจ์œจ์ ์ธ ๊ณ„์‚ฐ์ด ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค.


  1. Structured Masked Attention: Generalizing Linear Attention with Structured Matrices

๐Ÿ’ก SUMMARY

  • ๊ธฐ์กด์˜ ์„ ํ˜• ์–ดํ…์…˜(linear attention)์„ ๊ฐœ์„ ํ•œ ๊ตฌ์กฐํ™”๋œ ๋งˆ์Šคํฌ๋“œ ์–ดํ…์…˜(SMA)์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
  • SMA๋Š” ์†Œํ”„ํŠธ๋งฅ์Šค ์—ฐ์‚ฐ์„ ์ œ๊ฑฐํ•˜๊ณ , ๊ตฌ์กฐํ™”๋œ ํ–‰๋ ฌ๊ณผ ๋ฐ์ดํ„ฐ ์˜์กด์  ๋งˆ์Šคํฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ๋” ํšจ์œจ์ ์ด๊ณ  ์œ ์—ฐํ•˜๊ฒŒ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
  • ๋˜ํ•œ, SSM๊ณผ SMA ๊ฐ„์˜ ์Œ๋Œ€์  ๊ด€๊ณ„๋ฅผ ํ†ตํ•ด ๋‘ ๋ชจ๋ธ์ด ๊ฐ™์€ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ๊ณต์œ ํ•˜๋ฉฐ, ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋” ํšจ์œจ์ ์œผ๋กœ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ์Œ์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.

์ด ์žฅ์—์„œ๋Š” ๊ธฐ์กด์˜ ์„ ํ˜• ์–ดํ…์…˜(linear attention)์„ ๊ตฌ์กฐํ™”๋œ ํ–‰๋ ฌ(structured matrices)์„ ์‚ฌ์šฉํ•˜์—ฌ ์ผ๋ฐ˜ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์ด ๊ณผ์ •์„ ํ†ตํ•ด ์„ ํ˜• ์–ดํ…์…˜์„ ๋” ํšจ์œจ์ ์ด๊ณ  ๊ฐ•๋ ฅํ•œ ๋ฐฉ์‹์œผ๋กœ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด์ œ ํ•˜๋‚˜์”ฉ ์ž์„ธํžˆ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

4.1. ๊ธฐ์กด ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ํ•œ๊ณ„

Transformer์—์„œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๋ถ€๋ถ„ ์ค‘ ํ•˜๋‚˜๋Š” ์†Œํ”„ํŠธ๋งฅ์Šค ์–ดํ…์…˜(softmax attention)์ž…๋‹ˆ๋‹ค. ์†Œํ”„ํŠธ๋งฅ์Šค ์–ดํ…์…˜์€ ๊ฐ ๋‹จ์–ด๊ฐ€ ๋ฌธ์žฅ์—์„œ ๋‹ค๋ฅธ ๋ชจ๋“  ๋‹จ์–ด์™€ ์ƒํ˜ธ์ž‘์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ด์ฃผ๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๋ฌธ์žฅ์˜ ๋งฅ๋ฝ์„ ํŒŒ์•…ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์†Œํ”„ํŠธ๋งฅ์Šค ์–ดํ…์…˜์€ ์‹œํ€€์Šค ๊ธธ์ด์— ๋Œ€ํ•ด ์ด์ฐจ์ ์ธ ๊ณ„์‚ฐ ๋ณต์žก๋„๋ฅผ ๊ฐ€์ง€๊ธฐ ๋•Œ๋ฌธ์—, ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ๋Š” ๋น„ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค.

  • ๊ธฐ์กด ์–ดํ…์…˜์˜ ๊ณ„์‚ฐ ๋ณต์žก๋„:

    ์†Œํ”„ํŠธ๋งฅ์Šค ์–ดํ…์…˜์€ ์ž…๋ ฅ ์‹œํ€€์Šค x=[x0,x1,โ€ฆ,xT]x = [x_0, x_1, โ€ฆ, x_T]x=[x0โ€‹,x1โ€‹,โ€ฆ,xTโ€‹]์—์„œ ๋ชจ๋“  ๋‹จ์–ด ์Œ์— ๋Œ€ํ•ด ์ƒํ˜ธ์ž‘์šฉ์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ๋ณธ์ ์œผ๋กœ T2T^2T2์— ๋น„๋ก€ํ•˜๋Š” ๊ณ„์‚ฐ ๋ณต์žก๋„๋ฅผ ์œ ๋ฐœํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์‹œํ€€์Šค๊ฐ€ ๊ธธ์–ด์งˆ์ˆ˜๋ก ๊ณ„์‚ฐ๋Ÿ‰์ด ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ์ฆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

4.2. ์„ ํ˜• ์–ดํ…์…˜์˜ ๋“ฑ์žฅ

์„ ํ˜• ์–ดํ…์…˜(linear attention)์€ ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ๋Œ€์•ˆ์œผ๋กœ ๋“ฑ์žฅํ–ˆ์Šต๋‹ˆ๋‹ค. ์„ ํ˜• ์–ดํ…์…˜์€ ์†Œํ”„ํŠธ๋งฅ์Šค ํ•จ์ˆ˜์˜ ๊ณ„์‚ฐ์„ ๊ฐ„์†Œํ™”ํ•˜์—ฌ, ์‹œํ€€์Šค ๊ธธ์ด์— ๋”ฐ๋ผ ์„ ํ˜•์ ์ธ ๊ณ„์‚ฐ ๋ณต์žก๋„๋ฅผ ๊ฐ€์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ๋” ์ ์€ ๊ณ„์‚ฐ๋Ÿ‰์œผ๋กœ ๋น„์Šทํ•œ ์„ฑ๋Šฅ์„ ๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์„ ํ˜• ์–ดํ…์…˜์€ ํ–‰๋ ฌ ๊ณฑ์…ˆ(matrix multiplication)์˜ ์—ฐ๊ด€ ๋ฒ•์น™(associativity)์„ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ธฐ์กด์˜ ์†Œํ”„ํŠธ๋งฅ์Šค ์–ดํ…์…˜์—์„œ ์ˆ˜ํ–‰ํ–ˆ๋˜ ๋ณต์žกํ•œ ๊ณ„์‚ฐ์„ ๋” ๊ฐ„๋‹จํ•œ ํ–‰๋ ฌ ๊ณฑ์…ˆ์œผ๋กœ ๋ณ€ํ™˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์„ ํ˜• ์–ดํ…์…˜์˜ ๊ณ„์‚ฐ ๋ฐฉ์‹:

    Y=softmax(QKT)โ‹…VY = \text{softmax}(QK^T) \cdot VY=softmax(QKT)โ‹…V

    ๋Œ€์‹ , ์„ ํ˜• ์–ดํ…์…˜์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์žฌ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค:

    Y=Qโ‹…(KTโ‹…V)Y = Q \cdot (K^T \cdot V)Y=Qโ‹…(KTโ‹…V)

    ์ด๋Š” ์†Œํ”„ํŠธ๋งฅ์Šค ์—ฐ์‚ฐ์„ ์ œ๊ฑฐํ•˜๊ณ , QQQ, KKK, VVV์˜ ํ–‰๋ ฌ ๊ณฑ์…ˆ์„ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค.

4.3. Structured Masked Attention (SMA)์˜ ๋„์ž…

์ด ๋…ผ๋ฌธ์—์„œ๋Š” ๊ธฐ์กด์˜ ์„ ํ˜• ์–ดํ…์…˜์„ ๋” ๋ฐœ์ „์‹œ์ผœ, ๊ตฌ์กฐํ™”๋œ ๋งˆ์Šคํฌ๋“œ ์–ดํ…์…˜(Structured Masked Attention, SMA)์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ๊ฐœ๋…์„ ๋„์ž…ํ•ฉ๋‹ˆ๋‹ค. SMA๋Š” ๊ธฐ์กด์˜ ์„ ํ˜• ์–ดํ…์…˜์˜ ์žฅ์ ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„, ๊ตฌ์กฐํ™”๋œ ํ–‰๋ ฌ์˜ ์„ฑ์งˆ์„ ์‚ฌ์šฉํ•ด ๋” ํšจ์œจ์ ์ด๊ณ  ์œ ์—ฐํ•œ ๋ฐฉ์‹์œผ๋กœ ์–ดํ…์…˜์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

SMA์˜ ์ฃผ์š” ํŠน์ง•:

  • ์†Œํ”„ํŠธ๋งฅ์Šค ์ œ๊ฑฐ: SMA๋Š” ์†Œํ”„ํŠธ๋งฅ์Šค ์—ฐ์‚ฐ์„ ์ œ๊ฑฐํ•˜์—ฌ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•ฉ๋‹ˆ๋‹ค. ์†Œํ”„ํŠธ๋งฅ์Šค๋Š” ๊ณ„์‚ฐ๋Ÿ‰์ด ๋งŽ๊ณ  ๋น„ํšจ์œจ์ ์ธ ์—ฐ์‚ฐ ์ค‘ ํ•˜๋‚˜๋กœ, ์ด๋ฅผ ์ œ๊ฑฐํ•จ์œผ๋กœ์จ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๊ตฌ์กฐํ™”๋œ ๋งˆ์Šคํฌ ์‚ฌ์šฉ: ๊ธฐ์กด Transformer์—์„œ๋Š” ๊ฐ ๋‹จ์–ด ๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ๋‹จ์ˆœํžˆ ๊ณ„์‚ฐํ–ˆ์ง€๋งŒ, SMA์—์„œ๋Š” ๊ตฌ์กฐํ™”๋œ ๋งˆ์Šคํฌ(structured mask)๋ฅผ ์‚ฌ์šฉํ•ด ๋” ๋ณต์žกํ•˜๊ณ  ์ •๊ตํ•œ ์ƒํ˜ธ์ž‘์šฉ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋งˆ์Šคํฌ๋Š” ์‹œํ€€์Šค์˜ ๊ฐ ์š”์†Œ๊ฐ€ ์–ด๋–ป๊ฒŒ ์ƒํ˜ธ์ž‘์šฉํ•ด์•ผ ํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ๋‹ด๊ณ  ์žˆ์œผ๋ฉฐ, ๋ฐ์ดํ„ฐ์— ๊ธฐ๋ฐ˜ํ•œ ์œ„์น˜ ์ •๋ณด๋ฅผ ๋ฐ˜์˜ํ•ด ์–ดํ…์…˜์˜ ํšจ๊ณผ๋ฅผ ๊ทน๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋ฐ์ดํ„ฐ ์˜์กด์  ๋งˆ์Šคํฌ: SMA์—์„œ ์‚ฌ์šฉ๋˜๋Š” ๋งˆ์Šคํฌ๋Š” ๊ณ ์ •๋œ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์— ๋”ฐ๋ผ ๋™์ ์œผ๋กœ ๋ณ€ํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์‹œํ€€์Šค ๋‚ด์—์„œ ์ค‘์š”ํ•˜์ง€ ์•Š์€ ์ •๋ณด๋Š” ๋” ์ ๊ฒŒ, ์ค‘์š”ํ•œ ์ •๋ณด๋Š” ๋” ๋งŽ์ด ๋ฐ˜์˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

4.4. SSM๊ณผ SMA์˜ ์—ฐ๊ฒฐ

SMA๋Š” ๋‹จ์ˆœํžˆ ๊ธฐ์กด์˜ ์„ ํ˜• ์–ดํ…์…˜์„ ๊ฐœ์„ ํ•œ ๊ฒƒ์— ๊ทธ์น˜์ง€ ์•Š๊ณ , SSM๊ณผ์˜ ์—ฐ๊ฒฐ ๊ณ ๋ฆฌ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ SSM๊ณผ ์„ ํ˜• ์–ดํ…์…˜์ด ์Œ๋Œ€์ (dual) ๊ด€๊ณ„์— ์žˆ๋‹ค๋Š” ์ ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, SMA๋Š” SSM์˜ ์„ฑ์งˆ์„ ํ™œ์šฉํ•ด ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ๋” ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜๊ณผ SSM์ด ๋™์ผํ•œ ๋ฐฉ์‹์œผ๋กœ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

์ด ๋‘ ๋ชจ๋ธ์€ ๊ฐ๊ธฐ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜์ง€๋งŒ, ๊ทผ๋ณธ์ ์ธ ์ˆ˜ํ•™์  ๊ตฌ์กฐ๋Š” ๋™์ผํ•˜๋‹ค๋Š” ์ ์—์„œ ์Œ๋Œ€์„ฑ(duality)์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ €์ž๋“ค์€ SSM๊ณผ ์–ดํ…์…˜ ๊ฐ„์˜ ์ด๋ก ์  ์—ฐ๊ฒฐ์„ ํ™•๋ฆฝํ•ฉ๋‹ˆ๋‹ค.

4.5. SMA์˜ ์žฅ์ 

  • ํšจ์œจ์„ฑ: SMA๋Š” ์„ ํ˜• ์–ดํ…์…˜์„ ๊ตฌ์กฐํ™”๋œ ํ–‰๋ ฌ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ, ๊ธฐ์กด์˜ ์†Œํ”„ํŠธ๋งฅ์Šค ์–ดํ…์…˜๋ณด๋‹ค ํ›จ์”ฌ ์ ์€ ๊ณ„์‚ฐ ์ž์›์„ ์‚ฌ์šฉํ•˜๋ฉด์„œ๋„ ๋น„์Šทํ•œ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  • ๋ฐ์ดํ„ฐ ์˜์กด์  ์œ„์น˜ ์ •๋ณด ์ฒ˜๋ฆฌ: SMA๋Š” ๋ฐ์ดํ„ฐ์— ์˜์กดํ•œ ์œ„์น˜ ์ •๋ณด(positional information)๋ฅผ ๋งˆ์Šคํฌ๋กœ ์ฒ˜๋ฆฌํ•˜์—ฌ, ์‹œํ€€์Šค ๋‚ด์—์„œ ์ค‘์š”ํ•œ ์š”์†Œ๋“ค ๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ๊ฐ•ํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์œ„์น˜ ์ •๋ณด์— ๋ฏผ๊ฐํ•œ ์‹œํ€€์Šค ์ž‘์—…์—์„œ ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์œ ์—ฐ์„ฑ: SMA๋Š” ๊ธฐ์กด์˜ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜๊ณผ ๋‹ฌ๋ฆฌ, ์ž…๋ ฅ ์‹œํ€€์Šค์˜ ๊ตฌ์กฐ์— ๋งž์ถ”์–ด ๋™์ ์œผ๋กœ ๋งˆ์Šคํฌ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์–ด ๋” ์œ ์—ฐํ•œ ์ฒ˜๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

4.6. SMA์˜ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

SMA๋Š” Transformer ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์˜ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋Œ€์ฒดํ•˜๊ฑฐ๋‚˜ ๋ณด์™„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, ์‹œํ€€์Šค ๊ธธ์ด๊ฐ€ ๊ธธ๊ณ , ๊ณ„์‚ฐ ์ž์›์ด ์ œํ•œ๋œ ์ƒํ™ฉ์—์„œ SMA๋Š” ๊ธฐ์กด ์†Œํ”„ํŠธ๋งฅ์Šค ์–ดํ…์…˜๋ณด๋‹ค ๋” ํšจ์œจ์ ์ธ ์„ ํƒ์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์–ธ์–ด ๋ชจ๋ธ๋ง, ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ, ์‹œ๊ณ„์—ด ๋ถ„์„ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


  1. State Space Duality

๐Ÿ’ก SUMMARY

  • SSM๊ณผ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ์ด์ค‘์„ฑ(Duality) ๊ด€๊ณ„์— ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์ˆ˜ํ•™์ ์œผ๋กœ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.
  • ์ด ์žฅ์˜ ํ•ต์‹ฌ์€ SSM์˜ ์„ ํ˜•์  ์ฒ˜๋ฆฌ ๋ฐฉ์‹๊ณผ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ๋น„์„ ํ˜•์  ์ฒ˜๋ฆฌ ๋ฐฉ์‹์ด ๋ณธ์งˆ์ ์œผ๋กœ ๋™์ผํ•œ ๊ณ„์‚ฐ์„ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ์ˆ˜ํ–‰ํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค.
  • ์ด๋ฅผ ํ†ตํ•ด ๋‘ ๋ชจ๋ธ์˜ ์žฅ์ ์„ ๊ฒฐํ•ฉํ•œ ์ƒˆ๋กœ์šด ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋” ํšจ์œจ์ ์œผ๋กœ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์„ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค.

์ด ์žฅ์—์„œ๋Š” ๋…ผ๋ฌธ์˜ ์ค‘์‹ฌ ๊ฐœ๋…์ธ ์ƒํƒœ ๊ณต๊ฐ„ ์ด์ค‘์„ฑ(State Space Duality, SSD)์„ ๋ณธ๊ฒฉ์ ์œผ๋กœ ๋‹ค๋ฃน๋‹ˆ๋‹ค. SSM(Structured State Space Models)๊ณผ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜(Attention Mechanism)์ด ์–ด๋–ป๊ฒŒ ์ด์ค‘์„ฑ(duality) ๊ด€๊ณ„๋ฅผ ํ†ตํ•ด ์„œ๋กœ ์—ฐ๊ฒฐ๋˜๋Š”์ง€๋ฅผ ์„ค๋ช…ํ•˜๋ฉฐ, ๋‘ ๊ฐœ๋…์ด ์‹œํ€€์Šค ๋ชจ๋ธ๋ง์—์„œ ์–ด๋–ค ๋ฐฉ์‹์œผ๋กœ ์ƒํ˜ธ ๋ณด์™„์ ์ธ ์—ญํ• ์„ ํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ๋…ผ์˜ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿค” (์ฐธ๊ณ ) ์ด์ค‘์„ฑ(Duality)์ด๋ž€?

์ด์ค‘์„ฑ(Duality)์ด๋ผ๋Š” ๊ฐœ๋…์€ ์—ฌ๋Ÿฌ ํ•™๋ฌธ ๋ถ„์•ผ์—์„œ ๋‚˜ํƒ€๋‚˜๋Š” ์ค‘์š”ํ•œ ์ด๋ก ์  ๊ฐœ๋…์ž…๋‹ˆ๋‹ค. ๊ธฐ๋ณธ์ ์œผ๋กœ, ๋‘ ๊ฐœ๋…์ด ์„œ๋กœ ๋‹ค๋ฅธ ๊ฒƒ์ฒ˜๋Ÿผ ๋ณด์ด์ง€๋งŒ, ์‹ค์€ ๋™์ผํ•œ ๋ฌธ์ œ๋ฅผ ์„œ๋กœ ๋‹ค๋ฅธ ๊ด€์ ์—์„œ ํ‘œํ˜„ํ•œ ๊ฒƒ์„ ๋งํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ์–ด๋–ค ๋ฌธ์ œ๋ฅผ A ๋ฐฉ์‹์œผ๋กœ ํ’€ ์ˆ˜ ์žˆ์ง€๋งŒ, ๋™์ผํ•œ ๋ฌธ์ œ๋ฅผ B ๋ฐฉ์‹์œผ๋กœ ํ’€์–ด๋„ ๊ฐ™์€ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด ์ด์ค‘์„ฑ์˜ ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค.

์ˆ˜ํ•™์—์„œ๋Š” ๋‘ ๊ฐœ๋…์ด ์„œ๋กœ ์ƒํ˜ธ ๋ณด์™„์ ์ธ ๊ด€๊ณ„์— ์žˆ์„ ๋•Œ, ์ด๋ฅผ ์ด์ค‘์ (dual) ๊ด€๊ณ„๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฐ ๊ด€๊ณ„์—์„œ๋Š” ํ•˜๋‚˜์˜ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฅธ ํ˜•ํƒœ๋กœ ์žฌ๊ตฌ์„ฑํ•ด๋„ ๋ณธ์งˆ์ ์œผ๋กœ ๊ฐ™์€ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋Š” ๋ฐฉ์‹์œผ๋กœ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.

5.1. ์ƒํƒœ ๊ณต๊ฐ„ ์ด์ค‘์„ฑ(SSD)์˜ ๊ฐœ๋…

์ƒํƒœ ๊ณต๊ฐ„ ์ด์ค‘์„ฑ(State Space Duality, SSD)์€ SSM๊ณผ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜(Attention Mechanism) ๊ฐ„์˜ ์Œ๋Œ€์  ๊ด€๊ณ„๋ฅผ ์„ค๋ช…ํ•˜๋Š” ๊ฐœ๋…์ž…๋‹ˆ๋‹ค. ์ฆ‰, SSM๊ณผ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ๊ฐ๊ฐ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜์ง€๋งŒ, ๋ณธ์งˆ์ ์œผ๋กœ๋Š” ๋™์ผํ•œ ๊ณ„์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜๊ณ  ์žˆ๋‹ค๋Š” ์ ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. ์ด ์ด๋ก ์  ์—ฐ๊ฒฐ์„ ํ†ตํ•ด SSM์˜ ์žฅ์ ์„ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์— ์ ์šฉํ•˜๊ฑฐ๋‚˜, ๋ฐ˜๋Œ€๋กœ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์žฅ์ ์„ SSM์— ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด์ค‘์„ฑ์˜ ํ•ต์‹ฌ์€ SSM์˜ ์„ ํ˜•์  ์ฒ˜๋ฆฌ ๋ฐฉ์‹๊ณผ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ๋น„์„ ํ˜•์  ์ฒ˜๋ฆฌ ๋ฐฉ์‹์ด ์„œ๋กœ ๋ณ€ํ˜• ๊ฐ€๋Šฅํ•˜๋ฉฐ, ๋™์ผํ•œ ๋ฌธ์ œ๋ฅผ ํ’€ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค.

5.2. SSM๊ณผ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ๊ด€๊ณ„

์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ Transformer์˜ ํ•ต์‹ฌ ๊ธฐ๋Šฅ์œผ๋กœ, ์ž…๋ ฅ ์‹œํ€€์Šค์˜ ๊ฐ ์š”์†Œ๊ฐ€ ์„œ๋กœ ์–ด๋–ค ๋ฐฉ์‹์œผ๋กœ ์ƒํ˜ธ์ž‘์šฉํ• ์ง€๋ฅผ ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด, SSM์€ ์ž…๋ ฅ ์‹œํ€€์Šค๋ฅผ ์ƒํƒœ ๊ณต๊ฐ„์„ ํ†ตํ•ด ๋ณ€ํ™˜ํ•˜๋ฉด์„œ ์ˆœ์ฐจ์ ์œผ๋กœ ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

  • ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ์‹œํ€€์Šค ๋‚ด ๋ชจ๋“  ์š”์†Œ๊ฐ€ ์„œ๋กœ ์˜ํ–ฅ์„ ๋ฏธ์น  ์ˆ˜ ์žˆ๋„๋ก ๋น„์„ ํ˜•์ ์œผ๋กœ ์ƒํ˜ธ์ž‘์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์–ดํ…์…˜ ํ–‰๋ ฌ(Attention Matrix)์„ ํ†ตํ•ด ์ด๋ฃจ์–ด์ง€๋ฉฐ, ์‹œํ€€์Šค์˜ ๋ชจ๋“  ๋‹จ์–ด๋“ค์ด ์„œ๋กœ์—๊ฒŒ ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•ด ๊ฐ ๋‹จ์–ด์˜ ์ค‘์š”๋„๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.
  • SSM์€ ์‹œํ€€์Šค์˜ ์ด์ „ ์ƒํƒœ ์ •๋ณด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ํ˜„์žฌ ์ƒํƒœ๋ฅผ ์„ ํ˜•์ ์œผ๋กœ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ์‹์€ RNN์ฒ˜๋Ÿผ ์ˆœ์ฐจ์ ์œผ๋กœ ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•˜๋˜, ๋” ํฐ ์ƒํƒœ ๊ณต๊ฐ„์„ ์‚ฌ์šฉํ•ด ๋” ๋ณต์žกํ•œ ์ •๋ณด๋„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

5.3. ์ƒํƒœ ๊ณต๊ฐ„ ์ด์ค‘์„ฑ์˜ ์ˆ˜ํ•™์  ํ‘œํ˜„

๋…ผ๋ฌธ์—์„œ๋Š” SSM๊ณผ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์ด์ค‘์„ฑ์„ ์ˆ˜ํ•™์ ์œผ๋กœ ์ •๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ํ•ต์‹ฌ์€ SSM์˜ ์„ ํ˜•์  ํ˜•ํƒœ์™€ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ๋น„์„ ํ˜•์  ํ˜•ํƒœ๊ฐ€ ์„œ๋กœ ์Œ๋Œ€์ ์ด๋ผ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  1. SSM์˜ ์„ ํ˜•์  ์ฒ˜๋ฆฌ:

    • SSM์€ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ์„ ํ˜•์ ์ธ ํ–‰๋ ฌ ๋ณ€ํ™˜์œผ๋กœ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ์ƒํƒœ ๊ณต๊ฐ„์˜ ๋ณ€ํ™”๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ํ–‰๋ ฌ์ด ์ž…๋ ฅ ์‹œํ€€์Šค์— ๊ณฑํ•ด์ง€๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ์ƒํƒœ๊ฐ€ ๊ฐฑ์‹ ๋ฉ๋‹ˆ๋‹ค.
    • ์ด ๊ณผ์ •์€ ์„ ํ˜•์ ์ด๊ธฐ ๋•Œ๋ฌธ์— ๊ณ„์‚ฐ ๋ณต์žก๋„๊ฐ€ ๋‚ฎ์œผ๋ฉฐ, ํŠนํžˆ ๊ธด ์‹œํ€€์Šค์—์„œ๋„ ํšจ์œจ์ ์œผ๋กœ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค.
  2. ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ๋น„์„ ํ˜•์  ์ฒ˜๋ฆฌ:

    • ๋ฐ˜๋ฉด, ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ๊ฐ ์ž…๋ ฅ์ด ์„œ๋กœ ์ƒํ˜ธ์ž‘์šฉํ•˜๋Š” ๋น„์„ ํ˜•์  ์–ดํ…์…˜ ๊ณ„์‚ฐ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์‹œํ€€์Šค ๋‚ด์—์„œ ์ค‘์š”ํ•œ ๋‹จ์–ด๋“ค์— ๋” ๋†’์€ ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•˜์—ฌ ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.
    • ์ด ๊ณผ์ •์—์„œ ์†Œํ”„ํŠธ๋งฅ์Šค ์—ฐ์‚ฐ๊ณผ ๊ฐ™์€ ๋น„์„ ํ˜•์  ์—ฐ์‚ฐ์ด ํฌํ•จ๋˜๋ฉฐ, ์ด๋Š” ๊ณ„์‚ฐ ๋น„์šฉ์ด ์ƒ๋Œ€์ ์œผ๋กœ ๋†’์Šต๋‹ˆ๋‹ค.

๋…ผ๋ฌธ์—์„œ๋Š” SSM์˜ ์„ ํ˜• ์ฒ˜๋ฆฌ ๋ฐฉ์‹๊ณผ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ๋น„์„ ํ˜• ์ฒ˜๋ฆฌ ๋ฐฉ์‹์ด ์„œ๋กœ ๋ณ€ํ™˜ ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์ ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, SSM์˜ ์„ ํ˜•์  ๊ณ„์‚ฐ ๋ฐฉ์‹์„ ์ ์ ˆํ•œ ๋ฐฉ์‹์œผ๋กœ ๋ณ€ํ˜•ํ•˜๋ฉด ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ๋น„์„ ํ˜•์  ์–ดํ…์…˜ ๊ณ„์‚ฐ์„ ๋ชจ๋ฐฉํ•  ์ˆ˜ ์žˆ๊ณ , ๋ฐ˜๋Œ€๋กœ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ๋น„์„ ํ˜•์  ์ฒ˜๋ฆฌ๋ฅผ ์„ ํ˜•์  ๋ฐฉ์‹์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

5.4. SSM๊ณผ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ๊ฒฐํ•ฉ

์ด์ค‘์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด, SSM๊ณผ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ์ƒํ˜ธ ๋ณด์™„์ ์œผ๋กœ ๋™์ž‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋‘ ๋ชจ๋ธ์˜ ์žฅ์ ์„ ๊ฒฐํ•ฉํ•œ ์ƒˆ๋กœ์šด ์•„ํ‚คํ…์ฒ˜๋ฅผ ์„ค๊ณ„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, SSM์˜ ์„ ํ˜•์  ๊ณ„์‚ฐ ํšจ์œจ์„ฑ๊ณผ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์ •๋ณด ๊ฐ•์กฐ ๊ธฐ๋Šฅ์„ ๊ฒฐํ•ฉํ•œ ๋ชจ๋ธ์„ ๋งŒ๋“ค๋ฉด, ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๋ฉด์„œ๋„ ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ๋†“์น˜์ง€ ์•Š๋Š” ํšจ์œจ์ ์ธ ๋ชจ๋ธ์„ ์„ค๊ณ„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋…ผ๋ฌธ์—์„œ๋Š” SSM์ด ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์„ ํ˜•์  ํ˜•ํƒœ์™€ ๋น„์„ ํ˜•์  ํ˜•ํƒœ ๋ชจ๋‘๋ฅผ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์Œ์„ ์ฆ๋ช…ํ•˜๋ฉฐ, ๋‘ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์ด๋ก ์  ๊ต์ฐจ์ ์— ๋Œ€ํ•œ ์„ค๋ช…์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

5.5. Kernel Attention๊ณผ SSM์˜ ๊ด€๊ณ„

๋…ผ๋ฌธ์€ ํŠนํžˆ Kernel Attention๊ณผ SSM์˜ ๊ด€๊ณ„๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค. Kernel Attention์€ ์†Œํ”„ํŠธ๋งฅ์Šค๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ , ์ปค๋„ ํ•จ์ˆ˜(kernel functions)๋ฅผ ์ด์šฉํ•ด ์–ดํ…์…˜ ๊ณ„์‚ฐ์„ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ์ปค๋„ ๊ธฐ๋ฐ˜ ์–ดํ…์…˜์ด SSM๊ณผ ๋ณธ์งˆ์ ์œผ๋กœ ๋™์ผํ•œ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Œ์„ ์ˆ˜ํ•™์ ์œผ๋กœ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค. ์ปค๋„ ์–ดํ…์…˜์€ SSM์ฒ˜๋Ÿผ ์žฌ๊ท€์ (recurrent) ๊ตฌ์กฐ๋ฅผ ๊ฐ€์งˆ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด ์—ญ์‹œ SSM์˜ ์ด์ค‘์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ ๋‚ด์—์„œ ์„ค๋ช…๋ฉ๋‹ˆ๋‹ค.

์ฆ‰, ์ปค๋„ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ SSM์˜ ํ•œ ํ˜•ํƒœ๋กœ ๊ฐ„์ฃผ๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์„ ํ˜•์ ์œผ๋กœ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ธฐ์กด์˜ ๋ณต์žกํ•œ ์–ดํ…์…˜ ์—ฐ์‚ฐ์„ ๋” ๊ฐ„๋‹จํ•˜๊ฒŒ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค.

5.6. ์ด์ค‘์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์˜๋ฏธ

์ƒํƒœ ๊ณต๊ฐ„ ์ด์ค‘์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” SSM๊ณผ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ๊ฐ™์€ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด ์ด์ค‘์„ฑ ๊ฐœ๋…์„ ํ†ตํ•ด, ๋‘ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ๊ฐ•์ ์„ ๊ฒฐํ•ฉํ•˜์—ฌ ๋” ํšจ์œจ์ ์ธ ์‹œํ€€์Šค ๋ชจ๋ธ์„ ์„ค๊ณ„ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, Transformer์™€ ๊ฐ™์€ ๊ธฐ์กด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.


  1. A Hardware-Efficient Algorithm for SSD Models

๐Ÿ’ก SUMMARY

  • ์ด ์žฅ์€ SSM์„ ์‹ค์šฉ์ ์œผ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋“œ์›จ์–ด ์นœํ™”์ ์ธ ์ตœ์ ํ™”๋ฅผ ์„ค๋ช…ํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด SSM์ด Transformer๋ณด๋‹ค ๋” ํšจ์œจ์ ์ผ ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
  • ๋ธ”๋ก ๋ถ„ํ•ด(block decomposition) ๊ธฐ๋ฒ•์„ ์ ์šฉํ•˜์—ฌ SSD(Structured State Space Duality)์˜ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
  • ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ํŠนํžˆ GPU/TPU์™€ ๊ฐ™์€ ํ•˜๋“œ์›จ์–ด ๊ฐ€์†๊ธฐ์—์„œ ๋งค์šฐ ํšจ๊ณผ์ ์œผ๋กœ ๋™์ž‘ํ•˜๋ฉฐ, ๊ธฐ์กด์˜ SSM ๋ชจ๋ธ๋ณด๋‹ค 2๋ฐฐ์—์„œ 8๋ฐฐ ๋” ๋น ๋ฅธ ์†๋„๋ฅผ ์ž๋ž‘ํ•ฉ๋‹ˆ๋‹ค.
  • ๋˜ํ•œ, ํ…์„œ ๋ณ‘๋ ฌํ™”์™€ ์‹œํ€€์Šค ๋ณ‘๋ ฌํ™”๋ฅผ ์ง€์›ํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ๋” ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๊ตฌ์กฐ๋กœ ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์ด ์žฅ์—์„œ๋Š” ์ƒํƒœ ๊ณต๊ฐ„ ์ด์ค‘์„ฑ(State Space Duality, SSD) ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ํ•˜๋“œ์›จ์–ด ํšจ์œจ์ ์ธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ SSM์„ ๋ณด๋‹ค ํšจ์œจ์ ์œผ๋กœ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์„ ์„ค๋ช…ํ•˜๋ฉฐ, ํŠนํžˆ ํ•˜๋“œ์›จ์–ด ๊ฐ€์†๊ธฐ(์˜ˆ: GPU, TPU)์—์„œ ์ตœ์ ํ™”๋œ ๋ฐฉ์‹์œผ๋กœ ๋™์ž‘ํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

6.1. ํ•˜๋“œ์›จ์–ด ์ตœ์ ํ™”์˜ ํ•„์š”์„ฑ

Transformer์™€ ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ๋“ค์€ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ(parallelism)๋ฅผ ํ†ตํ•ด ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” GPU๋‚˜ TPU ๊ฐ™์€ ํ•˜๋“œ์›จ์–ด ๊ฐ€์†๊ธฐ์—์„œ ๋Œ€๊ทœ๋ชจ์˜ ๋ฐ์ดํ„ฐ์™€ ๋ณต์žกํ•œ ์—ฐ์‚ฐ์„ ๋น ๋ฅด๊ฒŒ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ๋งค์šฐ ์ค‘์š”ํ•œ ์š”์†Œ์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ SSM์€ ๊ธฐ๋ณธ์ ์œผ๋กœ ์žฌ๊ท€์ (recurrent) ์„ฑ๊ฒฉ์„ ๊ฐ€์ง€๊ธฐ ๋•Œ๋ฌธ์—, ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ์— ์ ํ•ฉํ•˜์ง€ ์•Š์€ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๊ธฐ์กด SSM ๋ชจ๋ธ์ธ Mamba๋Š” ์ด๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ์„ ํƒ์  ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(Selective State Space Model)์„ ๋„์ž…ํ–ˆ์œผ๋‚˜, ์—ฌ์ „ํžˆ Transformer์— ๋น„ํ•ด ํ•˜๋“œ์›จ์–ด ์นœํ™”์ ์ด์ง€ ์•Š๋‹ค๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด ์ด ๋…ผ๋ฌธ์—์„œ๋Š” SSD(Structured State Space Duality) ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ์ƒˆ๋กœ์šด ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ œ์•ˆํ•˜์—ฌ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ๊ณผ ํ•˜๋“œ์›จ์–ด ์ตœ์ ํ™”๋ฅผ ๋™์‹œ์— ๋‹ฌ์„ฑํ•˜๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค.

6.2. SSD ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด

์ƒˆ๋กœ ์ œ์•ˆ๋œ SSD ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋ธ”๋ก ๋ถ„ํ•ด(block decomposition)๋ผ๋Š” ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ, SSM์„ ํšจ์œจ์ ์œผ๋กœ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋Š” ๊ตฌ์กฐ๋ฅผ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ SSM์€ ์ƒํƒœ ๊ณต๊ฐ„์„ ์‹œ๊ฐ„ ์ถ•์„ ๋”ฐ๋ผ ์„ ํ˜•์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜์ง€๋งŒ, ๋ธ”๋ก ๋ถ„ํ•ด๋Š” ์ด๋ฅผ ํ–‰๋ ฌ ๋ธ”๋ก(matrix block) ๋‹จ์œ„๋กœ ์ชผ๊ฐœ์–ด ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•˜๋„๋ก ๋งŒ๋“ญ๋‹ˆ๋‹ค.

  • ๋ธ”๋ก ๋ถ„ํ•ด(Block Decomposition):

    ํ–‰๋ ฌ์„ ์ž‘์€ ๋ธ”๋ก ๋‹จ์œ„๋กœ ๋‚˜๋ˆ„์–ด ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ธฐ๋ฒ•์œผ๋กœ, ์ด๋ฅผ ํ†ตํ•ด ์ „์ฒด ๊ณ„์‚ฐ์„ ๋ณ‘๋ ฌํ™”ํ•˜๊ณ  ๋” ๋น ๋ฅด๊ฒŒ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐฉ์‹์€ ํŠนํžˆ GPU/TPU์™€ ๊ฐ™์€ ๋ณ‘๋ ฌ ์—ฐ์‚ฐ์— ํŠนํ™”๋œ ํ•˜๋“œ์›จ์–ด์—์„œ ๋งค์šฐ ํšจ์œจ์ ์œผ๋กœ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค.

SSD ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ด ๋ธ”๋ก ๋ถ„ํ•ด ๊ธฐ๋ฒ•์„ ํ™œ์šฉํ•˜์—ฌ, SSM์˜ ์„ ํ˜• ์žฌ๊ท€์‹(linear recurrence)๊ณผ ์ด์ฐจ์ (dual) ํ˜•ํƒœ์˜ ์–ดํ…์…˜์„ ๊ฒฐํ•ฉํ•œ ์ตœ์ ์˜ ์—ฐ์‚ฐ ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํ•™์Šต ๋ฐ ์ถ”๋ก ์—์„œ์˜ ๊ณ„์‚ฐ ๋น„์šฉ์„ ์ค„์ด๊ณ , ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ์ตœ์ ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

6.3. ํšจ์œจ์„ฑ ํ–ฅ์ƒ ์š”์†Œ

SSD ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ ์šฉํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํšจ์œจ์„ฑ ํ–ฅ์ƒ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค:

  1. ํ›ˆ๋ จ ๋ฐ ์ถ”๋ก  ์†๋„ ํ–ฅ์ƒ:

    ๊ธฐ์กด์˜ Mamba ๋ชจ๋ธ๊ณผ ๋น„๊ตํ•˜์—ฌ 2๋ฐฐ์—์„œ 8๋ฐฐ ๋” ๋น ๋ฅธ ์†๋„๋กœ SSM ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ฃผ๋กœ ๋ธ”๋ก ๋ถ„ํ•ด ๊ธฐ๋ฒ•์„ ํ†ตํ•ด, ์žฌ๊ท€์  ๊ณ„์‚ฐ์„ ๋ณ‘๋ ฌํ™”ํ•จ์œผ๋กœ์จ ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค.

  2. ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ ์ตœ์ ํ™”:

    SSD ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋ฐ˜๋ถ„๋ฆฌ ํ–‰๋ ฌ(semiseparable matrices)์˜ ๊ตฌ์กฐ์  ํŠน์„ฑ์„ ์ด์šฉํ•ด ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ์ค„์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ Transformer ๊ธฐ๋ฐ˜ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์ด ์‹œํ€€์Šค ๊ธธ์ด์— ๋”ฐ๋ผ ์ด์ฐจ์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜์ง€๋งŒ, SSD ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ด๋ฅผ ์„ ํ˜•์ ์œผ๋กœ ์ค„์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  3. ๋” ํฐ ์ƒํƒœ ๊ณต๊ฐ„ ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅ:

    SSD ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๊ธฐ์กด SSM๋ณด๋‹ค 8๋ฐฐ ๋” ํฐ ์ƒํƒœ ๊ณต๊ฐ„(state size)์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋” ๋ณต์žกํ•œ ์‹œํ€€์Šค ์ž‘์—…์ด๋‚˜ ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ๋งค์šฐ ์œ ๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ๋” ํฐ ์ƒํƒœ ๊ณต๊ฐ„์„ ์ฒ˜๋ฆฌํ•˜๋ฉด์„œ๋„, ๊ณ„์‚ฐ ์†๋„์— ๊ฑฐ์˜ ์˜ํ–ฅ์„ ๋ฏธ์น˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

6.4. Transformer์™€์˜ ๋น„๊ต

SSD ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ Transformer์˜ FlashAttention-2์™€ ๋น„๊ตํ•˜์—ฌ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜์˜€์œผ๋ฉฐ, ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒฝ์šฐ Transformer๋ณด๋‹ค ํ›จ์”ฌ ๋น ๋ฅธ ์†๋„๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ์‹œํ€€์Šค ๊ธธ์ด 2K์—์„œ SSD๋Š” Transformer์™€ ๋™๋“ฑํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, ์‹œํ€€์Šค ๊ธธ์ด 16K์—์„œ๋Š” 6๋ฐฐ ๋” ๋น ๋ฅธ ์„ฑ๋Šฅ์„ ๋‚˜ํƒ€๋ƒˆ์Šต๋‹ˆ๋‹ค.
  • ์ด๋Š” SSD ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ๊ธฐ์กด Transformer ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ํšจ์œจ์„ฑ์„ ๋›ฐ์–ด๋„˜์„ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ํŠนํžˆ ๊ธด ์‹œํ€€์Šค๋ฅผ ๋‹ค๋ฃจ๋Š” ์ž‘์—…์—์„œ ์œ ๋ฆฌํ•˜๋‹ค๋Š” ์ ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

6.5. Tensor Parallelism (ํ…์„œ ๋ณ‘๋ ฌํ™”)

SSD ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๋˜ ๋‹ค๋ฅธ ์ค‘์š”ํ•œ ํŠน์ง•์€ Tensor Parallelism (ํ…์„œ ๋ณ‘๋ ฌํ™”)์— ์ ํ•ฉํ•˜๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํ…์„œ ๋ณ‘๋ ฌํ™”๋Š” ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์„ ์—ฌ๋Ÿฌ GPU์— ๋ถ„์‚ฐ์‹œ์ผœ ๊ฐ ๋ ˆ์ด์–ด๋ฅผ ๋ณ‘๋ ฌ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. SSD ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ํ…์„œ ๋ณ‘๋ ฌํ™”๊ฐ€ ๊ฐ€๋Šฅํ•œ ๊ตฌ์กฐ๋กœ ์„ค๊ณ„๋˜์–ด, ๋Œ€๊ทœ๋ชจ ์‹œํ€€์Šค ์ž‘์—…์„ ๋”์šฑ ๋น ๋ฅด๊ณ  ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • SSD๋Š” ๋™๊ธฐํ™” ์ง€์ ์„ ์ ˆ๋ฐ˜์œผ๋กœ ์ค„์—ฌ, ๊ฐ ๋ ˆ์ด์–ด ๊ฐ„์˜ ๋ฐ์ดํ„ฐ ์ „์†ก ๋ฐ ๋ณ‘๋ ฌ ์—ฐ์‚ฐ์„ ๋” ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

6.6. Sequence Parallelism (์‹œํ€€์Šค ๋ณ‘๋ ฌํ™”)

๋˜ํ•œ, SSD ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ Sequence Parallelism (์‹œํ€€์Šค ๋ณ‘๋ ฌํ™”) ๋ฐฉ์‹๋„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค. ์‹œํ€€์Šค ๋ณ‘๋ ฌํ™”๋Š” ๋งค์šฐ ๊ธด ์‹œํ€€์Šค๋ฅผ ์—ฌ๋Ÿฌ ๋””๋ฐ”์ด์Šค์— ๊ฑธ์ณ ๋ถ„์‚ฐํ•˜์—ฌ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, ์‹œํ€€์Šค์˜ ๊ธธ์ด๊ฐ€ ๋งค์šฐ ๊ธธ์–ด ํ•œ ๋””๋ฐ”์ด์Šค์˜ ๋ฉ”๋ชจ๋ฆฌ๋กœ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์–ด๋ ค์šด ๊ฒฝ์šฐ์— ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.

  • SSD ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์‹œํ€€์Šค ๋ณ‘๋ ฌํ™”๊ฐ€ ๊ฐ€๋Šฅํ•œ ๊ตฌ์กฐ๋กœ ์„ค๊ณ„๋˜์–ด, ๋งค์šฐ ๊ธด ์‹œํ€€์Šค ์ž‘์—…์—์„œ๋„ ํšจ์œจ์ ์ธ ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ ์ˆœํ™˜ ์ƒํƒœ(recurrent state)๊ฐ€ ์—ฌ๋Ÿฌ ๋””๋ฐ”์ด์Šค ๊ฐ„์— ์ „๋‹ฌ๋ฉ๋‹ˆ๋‹ค.

6.7. ๋ณ€๋™ ๊ธธ์ด ์‹œํ€€์Šค ์ฒ˜๋ฆฌ

Transformer๋Š” ๋ณ€๋™ ๊ธธ์ด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ํŒจ๋”ฉ(padding)์„ ์‚ฌ์šฉํ•ด์•ผ ํ•˜๋ฉฐ, ์ด๋Š” ํšจ์œจ์„ฑ์„ ์ €ํ•˜์‹œํ‚ต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด SSD ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ํŒจ๋”ฉ์ด ํ•„์š” ์—†๊ณ , ๋ณ€๋™ ๊ธธ์ด์˜ ์‹œํ€€์Šค๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ๊ธธ์ด์˜ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ๋” ๋†’์€ ํšจ์œจ์„ฑ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


  1. The Mamba-2 Architecture

๐Ÿ’ก SUMMARY

  • Mamba-2๊ฐ€ ๊ธฐ์กด Mamba ๋ชจ๋ธ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ , ๋” ํšจ์œจ์ ์ด๊ณ  ํ•˜๋“œ์›จ์–ด ์นœํ™”์ ์ธ ๊ตฌ์กฐ๋กœ ์„ค๊ณ„๋˜์—ˆ์Œ์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.
  • Mamba-2๋Š” ๋ฉ€ํ‹ฐํ—ค๋“œ ๊ตฌ์กฐ, ํ…์„œ ๋ณ‘๋ ฌํ™”, ์‹œํ€€์Šค ๋ณ‘๋ ฌํ™”์™€ ๊ฐ™์€ ์ตœ์ ํ™”๋œ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ๊ธฐ๋ฒ•์„ ๋„์ž…ํ•˜์—ฌ Transformer์™€ ๋น„๊ตํ–ˆ์„ ๋•Œ๋„ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค.
  • ํŠนํžˆ Chinchilla Scaling Laws์— ๋”ฐ๋ผ ํ•™์Šต๋œ Mamba-2๋Š” ๋” ์ ์€ ์ž์›์œผ๋กœ๋„ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ–ˆ์œผ๋ฉฐ, ๊ธด ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ์—์„œ ๋›ฐ์–ด๋‚œ ํšจ์œจ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

์ด ์žฅ์—์„œ๋Š” ์ƒˆ๋กœ์šด Mamba-2 ์•„ํ‚คํ…์ฒ˜๋ฅผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. Mamba-2๋Š” ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆ๋œ ์ƒํƒœ ๊ณต๊ฐ„ ์ด์ค‘์„ฑ(State Space Duality, SSD) ํ”„๋ ˆ์ž„์›Œํฌ์™€ ํ•˜๋“œ์›จ์–ด ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜์—ฌ ์„ค๊ณ„๋œ ์ตœ์‹  ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ์กด์˜ Mamba ๋ชจ๋ธ์„ ๊ฐœ์„ ํ•œ ๊ฒƒ์œผ๋กœ, ํŠนํžˆ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ(parallelism)์™€ ํšจ์œจ์„ฑ ์ธก๋ฉด์—์„œ ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

Mamba-2๋Š” ํŠนํžˆ Transformer์™€ ๋น„๊ตํ–ˆ์„ ๋•Œ๋„ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ๊ธด ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ์™€ ๋Œ€๊ทœ๋ชจ ํ•™์Šต ํ™˜๊ฒฝ์—์„œ ์šฐ์ˆ˜ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

7.1. Mamba์™€ Mamba-2์˜ ์ฐจ์ด

๊ธฐ์กด์˜ Mamba๋Š” SSM ๊ธฐ๋ฐ˜์œผ๋กœ ์„ค๊ณ„๋œ ๋ชจ๋ธ๋กœ, Transformer์™€ ๊ฒฝ์Ÿํ•  ์ˆ˜ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋‚˜, ํ•˜๋“œ์›จ์–ด ์ตœ์ ํ™”์™€ ํšจ์œจ์„ฑ ์ธก๋ฉด์—์„œ ์—ฌ์ „ํžˆ ๋ถ€์กฑํ•œ ์ ์ด ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ๋ฐ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ์—์„œ ๊ฐœ์„ ํ•  ์—ฌ์ง€๊ฐ€ ์žˆ์—ˆ๊ณ , ์ด๋กœ ์ธํ•ด ๊ธด ์‹œํ€€์Šค ์ฒ˜๋ฆฌ์—์„œ๋Š” Transformer๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋‚ฎ์€ ๊ฒฝ์šฐ๊ฐ€ ๋ฐœ์ƒํ–ˆ์Šต๋‹ˆ๋‹ค.

Mamba-2๋Š” ์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด, SSD ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์„ค๊ณ„๋˜์–ด ํ•˜๋“œ์›จ์–ด ๊ฐ€์†๊ธฐ์—์„œ ๋”์šฑ ํšจ์œจ์ ์œผ๋กœ ๋™์ž‘ํ•˜๋ฉฐ, ํŠนํžˆ ๋Œ€๊ทœ๋ชจ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ์— ์ตœ์ ํ™”๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

7.2. ๋ฉ€ํ‹ฐํ—ค๋“œ ๊ตฌ์กฐ์˜ ์ ์šฉ

Mamba-2๋Š” Transformer์˜ ๋ฉ€ํ‹ฐํ—ค๋“œ ์–ดํ…์…˜(Multi-Head Attention, MHA) ๊ตฌ์กฐ๋ฅผ SSM์— ๋„์ž…ํ•˜์—ฌ, ๋” ๋†’์€ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” Mamba์˜ ์„ ํƒ์  ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(Selective State Space Model)์ด ์—ฌ๋Ÿฌ ์ž…๋ ฅ์„ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ํ™•์žฅํ•œ ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค. Mamba-2์˜ ์„ค๊ณ„๋Š” Transformer์˜ ๋ฉ€ํ‹ฐ๊ฐ’ ์–ดํ…์…˜(Multi-Value Attention, MVA)๊ณผ ์œ ์‚ฌํ•˜์ง€๋งŒ, SSM์˜ ์ด์ ์„ ํ™œ์šฉํ•˜์—ฌ ๋” ํšจ์œจ์ ์ธ ๋ฐฉ์‹์œผ๋กœ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค.

7.3. ํ…์„œ ๋ณ‘๋ ฌํ™”(Tensor Parallelism)์— ์ ํ•ฉํ•œ ๊ตฌ์กฐ

Mamba-2๋Š” ํ…์„œ ๋ณ‘๋ ฌํ™”(Tensor Parallelism)๋ฅผ ์ง€์›ํ•˜๋Š” ๊ตฌ์กฐ๋กœ ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ํ…์„œ ๋ณ‘๋ ฌํ™”๋Š” ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์—์„œ ๊ฐ ๋ ˆ์ด์–ด๋ฅผ ์—ฌ๋Ÿฌ GPU ๋˜๋Š” TPU์— ๋ถ„์‚ฐํ•˜์—ฌ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, Mamba-2๋Š” ์ด๋ฅผ ์ ์šฉํ•ด ๋Œ€๊ทœ๋ชจ ํ•™์Šต ํ™˜๊ฒฝ์—์„œ ๋” ํšจ์œจ์ ์œผ๋กœ ๋™์ž‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ธฐ์กด ๋ชจ๋ธ์—์„œ๋Š” ๊ฐ ๋ ˆ์ด์–ด ๊ฐ„์˜ ๋™๊ธฐํ™” ์ง€์ ์ด ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ์ผ์œผ์ผœ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ํšจ์œจ์„ฑ์„ ์ €ํ•˜์‹œํ‚ฌ ์ˆ˜ ์žˆ์—ˆ์ง€๋งŒ, Mamba-2๋Š” ๋™๊ธฐํ™” ์ง€์ ์„ ์ ˆ๋ฐ˜์œผ๋กœ ์ค„์—ฌ, ๊ฐ ๋ ˆ์ด์–ด์˜ ์—ฐ์‚ฐ์„ ๋” ๋น ๋ฅด๊ฒŒ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•˜๋ฉด์„œ๋„ ํ•™์Šต ์†๋„๋ฅผ ๋†’์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

7.4. ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ์—์„œ์˜ ์ตœ์ ํ™”

Mamba-2๋Š” ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ์— ์ ํ•ฉํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์œผ๋ฉฐ, ํŠนํžˆ ํ…์„œ ๋ณ‘๋ ฌํ™”์™€ ์‹œํ€€์Šค ๋ณ‘๋ ฌํ™”(Sequence Parallelism)๋ฅผ ๋ชจ๋‘ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋งค์šฐ ๊ธด ์‹œํ€€์Šค ์ž‘์—…์—์„œ ๊ฐ ์‹œํ€€์Šค๋ฅผ ์—ฌ๋Ÿฌ ๋””๋ฐ”์ด์Šค์— ๋ถ„์‚ฐ์‹œ์ผœ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๋ฉฐ, ๊ฐ GPU ๊ฐ„์˜ ์žฌ๊ท€ ์ƒํƒœ(recurrent state)๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ „์†กํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋˜ํ•œ, Mamba-2๋Š” Transformer์™€ ๋‹ฌ๋ฆฌ ์‹œํ€€์Šค ๊ธธ์ด์— ๋”ฐ๋ผ ํŒจ๋”ฉ(padding)์„ ์‚ฌ์šฉํ•  ํ•„์š”๊ฐ€ ์—†์Šต๋‹ˆ๋‹ค. ๋Œ€์‹ , ๊ฐ ์‹œํ€€์Šค์˜ ๊ธธ์ด์— ๋งž์ถ˜ ํšจ์œจ์ ์ธ ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์—, ๋ณ€๋™ ๊ธธ์ด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ๋”์šฑ ๋†’์€ ํšจ์œจ์„ฑ์„ ๋ณด์ž…๋‹ˆ๋‹ค.

7.5. Mamba-2์˜ ์„ฑ๋Šฅ ํ‰๊ฐ€: Chinchilla Scaling Laws

Mamba-2๋Š” ํ•™์Šต ๋ฐ ํ‰๊ฐ€ ๊ณผ์ •์—์„œ Chinchilla Scaling Laws์— ๋”ฐ๋ผ ์„ฑ๋Šฅ์„ ๊ฒ€์ฆํ•˜์˜€์Šต๋‹ˆ๋‹ค. Chinchilla Scaling Laws๋Š” ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜์™€ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ํฌ๊ธฐ ์‚ฌ์ด์˜ ๊ด€๊ณ„๋ฅผ ์„ค๋ช…ํ•˜๋Š” ๋ฒ•์น™์œผ๋กœ, ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ Mamba-2์˜ ์„ฑ๋Šฅ์„ ๋ถ„์„ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

Mamba-2๋Š” Transformer++ ๋ฐ ๊ธฐ์กด Mamba ๋ชจ๋ธ๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ, ํผํ”Œ๋ ‰์„œํ‹ฐ(perplexity)์™€ ํ•™์Šต ์‹œ๊ฐ„(wall-clock time) ๋ชจ๋‘์—์„œ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, Mamba-2๋Š” ๋” ์ ์€ ๊ณ„์‚ฐ ๋น„์šฉ์œผ๋กœ ๋™์ผํ•œ ๋˜๋Š” ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ–ˆ์œผ๋ฉฐ, ์ด๋Š” Mamba-2์˜ ํšจ์œจ์„ฑ๊ณผ ์ตœ์ ํ™”๋œ ๊ตฌ์กฐ๋ฅผ ์ž…์ฆํ•˜๋Š” ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค.

7.6. ์‹คํ—˜ ๊ฒฐ๊ณผ

Mamba-2๋Š” ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๋ชจ๋ธ๋กœ ์‹คํ—˜์„ ์ง„ํ–‰ํ•˜์˜€์œผ๋ฉฐ, ์—ฌ๋Ÿฌ ํฌ๊ธฐ์—์„œ Mamba-2๊ฐ€ Transformer ๊ธฐ๋ฐ˜์˜ ๋ชจ๋ธ๊ณผ ๋น„๊ตํ•ด ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์‹คํ—˜ ๊ฒฐ๊ณผ๊ฐ€ ์ฃผ๋ชฉํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค:

  • Mamba-2 (2.7B ํŒŒ๋ผ๋ฏธํ„ฐ)๋Š” 300B ํ† ํฐ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ›ˆ๋ จ๋˜์—ˆ์œผ๋ฉฐ, Pythia-2.8B ๋ฐ Pythia-6.9B์™€ ๊ฐ™์€ Transformer ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋ณด๋‹ค ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.
  • Mamba-2๋Š” Mamba์™€ Transformer๋ณด๋‹ค ๋” ์ ์€ ํ•™์Šต ์‹œ๊ฐ„์„ ํ•„์š”๋กœ ํ•˜์˜€์œผ๋ฉฐ, ๋” ์ ์€ ์ž์›์œผ๋กœ๋„ ๋น„์Šทํ•˜๊ฑฐ๋‚˜ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ–ˆ์Šต๋‹ˆ๋‹ค.

7.7. Mamba-2์˜ ์„ค๊ณ„ ์›์น™

Mamba-2๋Š” SSM๊ณผ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์ด์ค‘์„ฑ(Duality)์„ ์ตœ๋Œ€ํ•œ ํ™œ์šฉํ•˜์—ฌ, ๋” ํšจ์œจ์ ์ธ ์‹œํ€€์Šค ๋ชจ๋ธ์„ ์„ค๊ณ„ํ•˜๋Š” ๋ฐ ์ดˆ์ ์„ ๋งž์ถ”์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด, SSM์˜ ์žฅ์ (์˜ˆ: ๊ธด ์‹œํ€€์Šค์—์„œ์˜ ํšจ์œจ์„ฑ)๊ณผ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์žฅ์ (์˜ˆ: ์ค‘์š”ํ•œ ์ •๋ณด ๊ฐ•์กฐ)์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋ฐฉ์‹์œผ๋กœ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

  • SSM์˜ ๋ณ‘๋ ฌํ™” ์ง€์›: Mamba-2๋Š” ๊ธฐ์กด SSM๋ณด๋‹ค ๋” ํฐ ๋ณ‘๋ ฌํ™” ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ํ•˜๋“œ์›จ์–ด ๊ฐ€์†๊ธฐ์—์„œ ๋” ๋†’์€ ํšจ์œจ์„ฑ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค.
  • Transformer์˜ ์œ ์—ฐ์„ฑ ๋„์ž…: Mamba-2๋Š” Transformer์—์„œ ์‚ฌ์šฉ๋˜๋Š” ์—ฌ๋Ÿฌ ๋ณ‘๋ ฌํ™” ๋ฐ ์ตœ์ ํ™” ๊ธฐ๋ฒ•์„ ๋„์ž…ํ•˜์—ฌ, ๋Œ€๊ทœ๋ชจ ํ•™์Šต ํ™˜๊ฒฝ์—์„œ ๋” ์œ ์—ฐํ•˜๊ฒŒ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค.

  1. Systems Optimization for SSMs

๐Ÿ’ก SUMMARY

  • ํ…์„œ ๋ณ‘๋ ฌํ™”(Tensor Parallelism)์™€ ์‹œํ€€์Šค ๋ณ‘๋ ฌํ™”(Sequence Parallelism)๋ฅผ SSM์— ์ ์šฉํ•˜์—ฌ, ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์„ ๋” ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ•˜๊ณ  ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ๋„๋ก ์ตœ์ ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.
  • ์ด ์ตœ์ ํ™” ๊ธฐ๋ฒ•์„ ํ†ตํ•ด Mamba-2๋Š” Transformer์™€ ๋น„๊ตํ•˜์—ฌ ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ๋” ๋†’์€ ํšจ์œจ์„ฑ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ๋‹ค์–‘ํ•œ ๊ธธ์ด์˜ ์‹œํ€€์Šค๋ฅผ ํŒจ๋”ฉ ์—†์ด ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์–ด ๋ฉ”๋ชจ๋ฆฌ ์ ˆ์•ฝ๊ณผ ์ฒ˜๋ฆฌ ์†๋„ ํ–ฅ์ƒ์„ ๋™์‹œ์— ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด ์žฅ์—์„œ๋Š” Structured State Space Models (SSMs)์„ ๋ณด๋‹ค ํšจ์œจ์ ์œผ๋กœ ๊ตฌํ˜„ํ•˜๊ธฐ ์œ„ํ•ด ์‹œ์Šคํ…œ ์ตœ์ ํ™” ๊ธฐ๋ฒ•์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, Transformer์—์„œ ์‚ฌ์šฉ๋œ ๋‹ค์–‘ํ•œ ์‹œ์Šคํ…œ ์ตœ์ ํ™” ๊ธฐ๋ฒ•์„ SSM์— ์ ์šฉํ•˜์—ฌ, SSM์„ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์—์„œ ํšจ๊ณผ์ ์œผ๋กœ ํ•™์Šตํ•˜๊ณ  ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋งŒ๋“œ๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ๋…ผ์˜ํ•ฉ๋‹ˆ๋‹ค.

8.1. Transformer ์ตœ์ ํ™” ๊ธฐ๋ฒ•์„ SSM์— ์ ์šฉ

Transformer ๋ชจ๋ธ์€ ๋Œ€๊ทœ๋ชจ ํ•™์Šต์—์„œ ํ•˜๋“œ์›จ์–ด ์ตœ์ ํ™”๋ฅผ ์œ„ํ•œ ๋‹ค์–‘ํ•œ ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, GPU์™€ TPU ๊ฐ™์€ ํ•˜๋“œ์›จ์–ด ๊ฐ€์†๊ธฐ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋œ ๋ณ‘๋ ฌํ™” ๊ธฐ์ˆ ์ด ๊ทธ ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์ด๋Ÿฌํ•œ ์ตœ์ ํ™” ๊ธฐ๋ฒ•์„ SSM์— ์ ์šฉํ•˜์—ฌ Mamba-2์™€ ๊ฐ™์€ ๋ชจ๋ธ์ด ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์—์„œ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šต๋  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„ํ•ฉ๋‹ˆ๋‹ค.

์ฃผ์š” ์ตœ์ ํ™” ๊ธฐ๋ฒ•์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  1. Tensor Parallelism (ํ…์„œ ๋ณ‘๋ ฌํ™”): ๋ชจ๋ธ์„ ์—ฌ๋Ÿฌ GPU์— ๋ถ„์‚ฐ์‹œ์ผœ ๊ฐ GPU๊ฐ€ ๋ชจ๋ธ์˜ ์ผ๋ถ€๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์˜ ํฌ๊ธฐ๊ฐ€ ๋งค์šฐ ํด ๋•Œ ์œ ์šฉํ•˜๋ฉฐ, ๊ฐ GPU์˜ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ์ตœ์ ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  2. Sequence Parallelism (์‹œํ€€์Šค ๋ณ‘๋ ฌํ™”): ๋งค์šฐ ๊ธด ์‹œํ€€์Šค๋ฅผ ์—ฌ๋Ÿฌ ๋””๋ฐ”์ด์Šค์— ๊ฑธ์ณ ๋ถ„์‚ฐํ•˜์—ฌ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ์‹œํ€€์Šค๊ฐ€ ๊ธด ๊ฒฝ์šฐ, ๋‹จ์ผ GPU์˜ ๋ฉ”๋ชจ๋ฆฌ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์—†๋Š” ์ƒํ™ฉ์ด ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ, ์‹œํ€€์Šค๋ฅผ ์—ฌ๋Ÿฌ ๋ถ€๋ถ„์œผ๋กœ ๋‚˜๋ˆ  ๋ณ‘๋ ฌ๋กœ ์ฒ˜๋ฆฌํ•จ์œผ๋กœ์จ ์ด๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

8.2. Tensor Parallelism ์ ์šฉ

Tensor Parallelism์€ ๋ชจ๋ธ์˜ ๊ฐ ๋ ˆ์ด์–ด๋ฅผ ์—ฌ๋Ÿฌ GPU์— ๋ถ„์‚ฐ์‹œํ‚ค๋Š” ๋ชจ๋ธ ๋ณ‘๋ ฌํ™” ๊ธฐ๋ฒ•์œผ๋กœ, ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์—์„œ ๋งค์šฐ ํšจ๊ณผ์ ์ž…๋‹ˆ๋‹ค. ์ด ๊ธฐ๋ฒ•์„ ์ ์šฉํ•˜๋ฉด, ๊ฐ GPU๊ฐ€ ๋ชจ๋ธ์˜ ์„œ๋กœ ๋‹ค๋ฅธ ๋ถ€๋ถ„์„ ์ฒ˜๋ฆฌํ•˜๊ฒŒ ๋˜์–ด ๊ณ„์‚ฐ ์ž์›์„ ๋” ํšจ์œจ์ ์œผ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Mamba-2๋Š” ํ…์„œ ๋ณ‘๋ ฌํ™”์— ์ ํ•ฉํ•˜๊ฒŒ ์„ค๊ณ„๋˜์—ˆ์œผ๋ฉฐ, ๋ ˆ์ด์–ด ๊ฐ„ ๋™๊ธฐํ™” ํฌ์ธํŠธ๋ฅผ ์ตœ์†Œํ™”ํ•˜์—ฌ ๊ฐ GPU ๊ฐ„์˜ ๋™๊ธฐํ™” ๋น„์šฉ์„ ์ค„์˜€์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์„ ๋” ๋น ๋ฅด๊ฒŒ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๊ฐ GPU์˜ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰๋„ ์ตœ์ ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

8.3. Sequence Parallelism ์ ์šฉ

Sequence Parallelism์€ ๋งค์šฐ ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ์œ ์šฉํ•œ ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ์‹œํ€€์Šค ๋ณ‘๋ ฌํ™”๋Š” ๊ธด ์‹œํ€€์Šค๋ฅผ ์—ฌ๋Ÿฌ ๋ถ€๋ถ„์œผ๋กœ ๋‚˜๋ˆ  ๊ฐ๊ฐ์˜ ๋ถ€๋ถ„์„ ์—ฌ๋Ÿฌ GPU์— ํ• ๋‹นํ•˜์—ฌ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ ๊ฐ GPU๋Š” ์‹œํ€€์Šค์˜ ์ผ๋ถ€๋ถ„๋งŒ ์ฒ˜๋ฆฌํ•˜๋ฏ€๋กœ, ๊ฐ GPU์˜ ๋ฉ”๋ชจ๋ฆฌ ๋ถ€๋‹ด์„ ์ค„์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Mamba-2๋Š” ์žฌ๊ท€์  ์ƒํƒœ(recurrent state)๋ฅผ ์—ฌ๋Ÿฌ ๋””๋ฐ”์ด์Šค ๊ฐ„์— ์ „๋‹ฌํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์‹œํ€€์Šค ๋ณ‘๋ ฌํ™”๋ฅผ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ๊ฐ ๋””๋ฐ”์ด์Šค๊ฐ€ ๋ณ‘๋ ฌ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์–ด ๋ฉ”๋ชจ๋ฆฌ ๊ด€๋ฆฌ๊ฐ€ ์ˆ˜์›”ํ•ด์ง€๊ณ , ์ฒ˜๋ฆฌ ์†๋„๋„ ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค.

8.4. ๋ณ€๋™ ๊ธธ์ด ์‹œํ€€์Šค ์ฒ˜๋ฆฌ

Transformer๋Š” ๋‹ค์–‘ํ•œ ๊ธธ์ด์˜ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ํŒจ๋”ฉ(padding)์„ ์‚ฌ์šฉํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์—ฌ๋Ÿฌ ๋ฌธ์žฅ์˜ ๊ธธ์ด๊ฐ€ ๋‹ค๋ฅผ ๋•Œ, ๋ชจ๋“  ๋ฌธ์žฅ์˜ ๊ธธ์ด๋ฅผ ๋™์ผํ•˜๊ฒŒ ๋งž์ถ”๊ธฐ ์œ„ํ•ด ์งง์€ ๋ฌธ์žฅ์— ํŒจ๋”ฉ์„ ์ถ”๊ฐ€ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Š” ๋น„ํšจ์œจ์ ์ด๋ฉฐ, ๊ณ„์‚ฐ๋Ÿ‰์„ ๋ถˆํ•„์š”ํ•˜๊ฒŒ ์ฆ๊ฐ€์‹œํ‚ต๋‹ˆ๋‹ค.

๋ฐ˜๋ฉด, Mamba-2๋Š” ํŒจ๋”ฉ์„ ํ•„์š”๋กœ ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์„ ํƒ์  ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(Selective SSM)์˜ ํŠน์„ฑ์ƒ, ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ์‹ค์ œ ๊ธธ์ด์— ๋งž์ถฐ ์—ฐ์‚ฐ์ด ์ด๋ฃจ์–ด์ง€๋ฏ€๋กœ, ๋‹ค์–‘ํ•œ ๊ธธ์ด์˜ ์‹œํ€€์Šค๋ฅผ ๋” ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ฉ”๋ชจ๋ฆฌ ์ ˆ์•ฝ๊ณผ ์ฒ˜๋ฆฌ ์†๋„ ๋ชจ๋‘์—์„œ ๊ฐœ์„ ์ด ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค.

8.5. SSM ์ตœ์ ํ™” ๊ธฐ๋ฒ•์˜ ์žฅ์ 

Transformer์—์„œ ์‚ฌ์šฉ๋˜๋Š” ์ตœ์ ํ™” ๊ธฐ๋ฒ•์„ SSM์— ์ ์šฉํ•จ์œผ๋กœ์จ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์žฅ์ ์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

  1. ๊ณ„์‚ฐ ๋น„์šฉ ์ ˆ๊ฐ: Tensor Parallelism๊ณผ Sequence Parallelism์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์˜ ๊ฐ ๋ถ€๋ถ„์„ ๋ถ„์‚ฐ์‹œ์ผœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ์ค„์ด๊ณ  ์ „์ฒด์ ์ธ ๊ณ„์‚ฐ ๋น„์šฉ์„ ์ ˆ๊ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  2. ๋ฉ”๋ชจ๋ฆฌ ์ตœ์ ํ™”: ๋งค์šฐ ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ๋„ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ํšจ์œจ์ ์œผ๋กœ ๊ด€๋ฆฌํ•  ์ˆ˜ ์žˆ์–ด, ๋” ํฐ ์‹œํ€€์Šค๋‚˜ ๋” ๋ณต์žกํ•œ ๋ชจ๋ธ๋„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  3. ๋ณ€๋™ ๊ธธ์ด ์‹œํ€€์Šค ์ฒ˜๋ฆฌ์—์„œ ํšจ์œจ์„ฑ ํ–ฅ์ƒ: ํŒจ๋”ฉ์ด ํ•„์š” ์—†๋Š” ๊ตฌ์กฐ๋กœ ์„ค๊ณ„๋˜์–ด, ๋ณ€๋™ ๊ธธ์ด์˜ ์‹œํ€€์Šค๋„ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ•™์Šต ์‹œ๊ฐ„๊ณผ ๊ณ„์‚ฐ ์ž์›์˜ ์ ˆ์•ฝ์œผ๋กœ ์ด์–ด์ง‘๋‹ˆ๋‹ค.

8.6. ์‹œ์Šคํ…œ ์ตœ์ ํ™”์˜ ์‹ค์šฉ์„ฑ

์ด๋Ÿฌํ•œ ์‹œ์Šคํ…œ ์ตœ์ ํ™” ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋ฉด, Mamba-2์™€ ๊ฐ™์€ SSM ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋“ค์ด Transformer์™€ ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ๋„ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ์ž‘์—…์ด๋‚˜ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ์ด ์ค‘์š”ํ•œ ํ™˜๊ฒฝ์—์„œ ๋” ๋†’์€ ํšจ์œจ์„ฑ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค.

๋˜ํ•œ, ํ…์„œ ๋ณ‘๋ ฌํ™”์™€ ์‹œํ€€์Šค ๋ณ‘๋ ฌํ™”๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ GPU/TPU์˜ ๊ณ„์‚ฐ ์ž์›์„ ์ตœ๋Œ€ํ•œ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์—, ๋ชจ๋ธ์˜ ํ™•์žฅ์„ฑ์ด ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์ด๋‚˜ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋“ฑ์˜ ์ž‘์—…์—์„œ ๋งค์šฐ ์ค‘์š”ํ•œ ์š”์†Œ์ž…๋‹ˆ๋‹ค.


  1. Empirical Validation

๐Ÿ’ก SUMMARY

  • Mamba-2์˜ ์‹ค์ œ ์„ฑ๋Šฅ ํ‰๊ฐ€ ๊ฒฐ๊ณผ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. Mamba-2๋Š” ์–ธ์–ด ๋ชจ๋ธ๋ง, ํ›ˆ๋ จ ํšจ์œจ์„ฑ, ๊ทธ๋ฆฌ๊ณ  ๋ณต์žกํ•œ ๋‹ค์ค‘ ์ฟผ๋ฆฌ ์—ฐ์ƒ ์ž‘์—…์—์„œ Transformer๋ณด๋‹ค ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, ๋” ์ ์€ ์ž์›์œผ๋กœ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ํŠนํžˆ, ๊ธด ์‹œํ€€์Šค ์ฒ˜๋ฆฌ์—์„œ Mamba-2๋Š” ๊ณ„์‚ฐ ํšจ์œจ์„ฑ๊ณผ ์ฒ˜๋ฆฌ ์†๋„ ์ธก๋ฉด์—์„œ ๋งค์šฐ ์šฐ์ˆ˜ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋‚˜ํƒ€๋ƒˆ์Šต๋‹ˆ๋‹ค.

์ด ์žฅ์—์„œ๋Š” Mamba-2 ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์‹ค์ œ๋กœ ํ‰๊ฐ€ํ•œ ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. Mamba-2๋Š” ๋‹ค์–‘ํ•œ ์–ธ์–ด ๋ชจ๋ธ๋ง ์ž‘์—…์—์„œ Transformer์™€ ๊ฒฝ์Ÿํ•  ์ˆ˜ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, ํ›ˆ๋ จ ํšจ์œจ์„ฑ๊ณผ ํŠน์ • ์ž‘์—… ์„ฑ๋Šฅ์—์„œ ๋›ฐ์–ด๋‚œ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, ๋‹ค์ค‘ ์ฟผ๋ฆฌ ์—ฐ์ƒ ์ž‘์—…(Associative Recall Task)๊ณผ ๊ฐ™์€ ๋ณต์žกํ•œ ์ž‘์—…์—์„œ๋„ ํƒ์›”ํ•œ ์„ฑ๋Šฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฃผ์š” ๋‚ด์šฉ์„ ํ•˜๋‚˜์”ฉ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

9.1. ์–ธ์–ด ๋ชจ๋ธ๋ง ์ž‘์—…์—์„œ์˜ ์„ฑ๋Šฅ

Mamba-2๋Š” ์–ธ์–ด ๋ชจ๋ธ๋ง ์ž‘์—…์—์„œ Transformer ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๊ณผ ๋น„๊ตํ•ด๋„ ๋งค์šฐ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ์žฅ์—์„œ๋Š” Mamba-2์˜ ํ•™์Šต ํšจ์œจ์„ฑ๊ณผ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์—์„œ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•œ ์‹คํ—˜ ๊ฒฐ๊ณผ๊ฐ€ ์ œ์‹œ๋ฉ๋‹ˆ๋‹ค.

  • ์–ธ์–ด ๋ชจ๋ธ๋ง ํ‰๊ฐ€: Mamba-2๋Š” Pile ๋ฐ์ดํ„ฐ์…‹์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๋ชจ๋ธ์—์„œ ํ›ˆ๋ จ๋˜์—ˆ์œผ๋ฉฐ, Transformer์™€ ๋น„๊ตํ•˜์—ฌ ๋” ๋‚˜์€ ํผํ”Œ๋ ‰์„œํ‹ฐ(perplexity)๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ํผํ”Œ๋ ‰์„œํ‹ฐ๋Š” ์–ธ์–ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ค‘์š”ํ•œ ์ง€ํ‘œ๋กœ, ๊ฐ’์ด ๋‚ฎ์„์ˆ˜๋ก ๋ชจ๋ธ์ด ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๋ฅผ ๋” ์ž˜ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  • ๋ชจ๋ธ ํฌ๊ธฐ์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ ๋น„๊ต: Mamba-2๋Š” ๋‹ค์–‘ํ•œ ํฌ๊ธฐ(์˜ˆ: 2.7B ํŒŒ๋ผ๋ฏธํ„ฐ)์—์„œ Transformer ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์ธ Pythia์™€ ๋น„๊ตํ–ˆ์„ ๋•Œ๋„ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, Pythia-2.8B ๋ฐ Pythia-6.9B์™€ ๋น„๊ตํ–ˆ์„ ๋•Œ, Mamba-2๋Š” ๊ฐ™์€ ๋ฐ์ดํ„ฐ๋กœ ํ›ˆ๋ จ๋˜์—ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ๋” ์ ์€ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ๋„ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค.

9.2. ํ›ˆ๋ จ ํšจ์œจ์„ฑ

Mamba-2๋Š” ํ•™์Šต ํšจ์œจ์„ฑ ์ธก๋ฉด์—์„œ Transformer๋ณด๋‹ค ํ›จ์”ฌ ์ ์€ ์‹œ๊ฐ„์„ ํ•„์š”๋กœ ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” SSD ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ๋ณ‘๋ ฌํ™” ์ตœ์ ํ™” ๋•๋ถ„์— ์ด๋ฃจ์–ด์ง„ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค.

  • ํ›ˆ๋ จ ์†๋„: Mamba-2๋Š” ๋™์ผํ•œ ๊ณ„์‚ฐ ์ž์›์„ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ Transformer๋ณด๋‹ค ๋” ๋น ๋ฅด๊ฒŒ ํ›ˆ๋ จ๋˜์—ˆ์œผ๋ฉฐ, ํŠนํžˆ ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ์‹œ๊ฐ„ ์ ˆ์•ฝ ํšจ๊ณผ๊ฐ€ ์ปธ์Šต๋‹ˆ๋‹ค. ์ด๋Š” Mamba-2๊ฐ€ ๋” ํšจ์œจ์ ์ธ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ๋ง์„ ์‚ฌ์šฉํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

9.3. ๋‹ค์ค‘ ์ฟผ๋ฆฌ ์—ฐ์ƒ ์ž‘์—…(Associative Recall Task)

Mamba-2๋Š” ํŠนํžˆ ๋‹ค์ค‘ ์ฟผ๋ฆฌ ์—ฐ์ƒ ์ž‘์—…(Associative Recall Task)์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด ์ž‘์—…์€ ๋งค์šฐ ๋ณต์žกํ•œ ๊ธฐ์–ต ๊ฒ€์ƒ‰ ์ž‘์—…์œผ๋กœ, ๋ชจ๋ธ์ด ์—ฌ๋Ÿฌ ์ž…๋ ฅ ์ฟผ๋ฆฌ๋ฅผ ๋ฐ›์•„ ํ•ด๋‹นํ•˜๋Š” ๋‹ต์„ ์ •ํ™•ํžˆ ์ฐพ์•„๋‚ด๋Š” ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์ด ์ž‘์—…์€ Transformer๊ฐ€ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์–ด๋ ค์šด ๋ณต์žกํ•œ ์‹œํ€€์Šค ์—ฐ์‚ฐ์„ ํฌํ•จํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

  • ๋‹ค์ค‘ ์ฟผ๋ฆฌ ์—ฐ์ƒ ์ž‘์—… ๊ฒฐ๊ณผ: Mamba-2๋Š” Transformer์™€ ๋น„๊ตํ–ˆ์„ ๋•Œ ๋” ์ ์€ ๊ณ„์‚ฐ ๋น„์šฉ์œผ๋กœ๋„ ๋” ์ •ํ™•ํ•œ ๋‹ต์„ ์ฐพ์•„๋‚ด๋Š” ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” Mamba-2๊ฐ€ ๊ธด ์‹œํ€€์Šค์—์„œ๋„ ๋” ํšจ์œจ์ ์œผ๋กœ ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

9.4. ํ•™์Šต ๋ฐ์ดํ„ฐ ๋ฐ ๋ชจ๋ธ ํฌ๊ธฐ

Mamba-2๋Š” Chinchilla Scaling Laws์— ๋”ฐ๋ผ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๋ชจ๋ธ๋กœ ์‹คํ—˜๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฒ•์น™์€ ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜์™€ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ํฌ๊ธฐ ์‚ฌ์ด์˜ ๊ด€๊ณ„๋ฅผ ์„ค๋ช…ํ•˜๋ฉฐ, ์ตœ์ ์˜ ์„ฑ๋Šฅ์„ ์–ป๊ธฐ ์œ„ํ•ด ์–ด๋–ค ๋ชจ๋ธ ํฌ๊ธฐ์™€ ๋ฐ์ดํ„ฐ ํฌ๊ธฐ๊ฐ€ ์ ์ ˆํ•œ์ง€๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

  • ์ตœ์ ์˜ ๋ชจ๋ธ ํฌ๊ธฐ์™€ ๋ฐ์ดํ„ฐ ๋น„์œจ: Mamba-2๋Š” ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์™€ ๋ชจ๋ธ ํฌ๊ธฐ์˜ ๋น„์œจ์„ ์ตœ์ ํ™”ํ•˜์—ฌ, ๊ฐ™์€ ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ Transformer ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋ณด๋‹ค ๋” ์ ์€ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ๋„ ๋น„์Šทํ•˜๊ฑฐ๋‚˜ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” Mamba-2๊ฐ€ ์ฃผ์–ด์ง„ ์ž์›์œผ๋กœ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Œ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

9.5. ์‹คํ—˜ ๊ฒฐ๊ณผ ์š”์•ฝ

์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ฃผ์š” ์„ฑ๊ณผ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค:

  • Mamba-2๋Š” Transformer ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋ณด๋‹ค ๋” ๋น ๋ฅด๊ฒŒ ํ›ˆ๋ จ๋˜์—ˆ์œผ๋ฉฐ, ๊ฐ™์€ ์–‘์˜ ๊ณ„์‚ฐ ์ž์›์„ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๊ธด ์‹œํ€€์Šค ์ฒ˜๋ฆฌ์—์„œ Mamba-2๋Š” Transformer๋ณด๋‹ค ๋” ํšจ์œจ์ ์œผ๋กœ ๋™์ž‘ํ•˜์˜€์œผ๋ฉฐ, ํŠนํžˆ ๋‹ค์ค‘ ์ฟผ๋ฆฌ ์—ฐ์ƒ ์ž‘์—…๊ณผ ๊ฐ™์€ ๋ณต์žกํ•œ ์ž‘์—…์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
  • Mamba-2๋Š” Chinchilla Scaling Laws๋ฅผ ๋”ฐ๋ฅด๋ฉฐ, ๋” ์ ์€ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ๋„ Transformer์™€ ๋น„์Šทํ•˜๊ฑฐ๋‚˜ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

9.6. ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ด ์žฅ์˜ ๋งˆ์ง€๋ง‰ ๋ถ€๋ถ„์—์„œ๋Š”, Mamba-2์˜ ์„ฑ๋Šฅ์„ ๋ฐ”ํƒ•์œผ๋กœ ์•ž์œผ๋กœ ์—ฐ๊ตฌํ•  ์ˆ˜ ์žˆ๋Š” ๋‹ค์–‘ํ•œ ๊ฐ€๋Šฅ์„ฑ์— ๋Œ€ํ•ด ๋…ผ์˜ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, Mamba-2์˜ ํšจ์œจ์„ฑ์„ ๋”์šฑ ๊ทน๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ํ•˜๋“œ์›จ์–ด ์ตœ์ ํ™”์™€ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์˜ ๊ฐœ์„ ์ด ์ง€์†์ ์œผ๋กœ ์ด๋ฃจ์–ด์ ธ์•ผ ํ•œ๋‹ค๋Š” ์ ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

๋˜ํ•œ, Mamba-2์˜ ์„ฑ๋Šฅ์„ ๋‹ค์–‘ํ•œ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์—์„œ ์ถ”๊ฐ€์ ์œผ๋กœ ๊ฒ€์ฆํ•จ์œผ๋กœ์จ, ๋” ๋งŽ์€ ์‘์šฉ ๋ถ„์•ผ์—์„œ Transformer๋ฅผ ๋Œ€์ฒดํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ํƒ๊ตฌํ•ด์•ผ ํ•œ๋‹ค๊ณ  ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.


  1. Related Work and Discussion

๐Ÿ’ก SUMMARY

  • Transformer์™€ SSM์˜ ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ์„ ์„ค๋ช…ํ•˜๋ฉฐ, ๋‘ ๋ชจ๋ธ์ด ์‹œํ€€์Šค ๋ชจ๋ธ๋ง์—์„œ ์–ด๋–ค ์—ญํ• ์„ ํ•ด์™”๋Š”์ง€๋ฅผ ๋…ผ์˜ํ•ฉ๋‹ˆ๋‹ค.
  • ๋˜ํ•œ, ์ด ๋…ผ๋ฌธ์—์„œ ์ œ์‹œํ•œ ์ƒํƒœ ๊ณต๊ฐ„ ์ด์ค‘์„ฑ(Duality) ๊ฐœ๋…์„ ํ†ตํ•ด ๋‘ ๋ชจ๋ธ ๊ฐ„์˜ ์—ฐ๊ฒฐ ๊ณ ๋ฆฌ๋ฅผ ์ฐพ์•„๋‚ด๊ณ , Mamba-2๊ฐ€ ๋‘ ๋ชจ๋ธ์˜ ์žฅ์ ์„ ๊ฒฐํ•ฉํ•œ ์ƒˆ๋กœ์šด ์•„ํ‚คํ…์ฒ˜์ž„์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.
  • ๋งˆ์ง€๋ง‰์œผ๋กœ, ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์œผ๋กœ๋Š” ํ•˜๋“œ์›จ์–ด ์ตœ์ ํ™”, ๋‹ค์–‘ํ•œ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—… ๊ฒ€์ฆ, ๋ชจ๋ธ ํ™•์žฅ์„ฑ ๋“ฑ์„ ์ œ์‹œํ•˜๋ฉฐ, ์•ž์œผ๋กœ์˜ ์—ฐ๊ตฌ๊ฐ€ ๋”์šฑ ๋ฐœ์ „ํ•  ๊ฐ€๋Šฅ์„ฑ์„ ๋…ผ์˜ํ•ฉ๋‹ˆ๋‹ค.

์ด ์žฅ์—์„œ๋Š” SSM(Structured State Space Models)๊ณผ Transformer ๋ชจ๋ธ์ด ์œ„์น˜ํ•œ ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ์„ ์„ค๋ช…ํ•˜๊ณ , ์ด ๋…ผ๋ฌธ์ด ๊ธฐ์กด ์—ฐ๊ตฌ์™€ ์–ด๋–ป๊ฒŒ ์—ฐ๊ฒฐ๋˜๋Š”์ง€์— ๋Œ€ํ•ด ๋…ผ์˜ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, Mamba-2๊ฐ€ ์•ž์œผ๋กœ ์—ฐ๊ตฌ ๋ฐ ๊ฐœ๋ฐœ์— ๋ฏธ์น  ์˜ํ–ฅ๊ณผ ์ž ์žฌ์ ์ธ ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์ฃผ์š” ๋‚ด์šฉ์„ ํ•˜๋‚˜์”ฉ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

10.1. SSM๊ณผ Transformer ๊ด€๋ จ ์—ฐ๊ตฌ

SSM๊ณผ Transformer๋Š” ์‹œํ€€์Šค ๋ชจ๋ธ๋ง์—์„œ ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ํŒจ๋Ÿฌ๋‹ค์ž„์„ ํ˜•์„ฑํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ์žฅ์—์„œ๋Š” ๊ฐ๊ฐ์˜ ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ์„ ์„ค๋ช…ํ•˜๋ฉฐ, ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์ด ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ๋ฒ•์—์„œ ์–ด๋–ค ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•ด์™”๋Š”์ง€ ๋…ผ์˜ํ•ฉ๋‹ˆ๋‹ค.

  1. Transformer ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ:

    Transformer๋Š” ์ฃผ๋กœ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜(Attention Mechanism)์„ ํ†ตํ•ด ์‹œํ€€์Šค ๋‚ด์˜ ๋ชจ๋“  ์š”์†Œ๋“ค์ด ์ƒํ˜ธ์ž‘์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜์—ฌ, NLP(์ž์—ฐ์–ด ์ฒ˜๋ฆฌ) ๋ฐ ๋‹ค์–‘ํ•œ ์‹œํ€€์Šค ์ž‘์—…์—์„œ ๋งค์šฐ ์„ฑ๊ณต์ ์ธ ๋ชจ๋ธ๋กœ ์ž๋ฆฌ์žก์•˜์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, ์†Œํ”„ํŠธ๋งฅ์Šค ์–ดํ…์…˜(Softmax Attention)์„ ์‚ฌ์šฉํ•ด ๊ฐ ๋‹จ์–ด๊ฐ€ ๋‹ค๋ฅธ ๋ชจ๋“  ๋‹จ์–ด์— ์ฃผ์˜๋ฅผ ๊ธฐ์šธ์ผ ์ˆ˜ ์žˆ๊ฒŒ ํ–ˆ์œผ๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๊ธด ๋ฌธ๋งฅ์„ ์ž˜ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

    ํ•˜์ง€๋งŒ Transformer๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ•œ๊ณ„๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค:

    • ์ด์ฐจ์ ์ธ ๊ณ„์‚ฐ ๋ณต์žก๋„: ์‹œํ€€์Šค ๊ธธ์ด๊ฐ€ ๊ธธ์–ด์งˆ์ˆ˜๋ก ๊ณ„์‚ฐ ๋น„์šฉ์ด ๊ธ‰๊ฒฉํžˆ ์ฆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
    • ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰ ๋ฌธ์ œ: ๊ธด ์‹œํ€€์Šค ์ฒ˜๋ฆฌ ์‹œ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์ด ํญ๋ฐœ์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ ํ•™์Šต์— ๋ถ€๋‹ด์ด ๋ฉ๋‹ˆ๋‹ค.
  2. SSM ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ:

    SSM์€ ์—ฐ์†์ ์ธ ์ƒํƒœ ๊ฐฑ์‹ ์„ ํ†ตํ•ด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๋ฉฐ, ์ด๋ฅผ ์„ ํ˜•์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์–ด ๋” ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค. ํŠนํžˆ, ์„ ํ˜• ๋ณต์žก๋„๋กœ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ธด ์‹œํ€€์Šค์—์„œ๋„ ๋งค์šฐ ํšจ์œจ์ ์œผ๋กœ ๋™์ž‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด ์—ฐ๊ตฌ์—์„œ๋Š” S4 ๋ฐ Mamba์™€ ๊ฐ™์€ SSM์ด Transformer์™€ ๋น„๊ตํ•ด ์†Œ๊ทœ๋ชจ ๋ฐ ์ค‘๊ทœ๋ชจ ์ž‘์—…์—์„œ ๋งค์šฐ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์ผ ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

10.2. Transformer์™€ SSM์˜ ์œตํ•ฉ ์—ฐ๊ตฌ

์ด ๋…ผ๋ฌธ์€ Transformer์™€ SSM์„ ์—ฐ๊ฒฐํ•˜๋ ค๋Š” ์—ฐ๊ตฌ๋กœ, ๋‘ ๋ชจ๋ธ์ด ์ด์ค‘์„ฑ(Duality) ๊ด€๊ณ„์— ์žˆ์Œ์„ ์ฆ๋ช…ํ•ฉ๋‹ˆ๋‹ค. Transformer์˜ ๋น„์„ ํ˜•์ ์ธ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜๊ณผ SSM์˜ ์„ ํ˜•์  ์‹œํ€€์Šค ์ฒ˜๋ฆฌ ๋ฐฉ์‹์ด ๋™์ผํ•œ ์ด๋ก ์  ๊ธฐ๋ฐ˜์—์„œ ์„ค๋ช…๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์—์„œ, ๋‘ ๋ชจ๋ธ ๊ฐ„์˜ ์—ฐ๊ฒฐ ๊ณ ๋ฆฌ๋ฅผ ์ฐพ์•„๋‚ด๊ณ  ์ด๋ฅผ ํ†ตํ•ด ๋‘ ๋ชจ๋ธ์˜ ์žฅ์ ์„ ๊ฒฐํ•ฉํ•œ ์ƒˆ๋กœ์šด ์•„ํ‚คํ…์ฒ˜๋ฅผ ์„ค๊ณ„ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

  • Transformer ์ตœ์ ํ™” ๊ธฐ๋ฒ•์„ SSM์— ์ ์šฉํ•˜์—ฌ ๋” ํšจ์œจ์ ์ธ ๋ชจ๋ธ์„ ์„ค๊ณ„ํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
  • Mamba-2๋Š” ๋‘ ๋ชจ๋ธ์˜ ๊ฐ•์ ์„ ๊ฒฐํ•ฉํ•œ ์•„ํ‚คํ…์ฒ˜๋กœ, SSM์˜ ํšจ์œจ์„ฑ๊ณผ Transformer์˜ ์œ ์—ฐ์„ฑ์„ ๋ชจ๋‘ ์‚ด๋ฆด ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

10.3. FlashAttention ๋ฐ Kernel Attention๊ณผ์˜ ๊ด€๋ จ์„ฑ

์ด ๋…ผ๋ฌธ์—์„œ๋Š” FlashAttention๊ณผ Kernel Attention๊ณผ๋„ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค. FlashAttention์€ Transformer์—์„œ ์–ดํ…์…˜ ๊ณ„์‚ฐ์„ ๋” ๋น ๋ฅด๊ฒŒ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•œ ์ตœ์‹  ๊ธฐ์ˆ ๋กœ, ํŠนํžˆ ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ๋งค์šฐ ํšจ๊ณผ์ ์ž…๋‹ˆ๋‹ค. Kernel Attention์€ ์ปค๋„ ํ•จ์ˆ˜(kernel functions)๋ฅผ ์‚ฌ์šฉํ•ด ์†Œํ”„ํŠธ๋งฅ์Šค ์—ฐ์‚ฐ์„ ๋Œ€์ฒดํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ๊ณ„์‚ฐ ๋ณต์žก๋„๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•œ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค.

์ด ๋…ผ๋ฌธ์€ FlashAttention ๋ฐ Kernel Attention์ด SSM์˜ ๊ตฌ์กฐ์™€๋„ ๋ฐ€์ ‘ํ•˜๊ฒŒ ์—ฐ๊ด€๋˜์–ด ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ํŠนํžˆ, SSM์€ ์ปค๋„ ์–ดํ…์…˜๊ณผ ์„ ํ˜• ์žฌ๊ท€ ๋ฐฉ์‹์„ ๊ฒฐํ•ฉํ•ด ๋” ํšจ์œจ์ ์ธ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ์ž ์žฌ๋ ฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

10.4. ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

๋งˆ์ง€๋ง‰์œผ๋กœ, ์ด ๋…ผ๋ฌธ์€ ์•ž์œผ๋กœ์˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์— ๋Œ€ํ•ด ๋…ผ์˜ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, Mamba-2๊ฐ€ Transformer์™€ SSM์˜ ์žฅ์ ์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ์‹œํ€€์Šค ๋ชจ๋ธ๋กœ ์ž๋ฆฌ ์žก์„ ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค.

  1. SSM์˜ ํ•˜๋“œ์›จ์–ด ์ตœ์ ํ™”:

    SSM์€ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ์— ์ ํ•ฉํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์ง€๋งŒ, ๋” ๋‚˜์€ ํ•˜๋“œ์›จ์–ด ์ตœ์ ํ™”๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. GPU์™€ TPU ๊ฐ™์€ ์ตœ์‹  ํ•˜๋“œ์›จ์–ด์—์„œ ๋” ํšจ์œจ์ ์œผ๋กœ ๋™์ž‘ํ•  ์ˆ˜ ์žˆ๋„๋ก ์ตœ์ ํ™”๋œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ฐœ๋ฐœํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.

  2. ๋‹ค์–‘ํ•œ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์—์„œ์˜ ์„ฑ๋Šฅ ๊ฒ€์ฆ:

    Mamba-2๋Š” ์ฃผ๋กœ ์–ธ์–ด ๋ชจ๋ธ๋ง ์ž‘์—…์—์„œ ํ‰๊ฐ€๋˜์—ˆ์ง€๋งŒ, ๋‹ค๋ฅธ ์ž‘์—…์—์„œ๋„ ์„ฑ๋Šฅ์„ ์ถ”๊ฐ€๋กœ ๊ฒ€์ฆํ•  ํ•„์š”๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์Œ์„ฑ ์ธ์‹, ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ, ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋“ฑ์˜ ์ž‘์—…์—์„œ Mamba-2์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜์—ฌ ๋ชจ๋ธ์˜ ๋ฒ”์šฉ์„ฑ์„ ๋†’์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  3. ๋ชจ๋ธ ํ™•์žฅ์„ฑ:

    Mamba-2๋Š” ํ˜„์žฌ ์ค‘๊ฐ„ ๊ทœ๋ชจ์˜ ๋ชจ๋ธ์—์„œ Transformer์™€ ๊ฒฝ์Ÿํ•  ์ˆ˜ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์˜€์ง€๋งŒ, ๋” ํฐ ๊ทœ๋ชจ์˜ ๋ชจ๋ธ๋กœ ํ™•์žฅํ•˜์—ฌ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ๋Œ€๊ทœ๋ชจ ํ•™์Šต ํ™˜๊ฒฝ์—์„œ Mamba-2๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ž˜ ํ™•์žฅ๋  ์ˆ˜ ์žˆ๋Š”์ง€, ๊ทธ๋ฆฌ๊ณ  ๋Œ€๊ทœ๋ชจ Transformer์™€์˜ ์„ฑ๋Šฅ ๋น„๊ต๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์˜ ๊ฒฝ์Ÿ๋ ฅ์„ ํ‰๊ฐ€ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

  4. Transformer์™€ SSM์˜ ์œตํ•ฉ:

    ๋‘ ๋ชจ๋ธ์˜ ์ด์ค‘์„ฑ ๊ด€๊ณ„๋ฅผ ๋” ๊นŠ์ด ์—ฐ๊ตฌํ•˜์—ฌ, Transformer์™€ SSM์˜ ์žฅ์ ์„ ๊ฒฐํ•ฉํ•œ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด, ์‹œํ€€์Šค ๋ชจ๋ธ๋ง์˜ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•˜๋Š” ์ƒˆ๋กœ์šด ์•„ํ‚คํ…์ฒ˜๋ฅผ ํƒ๊ตฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.



-->