[Paper Review] Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Posted by Euisuk's Dev Log on September 29, 2024

[Paper Review] Mamba: Linear-Time Sequence Modeling with Selective State Spaces

์›๋ณธ ๊ฒŒ์‹œ๊ธ€: https://velog.io/@euisuk-chung/Paper-Review-Mamba-Linear-Time-Sequence-Modeling-with-Selective-State-Spaces

์ตœ๊ทผ ๋”ฅ๋Ÿฌ๋‹ ์•„ํ‚คํ…์ฒ˜์˜ ์ค‘์‹ฌ์—๋Š” ํŠธ๋žœ์Šคํฌ๋จธ๊ฐ€ ์ž๋ฆฌ ์žก๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ๊ทธ๋ฆผ์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ์“ฐ์ด๋Š” ๋””ํ“จ์ „ ๋ชจ๋ธ ๋˜ํ•œ ํŠธ๋žœ์Šคํฌ๋จธ ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด์™ธ์—๋„ ์‹œ๊ณ„์—ด ๋ถ„์„์ด๋‚˜ ์ถ”์ฒœ ์‹œ์Šคํ…œ๊ณผ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ํŠธ๋žœ์Šคํฌ๋จธ๊ฐ€ ํ•ต์‹ฌ์ ์ธ ์—ญํ• ์„ ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ๋Œ€์ฒดํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋ชจ์ƒ‰ํ•˜๋ ค๋Š” ์—ฐ๊ตฌ๋Š” ๊ณ„์†๋˜๊ณ  ์žˆ์œผ๋ฉฐ, ๊ทธ ์ค‘์—์„œ๋„ ํŠนํžˆ ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ๋Š” ๊ฒƒ์ด State Space Model(SSM)์ž…๋‹ˆ๋‹ค. ์ตœ๊ทผ โ€œMamba: Linear-Time Sequence Modeling with Selective State Spacesโ€œ๋ผ๋Š” ๋…ผ๋ฌธ๊ณผ ๊ทธ ๋ชจ๋ธ์ด ๊ณต๊ฐœ๋˜๋ฉด์„œ, SSM์ด ํŠธ๋žœ์Šคํฌ๋จธ์˜ ๋Œ€์•ˆ์œผ๋กœ์„œ ๋”์šฑ ๊ด€์‹ฌ์„ ๋Œ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ถ”๊ฐ€์ ์œผ๋กœ ๋ฒŒ์จ Survey ๋…ผ๋ฌธ๋„ ๋ฒŒ์จ ๋‚˜์™”๋Š”๋ฐ์š”!! ํฅ๋ฏธ๋กœ์šด ์ด๋ฏธ์ง€๋“ค๋งŒ ์ข€ reference์šฉ์œผ๋กœ ๊ฐ€์ ธ์˜ค์ž๋ฉด ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค. Mamba ์ดํ›„๋กœ ๋งŽ์€ ํ›„์† ์—ฐ๊ตฌ ๋ฐ Variation๋“ค์ด ๋น ๋ฅด๊ฒŒ ์—ฐ๊ตฌ๋˜๊ณ  ์žˆ๋Š” ๊ฒƒ๋“ค์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ๋งŽ์€ ๊ด€์‹ฌ์„ ๋ฐ›๊ณ  ์žˆ๋Š” SSM ๋ชจ๋ธ

    ์ด๋ฏธ์ง€ ์ถœ์ฒ˜. State Space Model for New-Generation Network Alternative to Transformers: A Survey

  • ์ˆ˜๋งŽ์€ SSM Variation ๋ชจ๋ธ : new paradigm shift?!

    ์ด๋ฏธ์ง€ ์ถœ์ฒ˜. State Space Model for New-Generation Network Alternative to Transformers: A Survey

1. Introduction (์„œ๋ก )

์„œ๋ก ์—์„œ๋Š” Mamba ๋ชจ๋ธ์˜ ํ•„์š”์„ฑ๊ณผ ๊ธฐ์กด Transformer ๋ชจ๋ธ์˜ ํ•œ๊ณ„์ ์„ ์„ค๋ช…ํ•˜๊ณ , Mamba๊ฐ€ ์ด ๋ฌธ์ œ๋ฅผ ์–ด๋–ป๊ฒŒ ํ•ด๊ฒฐํ•˜๋Š”์ง€๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

  • ๊ธฐ์กด Transformer์˜ ๋ฌธ์ œ์ : Transformer๋Š” Attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ๋งค์šฐ ๋›ฐ์–ด๋‚˜์ง€๋งŒ, ์‹œํ€€์Šค ๊ธธ์ด์— ๋”ฐ๋ผ ๊ณ„์‚ฐ ๋ณต์žก๋„๊ฐ€ 2์ฐจ ํ•จ์ˆ˜(Quadratic)๋กœ ์ฆ๊ฐ€ํ•˜์—ฌ, ๊ธด ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃฐ ๋•Œ ๋งค์šฐ ๋น„ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค.

    • ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋งŽ์€ ์—ฐ๊ตฌ์ž๋“ค์ด Linear Attention๊ณผ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ–ˆ์ง€๋งŒ, ๋Œ€๋ถ€๋ถ„์€ ์ •๋ณด ๋ฐ€๋„๊ฐ€ ๋†’์€ ๋ฐ์ดํ„ฐ(์˜ˆ: ํ…์ŠคํŠธ)์—์„œ Transformer๋งŒํผ์˜ ์„ฑ๋Šฅ์„ ๋‚ด์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค.
  • SSM(Structured State Space Models)์˜ ๋“ฑ์žฅ: ์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, Structured State Space Models(SSM)์ด ๋“ฑ์žฅํ–ˆ์Šต๋‹ˆ๋‹ค.

    • SSM์€ ์žฌ๊ท€์  ์‹ ๊ฒฝ๋ง(RNN)๊ณผ ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง(CNN)์˜ ์ด์ ์„ ๊ฒฐํ•ฉํ•œ ๋ชจ๋ธ๋กœ, ์‹œํ€€์Šค์˜ ๊ธธ์ด์— ๋น„๋ก€ํ•˜๋Š” ์„ ํ˜•์ ์ธ ๊ณ„์‚ฐ ๋ณต์žก๋„๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์–ด ๋งค์šฐ ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค.
    • ๊ทธ๋Ÿฌ๋‚˜ SSM์€ ์ •๋ณด ๋ฐ€๋„๊ฐ€ ๋†’์€ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์—์„œ๋Š” Transformer๋งŒํผ์˜ ์„ฑ๋Šฅ์„ ๋‚ด์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค.
  • Mamba ๋ชจ๋ธ์˜ ๋“ฑ์žฅ: Mamba๋Š” ์„ ํƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋„์ž…ํ•œ Selective State Space Model(์„ ํƒ์  ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ)์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฉฐ, ๊ธด ์‹œํ€€์Šค๋ฅผ ๋‹ค๋ฃจ๋ฉด์„œ๋„ Transformer ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๊ณ„์‚ฐ ๋น„์šฉ์„ ์ค„์ผ ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

    • ํŠนํžˆ, ํ…์ŠคํŠธ, ์˜ค๋””์˜ค, ์œ ์ „์ฒดํ•™(genomics) ๋“ฑ์˜ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์œ ํ˜•์—์„œ ๋งค์šฐ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

2. State Space Models (์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ)

์ด ์žฅ์—์„œ๋Š” ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(SSM)์˜ ๊ธฐ๋ณธ ๊ฐœ๋…๊ณผ ์ž‘๋™ ์›๋ฆฌ์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.

  • SSM์˜ ์ž‘๋™ ์›๋ฆฌ: ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์€ ์‹œ์Šคํ…œ์˜ ์ž…๋ ฅ์„ ๊ณ ์ฐจ์›์˜ ์ž ์žฌ ๊ณต๊ฐ„(latent space)์œผ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ˆ˜ํ•™์ ์œผ๋กœ ์—ฐ์† ์‹œ์Šคํ…œ์˜ ์ด์‚ฐํ™”(Discretization) ๊ณผ์ •์œผ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค.

    • ์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„ํ•˜์ž๋ฉด, ์ž…๋ ฅ x(t)x(t)x(t)์„ ์ž ์žฌ ์ƒํƒœ h(t)h(t)h(t)๋กœ ๋ณ€ํ™˜ํ•˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด ์ถœ๋ ฅ y(t)y(t)y(t)์„ ๋„์ถœํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
    • ์ด๋•Œ, ๊ฐ ์‹œ์ ์—์„œ ์ƒํƒœ ๊ณต๊ฐ„์˜ ๋ณ€ํ™”๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ฃผ์š” ๋งค๊ฐœ๋ณ€์ˆ˜ A,B,CA, B, CA,B,C๊ฐ€ ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค.h(t)=Aโ‹…h(tโˆ’1)+Bโ‹…x(t)h(t) = A \cdot h(t-1) + B \cdot x(t)h(t)=Aโ‹…h(tโˆ’1)+Bโ‹…x(t) y(t)=Cโ‹…h(t)y(t) = C \cdot h(t)y(t)=Cโ‹…h(t)
  • ์—ฐ์† ์‹œ์Šคํ…œ์—์„œ ์ด์‚ฐ ์‹œ์Šคํ…œ์œผ๋กœ์˜ ๋ณ€ํ™˜: SSM์—์„œ๋Š” ์—ฐ์†์ ์ธ ์‹œ์Šคํ…œ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์ด์‚ฐํ™”(discretization)ํ•˜์—ฌ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์€ ์—ฐ์† ๋ฐ์ดํ„ฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

    • ์ด ๋•Œ, ์„ ํ˜• ์‹œ๊ฐ„ ๋ถˆ๋ณ€ ์‹œ์Šคํ…œ(LTI, Linear Time-Invariant System)์˜ ๊ฐœ๋…์ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ด ์‹œ์Šคํ…œ์€ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋ณ€ํ•˜์ง€ ์•Š๋Š” ์„ ํ˜•์ ์ธ ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜๋ฏ€๋กœ, ๊ธด ์‹œํ€€์Šค ์ฒ˜๋ฆฌ์— ๋งค์šฐ ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค.

๐Ÿ’ก ๊ฒฐ๊ตญ ์ด์‚ฐํ™”ํ•˜๋ฉด RNN์ด๋ž‘ ๊ฐ™์€ ๊ฑฐ ์•„๋‹Œ๊ฐ€?

  • DSBA ์—ฐ๊ตฌ์‹ค์˜ ์ฒœ์žฌ์› ์„์‚ฌ์ƒ์˜ PYSR์„ ๋ณด๋ฉด ์ด์— ๋Œ€ํ•œ ๋‹ต๋ณ€์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โœ”๏ธ SSM (State Space Model)์˜ ์—ฐ์†์„ฑ

  • SSM์€ ์—ฐ์†์ ์ธ ์‹œ๊ฐ„ ํ๋ฆ„์— ๋”ฐ๋ผ ์‹œ์Šคํ…œ์˜ ์ƒํƒœ๋ฅผ ๋ชจ๋ธ๋งํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ด๋•Œ A์™€ B๋Š” ์—ฐ์†์  ์‹œ์Šคํ…œ์„ ํ‘œํ˜„ํ•˜๋Š” ์ค‘์š”ํ•œ ๋งคํŠธ๋ฆญ์Šค๋“ค๋กœ, ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ์‹œ์Šคํ…œ์˜ ์ƒํƒœ ๋ณ€ํ™”๋ฅผ ๊ธฐ์ˆ ํ•ฉ๋‹ˆ๋‹ค.
    • A: ์ƒํƒœ ๋ณ€ํ™”๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ๋งคํŠธ๋ฆญ์Šค. ์ด์ „ ์ƒํƒœ Xtโˆ’1X_{t-1}Xtโˆ’1โ€‹์— ๊ณฑํ•ด์ ธ์„œ ์‹œ์Šคํ…œ์˜ ์ƒํƒœ๊ฐ€ ์–ด๋–ป๊ฒŒ ๋ณ€ํ•˜๋Š”์ง€ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค.
    • B: ์ž…๋ ฅ์„ ์ƒํƒœ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋งคํŠธ๋ฆญ์Šค. ์ž…๋ ฅ UtU_tUtโ€‹๋ฅผ ๋ฐ›์•„ ์ƒํƒœ์— ๋ฐ˜์˜ํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
    • Aฬ…์™€ Bฬ…๋Š” SSM์—์„œ ์ด์‚ฐํ™” ๋œ ๋ฒ„์ „์˜ ๋งคํŠธ๋ฆญ์Šค๋“ค๋กœ, ์—ฐ์†์ ์ธ ์‹œ์Šคํ…œ์„ ์ด์‚ฐ์ ์ธ ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค. Aฬ…์™€ Bฬ…๋Š” ์—ฐ์†์ ์ธ SSM ๋ชจ๋ธ์˜ ๋„ํ•จ์ˆ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ด์‚ฐ์  ์‹œํ€€์Šค ์ฒ˜๋ฆฌ์— ๋งž๊ฒŒ ๋ณ€ํ™˜๋œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.
  • SSM์˜ ์žฅ์ ์€ ์ด๋Ÿฌํ•œ ์—ฐ์†์ ์ธ ํ๋ฆ„์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์‹œ์Šคํ…œ์˜ ๋ฏธ์„ธํ•œ ๋ณ€ํ™”๋ฅผ ๋” ์ž˜ ๋ชจ๋ธ๋งํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค.
    • ์‹œ๊ฐ„ ๋ณ€ํ™”๊ฐ€ ์—ฐ์†์ ์ธ ์‹œ์Šคํ…œ์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์ž˜ ๋ฐ˜์˜ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์‹œ์Šคํ…œ์˜ ๋ฌผ๋ฆฌ์  ์„ฑ์งˆ์„ ๋” ์ •ํ™•ํ•˜๊ฒŒ ๋ฐ˜์˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โœ”๏ธ RNN (Recurrent Neural Network)์˜ ์ด์‚ฐํ™”

  • RNN์€ ๊ธฐ๋ณธ์ ์œผ๋กœ ์ด์‚ฐํ™”๋œ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ์ค‘์ ์„ ๋‘ก๋‹ˆ๋‹ค. RNN์€ ๊ฐ ์‹œ๊ฐ„ ์Šคํ…์—์„œ ์ด์ „ ์ƒํƒœ์™€ ํ˜„์žฌ ์ž…๋ ฅ์„ ๋ฐ”ํƒ•์œผ๋กœ ๋‹ค์Œ ์ƒํƒœ๋ฅผ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค.
    • RNN์€ ์—ฐ์†์ ์ธ ์‹œ๊ฐ„ ํ๋ฆ„์„ ๋ช…์‹œ์ ์œผ๋กœ ๋ชจ๋ธ๋งํ•˜์ง€ ์•Š์œผ๋ฉฐ, ์ด์ „ ์ƒํƒœ์™€ ํ˜„์žฌ ์ƒํƒœ ๊ฐ„์˜ ๋‹จ์ˆœํ•œ ๊ด€๊ณ„์— ์˜์กดํ•ฉ๋‹ˆ๋‹ค.
  • RNN์˜ ํ•œ๊ณ„๋Š” ์‹œ๊ฐ„์˜ ์—ฐ์†์„ฑ์„ ๋ช…ํ™•ํ•˜๊ฒŒ ๋‹ค๋ฃจ์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์—, ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ๋ฏธ์„ธํ•œ ๋ณ€ํ™”๋ฅผ ๋ฐ˜์˜ํ•˜๋Š” ๋ฐ์—๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค.
    • ์—ฐ์†์ ์ธ ์‹œ๊ฐ„ ํ๋ฆ„์„ ๋ฐ˜์˜ํ•˜์ง€ ์•Š๋Š” ๊ตฌ์กฐ์ด๋ฏ€๋กœ, ๋ฌผ๋ฆฌ์  ์‹œ๊ฐ„ ํ๋ฆ„์ด ์ค‘์š”ํ•œ ๋ฌธ์ œ์— ๋Œ€ํ•ด์„œ๋Š” ์„ฑ๋Šฅ์ด ์ œํ•œ์ ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • SSM ๊ตฌ์กฐ: SSM์˜ ๊ตฌ์กฐ๋Š” ์ฃผ๋กœ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ์ž ์žฌ ์ƒํƒœ๋กœ ๋ณ€ํ™˜ํ•œ ํ›„ ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ถœ๋ ฅ์„ ๋„์ถœํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, ๊ฐ ์ฑ„๋„์ด ๋…๋ฆฝ์ ์œผ๋กœ ์ž‘๋™ํ•˜๋Š” ํŠน์ง•์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด ๊ณ„์‚ฐ์˜ ๋ณ‘๋ ฌํ™”๊ฐ€ ๊ฐ€๋Šฅํ•ด์ ธ ๋งค์šฐ ํšจ์œจ์ ์œผ๋กœ ์ž‘๋™ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • SSM ์•„ํ‚คํ…์ฒ˜ ๊ฐœ์š” : SSM(์ƒํƒœ๊ณต๊ฐ„๋ชจ๋ธ) ์•„ํ‚คํ…์ฒ˜๋Š” ๋…๋ฆฝ์ ์ธ ์‹œํ€€์Šค ๋ณ€ํ™˜ ๋ชจ๋ธ๋กœ, ์—”๋“œ ํˆฌ ์—”๋“œ ์‹ ๊ฒฝ๋ง ์•„ํ‚คํ…์ฒ˜์— ํ†ตํ•ฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

    • SSM ์•„ํ‚คํ…์ฒ˜๋Š” SSNN(State Space Neural Networks)๋ผ๊ณ ๋„ ํ•˜๋ฉฐ, ์ด ๊ฒฝ์šฐ์—๋Š” SSM ๋ ˆ์ด์–ด๊ฐ€ CNN(ํ•ฉ์„ฑ๊ณฑ์‹ ๊ฒฝ๋ง) ๋ ˆ์ด์–ด์™€ ์œ ์‚ฌํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
    • Introduction์—๋Š” ์•„๋ž˜ ์ž˜ ์•Œ๋ ค์ง„ ๋ช‡ ๊ฐ€์ง€ SSM ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ฐ„๋‹จํ•˜๊ฒŒ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค:
      • Linear Attention (Katharopoulos et al. 2020): ์ž๊ฐ€ ์ฃผ์˜์˜ ๊ทผ์‚ฌ๋กœ, ์žฌ๊ท€์„ฑ์„ ํฌํ•จํ•˜๋ฏ€๋กœ ์ผ์ข…์˜ ์„ ํ˜• SSM์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
      • H3 (Dao, Fu, Saab et al. 2023): ์ด ๋ชจ๋ธ์€ S4๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์žฌ๊ท€๋ฅผ ์ผ๋ฐ˜ํ™”ํ•˜๋ฉฐ, SSM์ด ๋‘ ๊ฐœ์˜ ๊ฒŒ์ดํŠธ๊ฐ€ ์žˆ๋Š” ์—ฐ๊ฒฐ ์‚ฌ์ด์— ์œ„์น˜ํ•˜๋Š” ํ˜•ํƒœ์ž…๋‹ˆ๋‹ค. H3๋Š” ํ‘œ์ค€ ์ง€์—ญ ํ•ฉ์„ฑ์„ ์ถ”๊ฐ€ํ•˜์—ฌ ์ด๋ฅผ shift-SSM์œผ๋กœ ๊ฐ„์ฃผํ•ฉ๋‹ˆ๋‹ค.
      • Hyena (Poli et al. 2023): H3์™€ ๋™์ผํ•œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•˜์ง€๋งŒ, S4 ๋ ˆ์ด์–ด๋ฅผ MLP ๋งค๊ฐœ๋ณ€์ˆ˜ํ™”๋œ ์ „์—ญ ํ•ฉ์„ฑ์œผ๋กœ ๋Œ€์ฒดํ•ฉ๋‹ˆ๋‹ค.
      • RetNet (Y. Sun et al. 2023): ์ด ์•„ํ‚คํ…์ฒ˜๋Š” ์ถ”๊ฐ€์ ์ธ ๊ฒŒ์ดํŠธ๋ฅผ ๋”ํ•˜๊ณ , ๋” ๋‹จ์ˆœํ•œ SSM์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์ค‘ ํ—ค๋“œ ์ฃผ์˜(MHA) ๋ณ€ํ˜•์„ ํ†ตํ•ด ๋Œ€์•ˆ์ ์ธ ๋ณ‘๋ ฌ ๊ณ„์‚ฐ ๊ฒฝ๋กœ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
      • RWKV (B. Peng et al. 2023): ์ด ๋ชจ๋ธ์€ ์–ธ์–ด ๋ชจ๋ธ๋ง์„ ์œ„ํ•ด ์„ค๊ณ„๋œ RNN์œผ๋กœ, ๋‹ค๋ฅธ ์„ ํ˜• ์ฃผ์˜ ๊ทผ์‚ฌ์˜ ์ผ์ข…์ธ Attention-free Transformer(S. Zhai et al. 2021)๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ฃผ์š” โ€œWKVโ€ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ LTI ์žฌ๊ท€๋ฅผ ํฌํ•จํ•˜๋ฉฐ, ๋‘ ๊ฐœ์˜ SSM์˜ ๋น„์œจ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

(์ฐธ๊ณ ) LSSL ๋ฐ deepSSM ์ฐจ์› ๊ณ„์‚ฐ ๋ฐฉ์‹

  • ์Šฌ๋ผ์ด๋“œ์— ๋‚˜์˜จ ์ˆ˜์‹๊ณผ ์ œ๊ฐ€ ์“ด ์ˆ˜์‹์ด ์ƒ์ดํ•ฉ๋‹ˆ๋‹ค. ์ €๋Š” ์•ž์— ์“ด ์ˆ˜์‹์— ๋งž๋„๋ก hidden dim์„ h๋กœ, time input์„ x๋กœ ์ •์˜ํ–ˆ์Šต๋‹ˆ๋‹ค.

1. LTI(Linear Time-Invariant) ์‹œ์Šคํ…œ์˜ ์ •์˜

  • LTI ์‹œ์Šคํ…œ์€ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์‹œ์Šคํ…œ์˜ ํŠน์„ฑ์ด ๋ณ€ํ•˜์ง€ ์•Š์œผ๋ฉฐ, ์„ ํ˜•์ ์ด๊ณ  ์‹œ๊ฐ„ ๋ถˆ๋ณ€์ ์ž…๋‹ˆ๋‹ค. ์ฆ‰, ๊ฐ™์€ ์ž…๋ ฅ์ด ์ฃผ์–ด์ง€๋ฉด ์–ธ์ œ๋“ ์ง€ ๋™์ผํ•œ ๋ฐฉ์‹์œผ๋กœ ์ฒ˜๋ฆฌ๋˜๊ณ , ์‹œ๊ฐ„์˜ ํ๋ฆ„์— ๋”ฐ๋ผ ์‹œ์Šคํ…œ์˜ ํ–‰๋™์ด ๋‹ฌ๋ผ์ง€์ง€ ์•Š๋Š” ํŠน์„ฑ์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค.
    • ์ด๋Š” ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ํŠน์„ฑ์— ์˜ํ•ด ์ •์˜๋ฉ๋‹ˆ๋‹ค:
      • ์„ ํ˜•์„ฑ: ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์˜ ๊ด€๊ณ„๊ฐ€ ์„ ํ˜•์ž…๋‹ˆ๋‹ค. ์ฆ‰, ์ž…๋ ฅ์˜ ํ•ฉ์ด ์ถœ๋ ฅ์˜ ํ•ฉ์œผ๋กœ ์„ ํ˜•์ ์œผ๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค.
      • ์‹œ๊ฐ„ ๋ถˆ๋ณ€์„ฑ: ์‹œ์Šคํ…œ์˜ ์ƒํƒœ ๋ณ€ํ™”๋Š” ์‹œ๊ฐ„์— ์˜์กดํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์ฆ‰, ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์‹œ์Šคํ…œ์˜ ์„ฑ๋Šฅ์ด๋‚˜ ๋™์ž‘์ด ๋‹ฌ๋ผ์ง€์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

โ“ ๊ทธ๋ ‡๋‹ค๋ฉด ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋“œ๋Š” ์˜๋ฌธ์ ์€?

  • ๐Ÿค” : ํ .. ์–˜๋ฅผ dmodeld_{\text{model}}dmodelโ€‹ ์ฐจ์›์œผ๋กœ ์–ด๋–ป๊ฒŒ ํ™•์žฅ์„ ์‹œํ‚ฌ๊นŒ? ํ•˜๋Š” ์ƒ๊ฐ์„ ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
    • ๋‹จ์ˆœํ•˜๊ฒŒ ์ƒ๊ฐํ•ด๋ณด๋ฉด, ์•„๋ž˜ ๊ทธ๋ฆผ์˜ SSM ๋ชจ๋ธ์ฒ˜๋Ÿผ ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์ด dmodeld_{\text{model}}dmodelโ€‹ ์ฐจ์›์œผ๋กœ ํ™•์žฅํ•˜๋Š” ์‹์œผ๋กœ ์ƒ๊ฐํ•ด๋ณผ ์ˆ˜๋„ ์žˆ๊ธด ํ•ฉ๋‹ˆ๋‹ค๋งŒ!โš ๏ธโš ๏ธ
    • ํ™•์žฅ๋œ ๋ฐฉ์ •์‹:

      h(t)=Aโ‹…h(tโˆ’1)+Bโ‹…x(t)h(t) = A \cdot h(t-1) + B \cdot x(t)h(t)=Aโ‹…h(tโˆ’1)+Bโ‹…x(t)

      y(t)=Cโ‹…h(t)y(t) = C \cdot h(t)y(t)=Cโ‹…h(t)

    • ๊ฐ ์š”์†Œ์˜ ๋””๋ฉ˜์…˜ ๋ณ€ํ™”:

      • h(t)โˆˆRnh(t) \in \mathbb{R}^nh(t)โˆˆRn: ํžˆ๋“  ์Šคํ…Œ์ดํŠธ๋Š” ์—ฌ์ „ํžˆ nnn์ฐจ์›์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค.

      • x(t)โˆˆRdmodelx(t) \in \mathbb{R}^{d_{\text{model}}}x(t)โˆˆRdmodelโ€‹: ์ž…๋ ฅ์ด ์ด์ œ dmodeld_{\text{model}}dmodelโ€‹ ์ฐจ์›์˜ ๋ฒกํ„ฐ๋กœ ํ™•์žฅ๋ฉ๋‹ˆ๋‹ค.

      • y(t)โˆˆRdmodely(t) \in \mathbb{R}^{d_{\text{model}}}y(t)โˆˆRdmodelโ€‹: ์ถœ๋ ฅ ์—ญ์‹œ dmodeld_{\text{model}}dmodelโ€‹ ์ฐจ์›์˜ ๋ฒกํ„ฐ๋กœ ํ™•์žฅ๋ฉ๋‹ˆ๋‹ค.

      • AโˆˆRnร—nA \in \mathbb{R}^{n \times n}AโˆˆRnร—n: ํžˆ๋“  ์Šคํ…Œ์ดํŠธ์˜ ์—…๋ฐ์ดํŠธ๋ฅผ ๋‹ด๋‹นํ•˜๋ฉฐ ์ฐจ์›์€ ๋ณ€ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

      • BโˆˆRnร—dmodelB \in \mathbb{R}^{n \times d_{\text{model}}}BโˆˆRnร—dmodelโ€‹: ์ž…๋ ฅ์„ ํžˆ๋“  ์Šคํ…Œ์ดํŠธ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์—ญํ• ์„ ํ•˜๋ฉฐ, dmodeld_{\text{model}}dmodelโ€‹ ์ฐจ์›์„ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

      • CโˆˆRdmodelร—nC \in \mathbb{R}^{d_{\text{model}} \times n}CโˆˆRdmodelโ€‹ร—n: ํžˆ๋“  ์Šคํ…Œ์ดํŠธ๋ฅผ ์ถœ๋ ฅ์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋งคํŠธ๋ฆญ์Šค.

๐Ÿ’ก ํ•˜์ง€๋งŒ!! ์œ„์™€ ๊ฐ™์€ ๋ฐฉ๋ฒ•์€ ์„ฑ๋ฆฝํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

  • ๊ฒฐ๋ก ๋ถ€ํ„ฐ ๋ง์”€๋“œ๋ฆฌ์ž๋ฉด, State Space Model(SSM)์€ ๋ณธ์งˆ์ ์œผ๋กœ LTI(Linear Time-Invariant) ์‹œ์Šคํ…œ์ด๋ฉฐ, ์ด ํŠน์„ฑ ๋•Œ๋ฌธ์— ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์ด dmodeld_{\text{model}}dmodelโ€‹ ์ฐจ์›์œผ๋กœ ํ™•์žฅ๋˜์—ˆ์„ ๋•Œ, ์ฐจ์›๋ณ„๋กœ ๋…๋ฆฝ์ ์ธ SSM ์ฒ˜๋ฆฌ๊ฐ€ ํ•„์š”ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

โ“ ์™œ ๊ทธ๋Ÿผ ์„ฑ๋ฆฝํ•˜์ง€ ์•Š๋Š”๊ฐ€

=> SSM์€ ๋ณธ์งˆ์ ์œผ๋กœ LTI ์‹œ์Šคํ…œ

  • SSM ์ž์ฒด๊ฐ€ LTI ์‹œ์Šคํ…œ์ด๊ธฐ ๋•Œ๋ฌธ์—, ๊ธฐ๋ณธ์ ์œผ๋กœ ์„ ํ˜•์„ฑ๊ณผ ์‹œ๊ฐ„ ๋ถˆ๋ณ€์„ฑ์ด ๋ณด์žฅ๋˜์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ, SSM์€ ๋‹ค์Œ์˜ ๋‘ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ํŠน์„ฑ์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค:

    • ์„ ํ˜•์„ฑ: ์‹œ์Šคํ…œ์˜ ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ ์‚ฌ์ด์˜ ๊ด€๊ณ„๋Š” ์„ ํ˜•์ž…๋‹ˆ๋‹ค. ์ฆ‰, ์ž…๋ ฅ์ด ๋ณ€ํ•˜๋ฉด ์ถœ๋ ฅ๋„ ์„ ํ˜•์ ์œผ๋กœ ๋ณ€ํ•˜๋ฉฐ, ์ด๋Š” ์‹œ์Šคํ…œ์˜ ๋™์ž‘์„ ๊ฒฐ์ •ํ•˜๋Š” ์„ ํ˜• ๋งคํŠธ๋ฆญ์Šค์— ์˜ํ•ด ์ œ์–ด๋ฉ๋‹ˆ๋‹ค.
    • ์‹œ๊ฐ„ ๋ถˆ๋ณ€์„ฑ: ์‹œ์Šคํ…œ์€ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋ณ€ํ™”ํ•˜์ง€ ์•Š๊ณ  ํ•ญ์ƒ ๋™์ผํ•œ ๋ฐฉ์‹์œผ๋กœ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค. ์ž…๋ ฅ์ด ์–ธ์ œ ๋“ค์–ด์˜ค๋“ , ์‹œ์Šคํ…œ์˜ ์ƒํƒœ์™€ ์ถœ๋ ฅ์€ ๋™์ผํ•œ ๋ฐฉ์‹์œผ๋กœ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.
  • ๋”ฐ๋ผ์„œ SSM์˜ ๋ชจ๋“  ์—ฐ์‚ฐ์€ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋ณ€ํ•˜์ง€ ์•Š์•„์•ผ ํ•˜๋ฉฐ, ์ž…๋ ฅ ์ฐจ์›๊ณผ ์ƒ๊ด€์—†์ด ๋™์ผํ•œ ๋ฐฉ์‹์œผ๋กœ ๋™์ž‘ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์ด dmodeld_{\text{model}}dmodelโ€‹ ์ฐจ์›์œผ๋กœ ํ™•์žฅ๋  ๋•Œ์˜ ๋ฌธ์ œ

  • ๋งŒ์•ฝ ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์ด dmodeld_{\text{model}}dmodelโ€‹ ์ฐจ์›์œผ๋กœ ํ™•์žฅ๋œ๋‹ค๋ฉด, ๋ชจ๋“  ์ฐจ์›์„ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ํ•˜๋‚˜์˜ ๊ณตํ†ต๋œ SSM ๋งคํŠธ๋ฆญ์Šค(AAA, BBB, CCC)๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ๋Š” ๋ฌธ์ œ๊ฐ€ ์ƒ๊ธธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์™œ๋ƒํ•˜๋ฉด:

    1. SSM์€ ๋ณธ์งˆ์ ์œผ๋กœ LTI ์‹œ์Šคํ…œ์ด๊ธฐ ๋•Œ๋ฌธ์—, ๊ฐ ์ฐจ์›์€ ์„œ๋กœ ๋…๋ฆฝ์ ์œผ๋กœ ์ฒ˜๋ฆฌ๋˜์–ด์•ผ๋งŒ ์„ ํ˜•์„ฑ๊ณผ ์‹œ๊ฐ„ ๋ถˆ๋ณ€์„ฑ์ด ๋ณด์žฅ๋ฉ๋‹ˆ๋‹ค.
    2. ์—ฌ๋Ÿฌ ์ฐจ์›์„ ํ•˜๋‚˜์˜ SSM ์‹œ์Šคํ…œ์—์„œ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ์‹์€, ์ฐจ์› ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ์„ ์•ผ๊ธฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ฐ ์ฐจ์›์ด ๊ฐœ๋ณ„์ ์œผ๋กœ ๋…๋ฆฝ์ ์œผ๋กœ ์ฒ˜๋ฆฌ๋˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์—, ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ์ž…๋ ฅ ์ฒ˜๋ฆฌ ๋ฐฉ์‹์ด ๋‹ฌ๋ผ์งˆ ๊ฐ€๋Šฅ์„ฑ์ด ์ƒ๊น๋‹ˆ๋‹ค.
  • ๋”ฐ๋ผ์„œ dmodeld_{\text{model}}dmodelโ€‹ ์ฐจ์›์˜ ์ž…๋ ฅ์„ ํ•˜๋‚˜์˜ SSM์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ์‹์€ LTI ์‹œ์Šคํ…œ์˜ ์š”๊ตฌ ์‚ฌํ•ญ์„ ์œ„๋ฐฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฐจ์›๋ณ„๋กœ ๋…๋ฆฝ์ ์ธ ์ฒ˜๋ฆฌ๊ฐ€ ์ด๋ฃจ์–ด์ง€์ง€ ์•Š์œผ๋ฉด ์ฐจ์› ๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ์ด ๋ฐœ์ƒํ•˜๊ณ , ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๊ฒฐ๊ณผ๊ฐ€ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

๐Ÿ’ก ๊ทธ๋ ‡๋‹ค๋ฉด ์–ด๋–ป๊ฒŒ ๋˜๋Š”๊ฐ€?

=> ๊ฐ ์ฐจ์›์˜ SSM์„ ๋…๋ฆฝ์ ์œผ๋กœ ์ฒ˜๋ฆฌ

  • ์„ค๋ช…:
    • dmodeld_{\text{model}}dmodelโ€‹ ์ฐจ์›์˜ ์ž…๋ ฅ ๋ฒกํ„ฐ๊ฐ€ ์ฃผ์–ด์งˆ ๋•Œ, ๊ฐ ์ฐจ์›์€ ๊ฐœ๋ณ„์ ์ธ SSM์„ ๊ฑฐ์นฉ๋‹ˆ๋‹ค.
    • ์ฆ‰, dmodeld_{\text{model}}dmodelโ€‹๊ฐœ์˜ SSM์ด ๋…๋ฆฝ์ ์œผ๋กœ ์กด์žฌํ•˜๋ฉฐ, ๊ฐ๊ฐ nร—nn \times nnร—n ํฌ๊ธฐ์˜ AAA ๋งคํŠธ๋ฆญ์Šค๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํžˆ๋“  ์Šคํ…Œ์ดํŠธ๋ฅผ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค.
    • ์ด ๊ฒฝ์šฐ ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์˜ ์ฐจ์›์„ ๋งž์ถ”๊ธฐ ์œ„ํ•ด BBB์™€ CCC์˜ ์ฐจ์›๋„ dmodeld_{\text{model}}dmodelโ€‹์— ๋”ฐ๋ผ ํ™•์žฅ๋ฉ๋‹ˆ๋‹ค.
  • ์ตœ์ข… ๋””๋ฉ˜์…˜:
    • AโˆˆRnร—nร—dmodelA \in \mathbb{R}^{n \times n \times d_{\text{model}}}AโˆˆRnร—nร—dmodelโ€‹
    • BโˆˆRnร—dmodelB \in \mathbb{R}^{n \times d_{\text{model}}}BโˆˆRnร—dmodelโ€‹
    • CโˆˆRdmodelร—nC \in \mathbb{R}^{d_{\text{model}} \times n}CโˆˆRdmodelโ€‹ร—n

3. Selective State Space Models (์„ ํƒ์  ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ)

์ด ์žฅ์—์„œ๋Š” ์„ ํƒ์  ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(SSSM, Selective State Space Models)์— ๋Œ€ํ•ด ์„ค๋ช…ํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๊ธฐ์กด SSM์˜ ์„ฑ๋Šฅ์„ ์–ด๋–ป๊ฒŒ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ๋‹ค๋ฃน๋‹ˆ๋‹ค.

๐Ÿ“Š Figure 1 ์„ค๋ช…

  1. xtx_txtโ€‹ (์ž…๋ ฅ ๋ฐ์ดํ„ฐ)
  • ์ž…๋ ฅ ๋ฐ์ดํ„ฐ xtx_txtโ€‹ (์ดˆ๋ก)๋Š” ์‹œํ€€์Šค์˜ ํ˜„์žฌ ์‹œ์ ์—์„œ ๋“ค์–ด์˜ค๋Š” ๋ฐ์ดํ„ฐ์ž…๋‹ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ๋Š” ์—ฌ๋Ÿฌ ์ฑ„๋„(D)๋กœ ๋‚˜๋ˆ„์–ด์ ธ ์žˆ๊ณ , ๊ฐ๊ฐ์˜ ์ฑ„๋„์ด ๋…๋ฆฝ์ ์œผ๋กœ ์ฒ˜๋ฆฌ๋ฉ๋‹ˆ๋‹ค.
    • ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ทธ๋ฆผ์—์„œ๋Š” D=5D = 5D=5๋กœ, 5๊ฐœ์˜ ์ž…๋ ฅ ์ฑ„๋„์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  1. htโˆ’1h_{t-1}htโˆ’1โ€‹ (์ด์ „ ์‹œ์ ์˜ ์ƒํƒœ)
  • htโˆ’1h_{t-1}htโˆ’1โ€‹๋Š” ์ด์ „ ์‹œ์ ์—์„œ ๊ณ„์‚ฐ๋œ ์ž ์žฌ ์ƒํƒœ(latent space)๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ด ์ž ์žฌ ์ƒํƒœ๋Š” ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์ด์–ด์ ธ ์žˆ์œผ๋ฉฐ, ์ด์ „ ์‹œ์ ์˜ ์ •๋ณด๊ฐ€ ํ˜„์žฌ ์‹œ์ ์— ์˜ํ–ฅ์„ ๋ฏธ์นฉ๋‹ˆ๋‹ค.
    • ์˜ˆ๋ฅผ ๋“ค์–ด ๊ทธ๋ฆผ์—์„œ๋Š” N=4N = 4N=4์˜ ๊ณ ์ฐจ์› ๊ณต๊ฐ„์—์„œ ์ •์˜๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.
  1. Bt,Ct,A,ฮ”tB_t, C_t, A, \Delta_tBtโ€‹,Ctโ€‹,A,ฮ”tโ€‹ (SSM์˜ ์ฃผ์š” ๋งค๊ฐœ๋ณ€์ˆ˜)
  • ์ด ๋„ค ๊ฐ€์ง€ ๋งค๊ฐœ๋ณ€์ˆ˜๋Š” SSM์—์„œ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ๋งค๊ฐœ๋ณ€์ˆ˜๋Š” ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ณ , ์ž ์žฌ ์ƒํƒœ hth_thtโ€‹๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋ฉฐ, ์ตœ์ข… ์ถœ๋ ฅ yty_tytโ€‹๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
    • BtB_tBtโ€‹: ์ž…๋ ฅ ๋ฐ์ดํ„ฐ xtx_txtโ€‹์™€ ์ƒํ˜ธ์ž‘์šฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ์ƒํƒœ๋ฅผ ๋งŒ๋“ญ๋‹ˆ๋‹ค.
      • (์ฐธ๊ณ  ์ˆ˜์‹) โ–ถ h(t)=Aโ‹…h(tโˆ’1)+Bโ‹…x(t)h(t) = A \cdot h(t-1) + B \cdot x(t)h(t)=Aโ‹…h(tโˆ’1)+Bโ‹…x(t)
      • ์ด๋•Œ BtB_tBtโ€‹๋Š” ์ž…๋ ฅ ์˜์กด์ ์ด๋ฉฐ, ์ž…๋ ฅ์— ๋”ฐ๋ผ ๋™์ ์œผ๋กœ ๋ณ€ํ™”ํ•ฉ๋‹ˆ๋‹ค.
    • AAA: ์ž ์žฌ ์ƒํƒœ hth_thtโ€‹๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ์ค‘์š”ํ•œ ๋งค๊ฐœ๋ณ€์ˆ˜์ž…๋‹ˆ๋‹ค. ์ด์ „ ์ƒํƒœ์™€ ํ˜„์žฌ ์ž…๋ ฅ์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ์ƒˆ๋กœ์šด ์ƒํƒœ๋ฅผ ๊ณ„์‚ฐํ•  ๋•Œ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
    • CtC_tCtโ€‹: ๊ณ„์‚ฐ๋œ ์ž ์žฌ ์ƒํƒœ hth_thtโ€‹๋ฅผ ์ถœ๋ ฅ yty_tytโ€‹๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
      • (์ฐธ๊ณ  ์ˆ˜์‹) โ–ถ y(t)=Cโ‹…h(t)y(t) = C \cdot h(t)y(t)=Cโ‹…h(t)
      • ์ด๋ฅผ ํ†ตํ•ด ์ตœ์ข…์ ์œผ๋กœ ์‹œํ€€์Šค์˜ ๊ฐ ์‹œ์ ์—์„œ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์„ ์–ป์Šต๋‹ˆ๋‹ค.
    • ฮ”t\Delta_tฮ”tโ€‹: ์ด ๋งค๊ฐœ๋ณ€์ˆ˜๋Š” ์‹œ๊ฐ„ ์ฐจ์›์„ ์กฐ์ ˆํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

      • ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์ƒํƒœ ๊ณต๊ฐ„์—์„œ์˜ ๋ณ€ํ™”๋ฅผ ์กฐ์ •ํ•˜์—ฌ ๋ชจ๋ธ์ด ์‹œํ€€์Šค๋ฅผ ๋”ฐ๋ผ ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ๊ธฐ์–ตํ•˜๊ฑฐ๋‚˜ ์žŠ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค.
  1. ์„ ํƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜ (Selection Mechanism)
  • ์„ ํƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ์ด ๋ชจ๋ธ์˜ ํ•ต์‹ฌ์ ์ธ ์š”์†Œ๋กœ, SSSM์—์„œ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ์„ ํƒ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค.
    • ์ด ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ํ•„ํ„ฐ๋งํ•˜์—ฌ ์ค‘์š”ํ•œ ์ •๋ณด๋งŒ์„ ์„ ํƒํ•˜๊ณ , ๋ถˆํ•„์š”ํ•œ ์ •๋ณด๋Š” ๋ฌด์‹œํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•์Šต๋‹ˆ๋‹ค. โœจ ์ฆ‰, ์ •๋ณด ์••์ถ• ๋ฐ ์„ ํƒ์  ๊ธฐ์–ต์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. โœจ
    • ๊ทธ๋ฆผ์—์„œ๋Š” ์ด ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ์ž…๋ ฅ xtx_txtโ€‹์™€ ์ƒํ˜ธ์ž‘์šฉํ•˜์—ฌ BtB_tBtโ€‹์™€ ฮ”t\Delta_tฮ”tโ€‹๋ฅผ ์กฐ์ ˆํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค. (ํŒŒ๋ž‘)
  1. GPU ๋ฉ”๋ชจ๋ฆฌ ๊ณ„์ธต (GPU Memory Hierarchy)
  • SSSM์˜ ์ค‘์š”ํ•œ ํŠน์ง• ์ค‘ ํ•˜๋‚˜๋Š” ํ•˜๋“œ์›จ์–ด ์นœํ™”์ ์ธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
    • ์ด ๋ชจ๋ธ์€ GPU์˜ ๊ณ ์† ๋ฉ”๋ชจ๋ฆฌ(SRAM)์™€ ๋Œ€์šฉ๋Ÿ‰ ๋ฉ”๋ชจ๋ฆฌ(HBM) ๊ณ„์ธต์„ ํšจ๊ณผ์ ์œผ๋กœ ํ™œ์šฉํ•˜์—ฌ, ์ž ์žฌ ์ƒํƒœ์˜ ๊ณ„์‚ฐ์„ ์ตœ์ ํ™”ํ•ฉ๋‹ˆ๋‹ค.
    • ์ด ๊ตฌ์กฐ๋ฅผ ํ†ตํ•ด SSSM์€ ํฐ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋„ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๊ณ„์‚ฐ ์ž์›์„ ํšจ์œจ์ ์œผ๋กœ ํ™œ์šฉํ•˜์—ฌ ๋” ๋น ๋ฅด๊ฒŒ ๊ฒฐ๊ณผ๋ฅผ ๋„์ถœํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

3.1 Motivation: Selection as a Means of Compression

์ด ์„น์…˜์€ ์„ ํƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜(selection mechanism)์ด ์™œ ์ค‘์š”ํ•œ์ง€๋ฅผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์ฃผ์š” ๋‚ด์šฉ์€ ๋ฐ์ดํ„ฐ ์••์ถ• ๊ณผ ๊ด€๋ จ๋œ ๋ฌธ์ œ์ด๋ฉฐ, ์„ ํƒ์  ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ์ด๋ฅผ ์–ด๋–ป๊ฒŒ ํ•ด๊ฒฐํ•˜๋Š”์ง€๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค.

  • ์„ ํƒ์˜ ํ•„์š”์„ฑ: ์‹œํ€€์Šค ๋ชจ๋ธ๋ง์˜ ์ฃผ์š” ๊ณผ์ œ ์ค‘ ํ•˜๋‚˜๋Š” ์ปจํ…์ŠคํŠธ(๋ฌธ๋งฅ) ์ •๋ณด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์••์ถ•ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
    • Transformer๋Š” ์ •๋ณด์˜ ์••์ถ•์„ ํ•˜์ง€ ์•Š๊ณ , ๋ชจ๋“  ์ •๋ณด๋ฅผ ์ €์žฅํ•˜์—ฌ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ž‘๋™ํ•˜์ง€๋งŒ, ์ด๋กœ ์ธํ•ด ๋น„ํšจ์œจ์ ์ธ ๊ณ„์‚ฐ์ด ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค.
    • ๋ฐ˜๋ฉด, RNN๊ณผ ๊ฐ™์€ ์žฌ๊ท€ ๋ชจ๋ธ์€ ์ •๋ณด๋ฅผ ์••์ถ•ํ•˜์—ฌ ์ฒ˜๋ฆฌํ•˜์ง€๋งŒ, ์••์ถ•๋œ ์ •๋ณด๊ฐ€ ์†์‹ค๋˜๋ฉด ์„ฑ๋Šฅ์ด ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์„ ํƒ์  ์••์ถ•: SSSM(S4)์€ ์ปจํ…์ŠคํŠธ ์ •๋ณด๋ฅผ ์„ ํƒ์ ์œผ๋กœ ์••์ถ•ํ•˜์—ฌ ์ €์žฅํ•˜๊ฑฐ๋‚˜ ์žŠ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ์ฆ‰, ์‹œํ€€์Šค ๋‚ด์—์„œ ์ค‘์š”ํ•œ ์ •๋ณด๋Š” ๊ธฐ์–ตํ•˜๊ณ , ๋ถˆํ•„์š”ํ•œ ์ •๋ณด๋Š” ๋ฌด์‹œํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ •๋ณด ์••์ถ•์„ ์ตœ์ ํ™”ํ•˜๊ณ , ๋ชจ๋ธ์ด ์‹œํ€€์Šค ์ „๋ฐ˜์— ๊ฑธ์ณ ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ๋†“์น˜์ง€ ์•Š๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

๋ณธ๋ฌธ์—์„œ๋Š” Figure2๋ฅผ ํ†ตํ•ด โ€œ์ •๋ณด ์„ ํƒ ๋ฐ ๋ณต์‚ฌ ์ž‘์—…โ€ ๋˜๋Š” โ€œ์ •๋ณด ํ•„ํ„ฐ๋ง ์ž‘์—…โ€ Task๋“ค์„ ์†Œ๊ฐœํ•˜๋ฉฐ, ๊ธฐ๋ณธ์ ์ธ LTI ์‹œ์Šคํ…œ์€ ์„ ํƒ์  ๋ฉ”์ปค๋‹ˆ์ฆ˜๊ณผ ๋ฌธ๋งฅ ์ฒ˜๋ฆฌ ๋Šฅ๋ ฅ์ด ํ•„์š”ํ•œ Selective Copying Task์™€ Induction Heads Task์— ์ ํ•ฉํ•˜์ง€ ์•Š์Œ์„ ์ง€์ ํ•ฉ๋‹ˆ๋‹ค.

  • 1. Copying Task (Figure2 ์™ผ์ชฝ ์ด๋ฏธ์ง€)

    • ๋ฌธ์ œ: Copying Task๋Š” ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ์–ตํ•˜๊ณ , ํŠน์ • ์œ„์น˜์—์„œ ๋ณต์‚ฌํ•˜๋Š” ์ž‘์—…์ž…๋‹ˆ๋‹ค.

      • ์ด๋•Œ, ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ ๊ฐ„์˜ ๊ฐ„๊ฒฉ์ด ์ผ์ •ํ•˜๊ฒŒ ์œ ์ง€๋ฉ๋‹ˆ๋‹ค. ๋ชจ๋ธ์€ ์‹œํ€€์Šค์˜ ์ผ์ •ํ•œ ๊ฐ„๊ฒฉ์— ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ์–ตํ•˜๊ณ , ๊ทธ๋Œ€๋กœ ๋ณต์‚ฌํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค.
    • ํ•ด๊ฒฐ๋ฐฉ๋ฒ•: ์ด ์ž‘์—…์€ ๋งค์šฐ ๊ฐ„๋‹จํ•œ ํŒจํ„ด์ด๊ธฐ ๋•Œ๋ฌธ์— ์‹œ๊ฐ„ ๋ถˆ๋ณ€ ๋ชจ๋ธ(Time-Invariant Model)๋กœ ์‰ฝ๊ฒŒ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

      • ์‹œ๊ฐ„ ๋ถˆ๋ณ€ ๋ชจ๋ธ์€ ๋ชจ๋“  ์‹œ์ ์—์„œ ๋™์ผํ•œ ๋ฐฉ์‹์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ชจ๋ธ๋กœ, ์„ ํ˜• ์žฌ๊ท€ ๋ชจ๋ธ(Linear Recurrence Model)์ด๋‚˜ ๊ธ€๋กœ๋ฒŒ ํ•ฉ์„ฑ๊ณฑ ๋ชจ๋ธ(Global Convolution Model) ๊ฐ™์€ ๋ฐฉ์‹์ด ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
      • ์ด๋Ÿฌํ•œ ๋ชจ๋ธ์€ ์ž…๋ ฅ ๊ฐ„์˜ ์ผ์ •ํ•œ ๊ฐ„๊ฒฉ์„ ์ธ์‹ํ•˜๊ณ , ๊ทธ์— ๋”ฐ๋ผ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณต์‚ฌํ•˜๋Š” ๋ฐ ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
    • ๊ฒฐ๊ณผ: Copying Task๋Š” ๊ฐ„๊ฒฉ์ด ๊ณ ์ •๋˜์–ด ์žˆ์–ด, LTI(Linear Time-Invariant) ๋ชจ๋ธ๋กœ ์‰ฝ๊ฒŒ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๋‹จ์ˆœํ•œ ์ž‘์—…์ž…๋‹ˆ๋‹ค.

      • ๋ชจ๋ธ์€ ์‹œ๊ฐ„ ํ๋ฆ„์— ๋”ฐ๋ผ ๋™์ผํ•œ ๋ฐฉ์‹์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณต์‚ฌํ•˜์—ฌ ์ด ์ž‘์—…์„ ์™„๋ฒฝํžˆ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • 2. Selective Copying Task (Figure2 ์˜ค๋ฅธ์ชฝ ์œ„ ์ด๋ฏธ์ง€)

    • ๋ฌธ์ œ: Selective Copying Task๋Š” Copying Task์™€ ๋‹ฌ๋ฆฌ, ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ ๊ฐ„์˜ ๊ฐ„๊ฒฉ์ด ์ผ์ •ํ•˜์ง€ ์•Š๊ณ  ๋žœ๋คํ•˜๊ฒŒ ๋ณ€๋™๋ฉ๋‹ˆ๋‹ค.

      • ๋ชจ๋ธ์€ ์‹œํ€€์Šค ๋‚ด์—์„œ ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ์„ ํƒ์ ์œผ๋กœ ๊ธฐ์–ตํ•˜๊ณ , ๋‚˜๋จธ์ง€ ๋ถˆํ•„์š”ํ•œ ์ •๋ณด๋Š” ๋ฌด์‹œํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.
    • ํ•ด๊ฒฐ๋ฐฉ๋ฒ•: ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋ ค๋ฉด ์‹œ๊ฐ„ ๊ฐ€๋ณ€ ๋ชจ๋ธ(Time-Varying Model)๊ณผ ์„ ํƒ์  ๋ฉ”์ปค๋‹ˆ์ฆ˜(Selection Mechanism)์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

      • ์„ ํƒ์  ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ๋ชจ๋ธ์ด ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜์—ฌ ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ์„ ํƒ์ ์œผ๋กœ ๊ธฐ์–ตํ•˜๊ณ , ๋ถˆํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ๋Š” ๋ฌด์‹œํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค.
      • Selective State Space Model(SSSM)๊ณผ ๊ฐ™์€ ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด, ์ž…๋ ฅ ์‹œํ€€์Šค ๋‚ด์—์„œ ์–ด๋–ค ์ •๋ณด๊ฐ€ ์ค‘์š”ํ•œ์ง€ ์„ ํƒํ•˜๊ณ , ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ์„ ํƒ์ ์œผ๋กœ ๊ธฐ์–ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๊ฒฐ๊ณผ: Selective Copying Task๋Š” ์‹œ๊ฐ„ ๊ฐ€๋ณ€์  ์ฒ˜๋ฆฌ์™€ ์„ ํƒ์  ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ํ•ด๊ฒฐ๋ฉ๋‹ˆ๋‹ค.

      • ์ด๋กœ ์ธํ•ด ๋ชจ๋ธ์€ ๊ฐ ์‹œ์ ์—์„œ ์ค‘์š”ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์„ ํƒํ•˜๊ณ , ๋ถˆํ•„์š”ํ•œ ์ •๋ณด๋Š” ๋ฌด์‹œํ•˜์—ฌ ๋ถˆ๊ทœ์น™ํ•œ ์ž…๋ ฅ ๊ฐ„๊ฒฉ์—์„œ๋„ ์ •ํ™•ํ•˜๊ฒŒ ๋ณต์‚ฌ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • 3. Induction Heads Task (Figure2 ์˜ค๋ฅธ์ชฝ ํ•˜๋‹จ ์ด๋ฏธ์ง€)

    • ๋ฌธ์ œ: Induction Heads Task๋Š” ์—ฐ๊ด€ ๊ธฐ์–ต(Associative Recall) ๋ฌธ์ œ๋กœ, ๋ชจ๋ธ์ด ์ด์ „์— ํ•™์Šต๋œ ์ •๋ณด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ฌธ๋งฅ(Context)์„ ์ดํ•ดํ•˜๊ณ , ๋ฌธ๋งฅ์— ๋งž๋Š” ์ถœ๋ ฅ์„ ์œ ์ถ”ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

      • ์ด ์ž‘์—…์—์„œ๋Š” ์ฃผ์–ด์ง„ ์‹œํ€€์Šค์—์„œ ํŠน์ • ํŒจํ„ด์ด ์ฃผ์–ด์ง„ ํ›„, ๋น„์Šทํ•œ ํŒจํ„ด์ด ๋‹ค์‹œ ๋‚˜์˜ฌ ๋•Œ ์˜ฌ๋ฐ”๋ฅธ ์ถœ๋ ฅ์„ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋ฌธ๋งฅ ๊ธฐ๋ฐ˜์˜ ํ•™์Šต๊ณผ ํšŒ์ƒ์„ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค.
    • ํ•ด๊ฒฐ๋ฐฉ๋ฒ•: ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋ชจ๋ธ์ด ๋ฌธ๋งฅ์„ ํ•™์Šตํ•˜๊ณ  ์—ฐ๊ด€ ์ง€์–ด ๊ธฐ์–ตํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

      • ๋‹จ์ˆœํ•œ Copying ์ž‘์—…๊ณผ ๋‹ฌ๋ฆฌ, ๋ชจ๋ธ์€ ์ด์ „ ์‹œ์ ์˜ ๋ฌธ๋งฅ์„ ์—ฐ๊ด€ ์ง€์–ด ๊ธฐ์–ตํ•˜๊ณ , ํ•„์š”ํ•œ ์‹œ์ ์—์„œ ์ด๋ฅผ ํšŒ์ƒํ•˜์—ฌ ์ ์ ˆํ•œ ์ถœ๋ ฅ์„ ์œ ์ถ”ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.
      • ์„ ํƒ์  ๋ฉ”์ปค๋‹ˆ์ฆ˜๊ณผ ํ•จ๊ป˜ ์—ฐ๊ด€ ๊ธฐ์–ต ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์‚ฌ์šฉํ•˜๋ฉด, ๋ชจ๋ธ์ด ๋ฌธ๋งฅ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•„์š”ํ•œ ์ •๋ณด๋ฅผ ๊ธฐ์–ตํ•˜๊ณ , ์ƒˆ๋กœ์šด ์ž…๋ ฅ์ด ๋“ค์–ด์˜ฌ ๋•Œ ๊ทธ ์ •๋ณด๋ฅผ ๋‹ค์‹œ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
      • Selective State Space Model (SSSM)์€ ์ด๋Ÿฌํ•œ ๋ฌธ๋งฅ ๊ธฐ๋ฐ˜ ํ•™์Šต์— ์ ํ•ฉํ•œ ๊ตฌ์กฐ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
    • ๊ฒฐ๊ณผ: Induction Heads Task๋Š” ๋ฌธ๋งฅ ๊ธฐ๋ฐ˜์˜ ์—ฐ๊ด€ ๊ธฐ์–ต์ด ์ค‘์š”ํ•œ ์ž‘์—…์ž…๋‹ˆ๋‹ค. ์„ ํƒ์  ๋ฉ”์ปค๋‹ˆ์ฆ˜๊ณผ ์—ฐ๊ด€ ๊ธฐ์–ต ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ๋ชจ๋ธ์€ ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ํ•™์Šตํ•˜๊ณ , ์ƒˆ๋กœ์šด ์ž…๋ ฅ๊ณผ ๊ด€๋ จ๋œ ํŒจํ„ด์„ ์—ฐ๊ด€ ์ง€์–ด ํšŒ์ƒํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋ฌธ๋งฅ์— ๋งž๋Š” ์˜ˆ์ธก์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค.

์ •๋ฆฌ

  • Copying Task: ์ผ์ •ํ•œ ๊ฐ„๊ฒฉ์˜ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ๋‹จ์ˆœํžˆ ๋ณต์‚ฌํ•˜๋Š” ์ž‘์—…์œผ๋กœ, ์‹œ๊ฐ„ ๋ถˆ๋ณ€ ๋ชจ๋ธ(LTI)์„ ํ†ตํ•ด ์‰ฝ๊ฒŒ ํ•ด๊ฒฐ๋ฉ๋‹ˆ๋‹ค. ์ด ์ž‘์—…์€ ๊ณ ์ •๋œ ๊ตฌ์กฐ์˜ LTI ๋ชจ๋ธ์ด ์‹œ๊ฐ„ ์ธ์‹์„ ํ•„์š”๋กœ ํ•˜์ง€๋งŒ, ์ •๋ณด ์„ ํƒ์ด ๋‹จ์ˆœํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • Selective Copying Task: ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ ๊ฐ„์˜ ๊ฐ„๊ฒฉ์ด ๋žœ๋คํ•˜๊ฒŒ ๋ณ€๋™ํ•˜๋Š” ์ž‘์—…์œผ๋กœ, ์‹œ๊ฐ„ ๊ฐ€๋ณ€ ๋ชจ๋ธ๊ณผ ์„ ํƒ์  ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ์ค‘์š”ํ•œ ์ •๋ณด๋งŒ ์„ ํƒ์ ์œผ๋กœ ๊ธฐ์–ตํ•จ์œผ๋กœ์จ ํ•ด๊ฒฐ๋ฉ๋‹ˆ๋‹ค. ์ด ์ž‘์—…์€ ๋‚ด์šฉ ์ธ์‹์ด ํ•„์ˆ˜์ ์ด๋ฏ€๋กœ, ๊ธฐ์กด LTI ๋ชจ๋ธ์—์„œ๋Š” ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค.
  • Induction Heads Task: ์—ฐ๊ด€ ๊ธฐ์–ต ๋ฌธ์ œ๋กœ, ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ํ•™์Šตํ•˜๊ณ  ์—ฐ๊ด€ ์ง€์–ด ํšŒ์ƒํ•˜๋Š” ๋Šฅ๋ ฅ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์„ ํƒ์  ๋ฉ”์ปค๋‹ˆ์ฆ˜๊ณผ ๋ฌธ๋งฅ ๊ธฐ๋ฐ˜ ๊ธฐ์–ต์„ ํ†ตํ•ด ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ์ž‘์—…์€ ๋ณต์žกํ•œ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ์ดํ•ดํ•˜๊ณ  ๊ธฐ์–ตํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜์—ฌ, ๋ณด๋‹ค ๋ฐœ์ „๋œ ๋ชจ๋ธ ๊ตฌ์กฐ๊ฐ€ ์š”๊ตฌ๋ฉ๋‹ˆ๋‹ค.

3.2 Improving SSMs with Selection (์„ ํƒ์„ ํ†ตํ•œ SSM ์„ฑ๋Šฅ ํ–ฅ์ƒ)

์ด ์„น์…˜์—์„œ๋Š” ์„ ํƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๊ธฐ๋ณธ SSM ๊ตฌ์กฐ์— ํ†ตํ•ฉํ•˜์—ฌ, ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. SSM (S4)๋Š” ๊ณ ์ •๋œ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ„๋‹จํ•œ ๊ตฌ์กฐ๋กœ ์ž‘๋™ํ•˜๋Š” ๋ฐ˜๋ฉด, SSM + Selection (S6)๋Š” ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ๋™์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜์—ฌ ์„ ํƒ์ ์œผ๋กœ ์ •๋ณด๋ฅผ ๊ฐ•์กฐํ•˜๊ฑฐ๋‚˜ ๋ฌด์‹œํ•  ์ˆ˜ ์žˆ๋Š” ๋ณด๋‹ค ๋ณต์žกํ•œ ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค.

  • ์„ ํƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜: SSSM(S4+Selection, S6)์€ SSM์˜ ์ฃผ์š” ๋งค๊ฐœ๋ณ€์ˆ˜(ฮ”,B,C\Delta, B, Cฮ”,B,C)๋ฅผ ์ž…๋ ฅ์— ๋”ฐ๋ผ ์„ ํƒ์ ์œผ๋กœ ๋ณ€๋™์‹œํ‚ด์œผ๋กœ์จ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

    • ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์€ ์‹œํ€€์Šค์˜ ์ค‘์š”ํ•œ ๋ถ€๋ถ„์„ ์„ ํƒ์ ์œผ๋กœ ๊ธฐ์–ตํ•˜๊ณ , ๋ถˆํ•„์š”ํ•œ ๋ถ€๋ถ„์€ ๋ฌด์‹œํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์‹œ๊ฐ„ ๋ถˆ๋ณ€์„ฑ์„ ํฌ๊ธฐํ•˜๊ณ  ํšจ์œจ์„ฑ ๊ทน๋Œ€ํ™”: ์ด ์„ ํƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ์‹œ๊ฐ„ ๋ถˆ๋ณ€์„ฑ์„ ์œ ์ง€ํ•˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์—, ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋™์ ์œผ๋กœ ๋ณ€ํ™”ํ•˜๋Š” ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์ด๋ฅผ ํšจ์œจ์ ์œผ๋กœ ๊ตฌํ˜„ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ถ”๊ฐ€์ ์ธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

๊ธฐ๋ณธ SSM (S4)๊ณผ SSM + Selection (S6)์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ•œ๋ฒˆ ๋น„๊ตํ•˜๋ฉด์„œ ์ฐจ์ด์ ์„ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

๊ธฐ๋ณธ SSM ๊ตฌ์กฐ (Algorithm 1: SSM (S4))

  • ์ž…๋ ฅ:

    • xxx: ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋กœ, ํ˜•ํƒœ๋Š” (B, L, D)์ž…๋‹ˆ๋‹ค.
    • ์—ฌ๊ธฐ์„œ B๋Š” ๋ฐฐ์น˜ ํฌ๊ธฐ(batch size), L์€ ์‹œํ€€์Šค ๊ธธ์ด, D๋Š” ์ฑ„๋„ ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
  • ์ถœ๋ ฅ:

    • yyy: ์ถœ๋ ฅ ๋ฐ์ดํ„ฐ๋กœ, ์ž…๋ ฅ๊ณผ ๊ฐ™์€ ํ˜•ํƒœ๋ฅผ ๊ฐ–์Šต๋‹ˆ๋‹ค. ์ฆ‰, (B, L, D)์ž…๋‹ˆ๋‹ค.
  • ๋งค๊ฐœ๋ณ€์ˆ˜:

    • AAA, BBB, CCC: ์ด ์„ธ ๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋Š” SSM์˜ ํ•ต์‹ฌ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ, ๊ฐ๊ฐ ์ž ์žฌ ์ƒํƒœ์™€ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณ€ํ™˜ํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
    • ฮ”\Deltaฮ”: ์‹œ๊ฐ„ ์Šค์ผ€์ผ์„ ์กฐ์ •ํ•˜๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜๋กœ, ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์—์„œ ์‹œ๊ฐ„์  ๋ณ€ํ™”์™€ ๊ด€๋ จ๋œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
  • ์ž‘๋™ ๋ฐฉ์‹:

    1. AAA, BBB, CCC ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์„ค์ •๋ฉ๋‹ˆ๋‹ค.
    2. ฮ”\Deltaฮ” ๊ฐ’์ด ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ์„ค์ •๋ฉ๋‹ˆ๋‹ค.
    3. ์ฃผ์–ด์ง„ ฮ”\Deltaฮ”์™€ AAA, BBB, CCC ๊ฐ’๋“ค์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ด์‚ฐํ™”(discretization)๊ฐ€ ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค.
    4. ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์ด ์‹œ๊ฐ„ ๋ถˆ๋ณ€(Time-invariant)์ธ ์žฌ๊ท€(recursion) ๋˜๋Š” ํ•ฉ์„ฑ๊ณฑ(convolution)์„ ํ†ตํ•ด ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.

๐Ÿ’ก ํ•ต์‹ฌ ํŠน์ง•: ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์‹œ๊ฐ„ ๋ถˆ๋ณ€์  ๊ตฌ์กฐ๋กœ, ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ๊ณ ์ •๋œ ๋ฐฉ์‹์œผ๋กœ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋™์ผํ•œ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๋ชจ๋“  ์‹œ์ ์— ์ ์šฉํ•œ๋‹ค๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค.

โฑ ๊ณ„์‚ฐ ๋ฐฉ์‹: ์„ ํ˜• ์žฌ๊ท€ ๋˜๋Š” ํ•ฉ์„ฑ๊ณฑ ์—ฐ์‚ฐ์„ ์‚ฌ์šฉํ•˜์—ฌ ์‹œ๊ฐ„ ๋ถˆ๋ณ€์  ์ฒ˜๋ฆฌ๋งŒ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”Ž (์‹ฌํ™”) S4 (SSM) ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ํ…์„œ ์—ฐ์‚ฐ ๋ฐ ์ฐจ์› ๋ณ€ํ™˜

  • S4๋Š” ๊ณ ์ •๋œ ํŒŒ๋ผ๋ฏธํ„ฐ์™€ ์ด์‚ฐํ™” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋“  ์‹œํ€€์Šค์— ๋™์ผํ•œ ์—ฐ์‚ฐ์„ ์ ์šฉํ•˜๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋กœ ์ผ์ •ํ•œ recurrence ๋˜๋Š” convolution์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.
  • ์ž…๋ ฅ ํ…์„œ (x): (B, L, D)์˜ ํ˜•ํƒœ๋ฅผ ๊ฐ€์ง€๋ฉฐ, B๋Š” ๋ฐฐ์น˜ ํฌ๊ธฐ, L์€ ์‹œํ€€์Šค ๊ธธ์ด, D๋Š” ๊ฐ ํ† ํฐ์˜ ์ฐจ์›์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

    • ์ฆ‰, B๊ฐœ์˜ ์ƒ˜ํ”Œ์— ๋Œ€ํ•ด L๊ฐœ์˜ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๋ฉฐ, ๊ฐ ์‹œํ€€์Šค๋Š” D ์ฐจ์›์˜ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค.
  • S4์—์„œ๋Š” (D, N)์˜ ๊ณ ์ •๋œ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๋ชจ๋“  ์‹œํ€€์Šค์— ๋™์ผํ•˜๊ฒŒ ์ ์šฉ๋ฉ๋‹ˆ๋‹ค.

  • ํŒŒ๋ผ๋ฏธํ„ฐ A, B, C: A, B, C๋Š” ๋ชจ๋‘ (D, N) ํ˜•ํƒœ๋กœ ์กด์žฌํ•˜๋ฉฐ, ์—ฌ๊ธฐ์„œ D๋Š” ์ž…๋ ฅ ์ฐจ์›, N์€ ์ˆจ๊ฒจ์ง„ ์ฐจ์›(hidden state)์˜ ํฌ๊ธฐ์ž…๋‹ˆ๋‹ค.

    • A: Structured Nร—NN \times NNร—N ๋งคํŠธ๋ฆญ์Šค๋กœ ์—ฐ์‚ฐ์„ ๋‹ด๋‹นํ•ฉ๋‹ˆ๋‹ค.
    • B: (D, N) ํฌ๊ธฐ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ์„œ, ์ž…๋ ฅ ํ…์„œ์™€ ๊ณฑํ•ด์ ธ ์ƒˆ๋กœ์šด ์ƒํƒœ(state)๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
    • C: ์—ญ์‹œ (D, N) ํฌ๊ธฐ๋ฅผ ๊ฐ€์ง€๋ฉฐ ์ถœ๋ ฅ ํ…์„œ ์ƒ์„ฑ์— ์˜ํ–ฅ์„ ๋ฏธ์นฉ๋‹ˆ๋‹ค.
  • ์ด์‚ฐํ™” (discretization): ์—ฐ์†์  ์‹œ์Šคํ…œ์„ ์ด์‚ฐํ™”ํ•˜์—ฌ ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜๋Š”๋ฐ, ์ด๋•Œ ์‚ฌ์šฉํ•˜๋Š” ฮ”๋Š” (D) ํฌ๊ธฐ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ์ž…๋‹ˆ๋‹ค. ์ด ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ์‹œ๊ฐ„ ๊ฐ„๊ฒฉ์„ ์ด์‚ฐํ™”ํ•˜์—ฌ A, B ๋งคํŠธ๋ฆญ์Šค์˜ ๊ฐ’์„ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.
  • S4์—์„œ๋Š” ๊ณ ์ •๋œ ฮ”๊ฐ€ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ด์‚ฐํ™”๋œ ฮ”๋Š” ๊ฐ ์‹œํ€€์Šค์— ๋Œ€ํ•ด ๊ฐ๊ฐ์˜ ๋งคํŠธ๋ฆญ์Šค A, B์™€ ๊ณฑํ•ด์ ธ hth_thtโ€‹๋ฅผ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค.
  • ์ตœ์ข… ์ถœ๋ ฅ y: (B, L, D) ํฌ๊ธฐ์˜ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ˜ํ™˜ํ•˜๋ฉฐ, ์ด๋Š” time-invariant ๋ฐฉ์‹์œผ๋กœ recurrence๋‚˜ convolution ์—ฐ์‚ฐ์ด ์ ์šฉ๋ฉ๋‹ˆ๋‹ค.

โœ… (๊ฒฐ๋ก ) S4๋Š” ๊ณ ์ •๋œ ํŒŒ๋ผ๋ฏธํ„ฐ์™€ ์ด์‚ฐํ™” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋“  ์‹œํ€€์Šค์— ๋™์ผํ•œ ์—ฐ์‚ฐ์„ ์ ์šฉํ•˜๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋กœ ์ผ์ •ํ•œ recurrence ๋˜๋Š” convolution์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.


์„ ํƒ์  SSM ๊ตฌ์กฐ (Algorithm 2: SSM + Selection (S6))

  • ์ž…๋ ฅ ๋ฐ ์ถœ๋ ฅ:

    • S4์™€ ๋™์ผํ•˜๊ฒŒ, ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋Š” xxx๋กœ (B, L, D)์˜ ํ˜•ํƒœ๋ฅผ ๊ฐ€์ง€๋ฉฐ, ์ถœ๋ ฅ ๋ฐ์ดํ„ฐ๋„ ๊ฐ™์€ (B, L, D) ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค.
  • ์ฃผ์š” ์ฐจ์ด์ :

    • ์„ ํƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ์ ์šฉ: ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์— ๋”ฐ๋ผ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๋ณ€ํ™”ํ•ฉ๋‹ˆ๋‹ค.
      • ์ฆ‰, S6์—์„œ๋Š” ์ž…๋ ฅ ์˜์กด์ ์ธ ์„ ํƒ(selectivity)์ด ์ถ”๊ฐ€๋˜์–ด ์‹œ์ ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๋Š” ๋ฐฉ์‹์œผ๋กœ ์ฒ˜๋ฆฌ๋ฉ๋‹ˆ๋‹ค.
      • ์„ ํƒ์  SSM์—์„œ๋Š” BtB_tBtโ€‹, CtC_tCtโ€‹, ฮ”t\Delta_tฮ”tโ€‹ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์ž…๋ ฅ์— ๋”ฐ๋ผ ๋™์ ์œผ๋กœ ๋ณ€ํ™”ํ•ฉ๋‹ˆ๋‹ค
  • ๋งค๊ฐœ๋ณ€์ˆ˜ ๋ณ€ํ™”:

    1. BBB, CCC: S4์—์„œ๋Š” ๊ณ ์ •๋œ ๋งค๊ฐœ๋ณ€์ˆ˜์˜€์œผ๋‚˜, S6์—์„œ๋Š” sB(x)s_B(x)sBโ€‹(x), sC(x)s_C(x)sCโ€‹(x)์™€ ๊ฐ™์€ ํ•จ์ˆ˜๋กœ ์ž…๋ ฅ xxx์— ๋”ฐ๋ผ ๋ณ€ํ™”ํ•ฉ๋‹ˆ๋‹ค.
    2. ฮ”\Deltaฮ”: S4์—์„œ๋Š” ๊ณ ์ •๋œ ๊ฐ’์ด์—ˆ์œผ๋‚˜, S6์—์„œ๋Š” sฮ”(x)s_{\Delta}(x)sฮ”โ€‹(x)๋ฅผ ํ†ตํ•ด ์ž…๋ ฅ์— ๋”ฐ๋ผ ๋ณ€ํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ์‹œ์ ์— ๋”ฐ๋ผ ๊ฐ€๋ณ€์ ์ธ ์‹œ๊ฐ„ ์Šค์ผ€์ผ์„ ์ ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค.
  • ์ž‘๋™ ๋ฐฉ์‹:

    1. ๋งค๊ฐœ๋ณ€์ˆ˜ AAA, BBB, CCC์™€ ์‹œ๊ฐ„ ์Šค์ผ€์ผ ฮ”\Deltaฮ”๋Š” ์ž…๋ ฅ ๋ฐ์ดํ„ฐ xxx์— ๋”ฐ๋ผ ๋ณ€ํ™”ํ•ฉ๋‹ˆ๋‹ค.
    2. ๊ฐ ์‹œ์ ์—์„œ ์žฌ๊ท€์  ๊ณ„์‚ฐ(recurrence)๋งŒ ์ˆ˜ํ–‰๋˜๋ฉฐ, ์ด๋Š” ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋ณ€ํ™”ํ•˜๋Š” time-varying ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

๐Ÿ’ก ํ•ต์‹ฌ ํŠน์ง•: S6๋Š” ์‹œ๊ฐ„ ๊ฐ€๋ณ€(time-varying) ๊ตฌ์กฐ๋กœ, ์ž…๋ ฅ์— ๋”ฐ๋ผ ๋งค๋ฒˆ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ์„ ํƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ์ค‘์š”ํ•œ ์ •๋ณด๋Š” ๊ธฐ์–ตํ•˜๊ณ , ๋ถˆํ•„์š”ํ•œ ์ •๋ณด๋Š” ๋ฌด์‹œํ•  ์ˆ˜ ์žˆ๋„๋ก ๋งŒ๋“ญ๋‹ˆ๋‹ค.

โฑ ๊ณ„์‚ฐ ๋ฐฉ์‹: ์‹œ๊ฐ„ ๊ฐ€๋ณ€์ ์ด๊ธฐ ๋•Œ๋ฌธ์— ์žฌ๊ท€์  ์—ฐ์‚ฐ๋งŒ์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, ์‹œํ€€์Šค ์ „๋ฐ˜์—์„œ ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ์„ ํƒ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”Ž (์‹ฌํ™”) S6 (SSM + Selection) ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ํ…์„œ ์—ฐ์‚ฐ ๋ฐ ์ฐจ์› ๋ณ€ํ™˜

  • S6๋Š” ์ž…๋ ฅ ์ข…์†์ ์ธ ํŒŒ๋ผ๋ฏธํ„ฐ์™€ ์‹œ๊ฐ„ ๋ณ€์ด์— ๋”ฐ๋ฅธ ์—ฐ์‚ฐ์„ ์‚ฌ์šฉํ•˜์—ฌ ์‹œํ€€์Šค๋งˆ๋‹ค ๋‹ค๋ฅธ ์—ฐ์‚ฐ์ด ์ด๋ฃจ์–ด์ง€๋ฉฐ, ์ด๋Š” ๋™์  ๋ชจ๋ธ๋ง์— ๋” ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
  • ์ž…๋ ฅ ํ…์„œ (x): (B, L, D)๋กœ ๋™์ผํ•˜์ง€๋งŒ, ์ž…๋ ฅ ๊ฐ’์— ๋”ฐ๋ผ ๋‹ค์–‘ํ•œ ๋งคํŠธ๋ฆญ์Šค ์—ฐ์‚ฐ์ด ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค.
  • S6์—์„œ๋Š” ์ž…๋ ฅ x์— ๋”ฐ๋ผ (B, L, N) ์ฐจ์›์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์ด ๊ฐ ์‹œํ€€์Šค๋ณ„๋กœ ๋‹ค๋ฅด๊ฒŒ ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ฐ ์‹œํ€€์Šค๋งˆ๋‹ค ๋‹ค๋ฅธ ๋งคํ•‘์ด ์ผ์–ด๋‚ฉ๋‹ˆ๋‹ค.

  • ํŒŒ๋ผ๋ฏธํ„ฐ ๋ณ€ํ™˜ (sB, sC, sฮ”): S6์—์„œ๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์ด ์ž…๋ ฅ์— ์ข…์†์ ์œผ๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค.

    • sB(x): ์ž…๋ ฅ x์— ๋”ฐ๋ผ (B, L, N) ์ฐจ์›์œผ๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค. ์ฆ‰, ๊ฐ ๋ฐฐ์น˜ B์˜ ๊ฐ ์‹œํ€€์Šค L์— ๋Œ€ํ•ด, ์ˆจ๊ฒจ์ง„ ์ฐจ์› N์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ๊ธฐ์กด S4์—์„œ ๋ชจ๋“  ์‹œํ€€์Šค๊ฐ€ ๋™์ผํ•œ B ๋งคํŠธ๋ฆญ์Šค๋ฅผ ์‚ฌ์šฉํ–ˆ๋˜ ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ, ์ด์ œ๋Š” ๊ฐ ์‹œํ€€์Šค๋งˆ๋‹ค ๋‹ค๋ฅธ B๊ฐ€ ์ ์šฉ๋ฉ๋‹ˆ๋‹ค.
    • sC(x): ์—ญ์‹œ ์ž…๋ ฅ์— ๋”ฐ๋ผ (B, L, N) ์ฐจ์›์œผ๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค.
    • sฮ”(x): ์ž…๋ ฅ์— ๋”ฐ๋ผ ์‹œ๊ฐ„ ๊ฐ„๊ฒฉ์„ ๋‚˜ํƒ€๋‚ด๋Š” ฮ” ์—ญ์‹œ (B, L, D)๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค. ์ฆ‰, ๊ฐ ๋ฐฐ์น˜์™€ ๊ฐ ์‹œํ€€์Šค๋งˆ๋‹ค ๋‹ค๋ฅธ ฮ” ๊ฐ’์ด ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค.
  • ์ด์‚ฐํ™” ์—ฐ์‚ฐ (discretization): S4์™€ ์œ ์‚ฌํ•˜๊ฒŒ ์ด์‚ฐํ™”๋ฅผ ํ†ตํ•ด ์—ฐ์‚ฐ์ด ์ด๋ฃจ์–ด์ง€์ง€๋งŒ, ์—ฌ๊ธฐ์„œ๋Š” ์ž…๋ ฅ์— ์ข…์†์ ์œผ๋กœ ๋ณ€ํ™˜๋œ ฮ”๊ฐ€ ์‚ฌ์šฉ๋˜๋ฏ€๋กœ ๋” ๋ณต์žกํ•œ ํ˜•ํƒœ์˜ ์—ฐ์‚ฐ์ด ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค.
  • S6์—์„œ๋Š” sฮ”(x)๊ฐ€ ๊ฐ ์‹œํ€€์Šค๋ณ„๋กœ ๋‹ค๋ฅด๊ฒŒ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค. ์ด์‚ฐํ™”๋œ ฮ”๋Š” ๊ฐ ์‹œํ€€์Šค์— ๋Œ€ํ•ด ๊ฐ๊ฐ์˜ ๋งคํŠธ๋ฆญ์Šค A, B์™€ ๊ณฑํ•ด์ ธ hth_thtโ€‹๋ฅผ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค.

โœ”๏ธ ์ด๋•Œ ๊ฐ ์‹œํ€€์Šค๋Š” ๊ณ ์œ ํ•œ ฮ”๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๊ธฐ ๋•Œ๋ฌธ์— S6์—์„œ๋Š” ํ† ํฐ๋งˆ๋‹ค ์„œ๋กœ ๋‹ค๋ฅธ ์—ฐ์‚ฐ์ด ์ ์šฉ๋ฉ๋‹ˆ๋‹ค.

  • ์ตœ์ข… ์ถœ๋ ฅ y: S6์˜ ์ตœ์ข… ์ถœ๋ ฅ ์—ญ์‹œ (B, L, D) ์ฐจ์›์„ ๊ฐ€์ง€์ง€๋งŒ, S4์™€ ๋‹ฌ๋ฆฌ ์ž…๋ ฅ์— ๋”ฐ๋ผ ๋™์ ์œผ๋กœ ๋ณ€ํ™”ํ•œ recurrence ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, ๊ฐ ์‹œํ€€์Šค๋งˆ๋‹ค ๋‹ค๋ฅด๊ฒŒ ์ด์‚ฐํ™”๋œ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์ ์šฉ๋˜๊ธฐ ๋•Œ๋ฌธ์— ๊ฐ ํ† ํฐ์— ๋งž๋Š” ์—ฐ์‚ฐ์ด ์ˆ˜ํ–‰๋ฉ๋‹ˆ๋‹ค.

โœ… (๊ฒฐ๋ก ) S6๋Š” ์ž…๋ ฅ ์ข…์†์ ์ธ ํŒŒ๋ผ๋ฏธํ„ฐ์™€ ์‹œ๊ฐ„ ๋ณ€์ด์— ๋”ฐ๋ฅธ ์—ฐ์‚ฐ์„ ์‚ฌ์šฉํ•˜์—ฌ ์‹œํ€€์Šค๋งˆ๋‹ค ๋‹ค๋ฅธ ์—ฐ์‚ฐ์ด ์ด๋ฃจ์–ด์ง€๋ฉฐ, ์ด๋Š” ๋™์  ๋ชจ๋ธ๋ง์— ๋” ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.


๐Ÿ’ฌ Time In-Variant? ๋ฌด์Šจ ๋œป์ด์ง€?

  • ์‹œ๊ฐ„ ๋ถˆ๋ณ€์  ์ฒ˜๋ฆฌ๋ผ๋Š” ๊ฐœ๋…์€ โ€œ๋ชจ๋ธ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜(๊ฐ€์ค‘์น˜)๊ฐ€ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋ณ€ํ•˜์ง€ ์•Š๋Š”๋‹ค๋Š” ๊ฒƒโ€์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
    • ์ฆ‰, ๋ชจ๋ธ์ด ์ž…๋ ฅ ์‹œํ€€์Šค์˜ ๊ฐ ์‹œ์ (t)์— ๋Œ€ํ•ด ๋™์ผํ•œ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
    • ์ด๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค:
      • ์ •์ ์ธ ๊ฐ€์ค‘์น˜: ๊ธฐ์กด SSM ๋ชจ๋ธ์—์„œ ์‚ฌ์šฉ๋˜๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜ A, B, C ๋“ฑ์€ ์‹œ์ ๋งˆ๋‹ค ๊ณ ์ •๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ, ๊ฐ™์€ ์ž…๋ ฅ์— ๋Œ€ํ•ด์„œ๋Š” ํ•ญ์ƒ ๊ฐ™์€ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
        • ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ณผ๊ฑฐ์˜ ์ž…๋ ฅ์ด ๋ฏธ๋ž˜์˜ ์ถœ๋ ฅ์— ์˜ํ–ฅ์„ ๋ฏธ์น  ๋•Œ, ์ถœ๋ ฅ์— ์˜ํ–ฅ์„ ์ฃผ๋Š” ๊ฐ€์ค‘์น˜๊ฐ€ ๋ณ€ํ•˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— ํŠน์ • ์ž…๋ ฅ์— ๋Œ€ํ•ด ์ ํ•ฉํ•˜๊ฒŒ ์กฐ์ •๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.
      • ์ž…๋ ฅ ์˜์กด์„ฑ ๋ถ€์กฑ: ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์— ๋”ฐ๋ผ ๋ชจ๋ธ์ด ๋™์ ์œผ๋กœ ๋ฐ˜์‘ํ•˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค.
        • ์˜ˆ๋ฅผ ๋“ค์–ด, ์–ด๋–ค ํŠน์ • ์ž…๋ ฅ์ด ๋งค์šฐ ์ค‘์š”ํ•  ๋•Œ ๊ทธ ์ž…๋ ฅ์— ๋Œ€ํ•œ ๋ฐ˜์‘์„ ๊ฐ•ํ™”ํ•˜๊ฑฐ๋‚˜, ๋ฐ˜๋Œ€๋กœ ๋œ ์ค‘์š”ํ•œ ์ •๋ณด๋Š” ๋ฌด์‹œํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์—†์Šต๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ, ์ž…๋ ฅ ์‹œํ€€์Šค์˜ ๋งฅ๋ฝ์ด๋‚˜ ์ค‘์š”ํ•œ ์ •๋ณด์— ๋”ฐ๋ผ ๋ชจ๋ธ์ด ํ•™์Šต๋œ ํ–‰๋™์„ ๋ณ€ํ™”์‹œํ‚ฌ ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์ด ์ œํ•œ๋ฉ๋‹ˆ๋‹ค.

๐Ÿ”Ž S4์™€ S6์˜ ์ฐจ์ด์  ๋ถ„์„

  • ์ž…๋ ฅ ์˜์กด์„ฑ
    • S4: ๊ณ ์ •๋œ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ, ๋ชจ๋“  ์‹œ์ ์—์„œ ๋™์ผํ•œ ๊ณ„์‚ฐ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ๋ชจ๋“  ์‹œ์ ์—์„œ ๋™์ผํ•œ ๋ฐฉ์‹์œผ๋กœ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
    • S6: ์„ ํƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ์ž…๋ ฅ ๋ฐ์ดํ„ฐ xxx์— ๋”ฐ๋ผ ๋งค๊ฐœ๋ณ€์ˆ˜๋“ค์ด ๋™์ ์œผ๋กœ ๋ณ€ํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์— ๋”ฐ๋ผ ๊ฐ ์‹œ์ ์—์„œ ํ•„์š”ํ•œ ์ •๋ณด๋ฅผ ์„ ํƒ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค.
  • ์‹œ๊ฐ„ ๋ถˆ๋ณ€์„ฑ(Time-invariant) vs ์‹œ๊ฐ„ ๊ฐ€๋ณ€์„ฑ(Time-varying)
    • S4: ์‹œ๊ฐ„ ๋ถˆ๋ณ€์ ์ธ ๊ตฌ์กฐ๋กœ, ๋™์ผํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๋ชจ๋“  ์‹œ์ ์— ์ ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ฃผ๋กœ ํ•ฉ์„ฑ๊ณฑ(convolution)์ด๋‚˜ ์žฌ๊ท€(recursion) ํ˜•ํƒœ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
    • S6: ์‹œ๊ฐ„ ๊ฐ€๋ณ€์ ์ธ ๊ตฌ์กฐ๋กœ, ์ž…๋ ฅ์— ๋”ฐ๋ผ ๋งค๊ฐœ๋ณ€์ˆ˜๋“ค์ด ๋ณ€ํ™”ํ•˜๊ณ , ์žฌ๊ท€์  ๋ฐฉ์‹์œผ๋กœ ๊ณ„์‚ฐ์ด ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์‹œํ€€์Šค์˜ ๊ฐ ์‹œ์ ์—์„œ ์ค‘์š”ํ•œ ์ •๋ณด๋Š” ๊ธฐ์–ตํ•˜๊ณ , ๋ถˆํ•„์š”ํ•œ ์ •๋ณด๋Š” ๋ฌด์‹œํ•˜๋Š” ์„ ํƒ์  ์ฒ˜๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
  • ํšจ์œจ์„ฑ
    • S4: ์‹œ๊ฐ„ ๋ถˆ๋ณ€์„ฑ์„ ์œ ์ง€ํ•˜๋Š” SSM์€ ๊ณ„์‚ฐ์˜ ๋ณ‘๋ ฌํ™”๊ฐ€ ๊ฐ€๋Šฅํ•˜์—ฌ, ๋น„๊ต์  ํšจ์œจ์ ์ธ ๊ณ„์‚ฐ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • S6: ์„ ํƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ถ”๊ฐ€ํ•จ์œผ๋กœ์จ ๋” ๋งŽ์€ ๊ณ„์‚ฐ์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, GPU์˜ ๋ฉ”๋ชจ๋ฆฌ ๊ณ„์ธต์„ ํ™œ์šฉํ•œ ํ•˜๋“œ์›จ์–ด ์ตœ์ ํ™”๊ฐ€ ๊ฐ€๋Šฅํ•ด์ ธ ํšจ์œจ์„ฑ์„ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์— ๋”ฐ๋ผ ๋™์ ์ธ ๊ณ„์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

3.3 Efficient Implementation of Selective SSMs (ํšจ์œจ์ ์ธ ์„ ํƒ์  SSM ๊ตฌํ˜„)

์ด ์„น์…˜์—์„œ๋Š” Selective State Space Model(SSSM)์„ ํ•˜๋“œ์›จ์–ด์—์„œ ํšจ์œจ์ ์œผ๋กœ ๊ตฌํ˜„ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃน๋‹ˆ๋‹ค. ํŠนํžˆ, GPU ๋“ฑ์„ ํ™œ์šฉํ•˜์—ฌ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๊ณผ ๊ณ„์‚ฐ์„ ์ตœ์ ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์„ค๋ช…ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

3.3.1 Motivation of Prior Models (์ด์ „ ๋ชจ๋ธ๋“ค์˜ ๋™๊ธฐ)

์ด ํ•ญ๋ชฉ์—์„œ๋Š” ์„ ํƒ์  ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(SSSM)์ด ๋‚˜์˜ค๊ธฐ ์ „, ๊ธฐ์กด ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(SSM)์ด ์–ด๋–ป๊ฒŒ ๋™์ž‘ํ–ˆ๋Š”์ง€, ๊ทธ๋ฆฌ๊ณ  ์™œ ๊ฐœ์„ ์ด ํ•„์š”ํ–ˆ๋Š”์ง€๋ฅผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.

  • 1. ๊ธฐ์กด ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์˜ ๋™์ž‘ ์›๋ฆฌ

    • SSM(Structured State Space Model)์€ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ์ž ์žฌ ์ƒํƒœ(latent state)๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ์‹œํ€€์Šค ๋‚ด์˜ ์ •๋ณด๋ฅผ ์žฌ๊ท€์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜์—ฌ, ์‹œ์  ๊ฐ„์˜ ์˜์กด์„ฑ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ๊ธด ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • SSM์€ ์‹œ๊ฐ„ ๋ถˆ๋ณ€์ (time-invariant)์œผ๋กœ ์„ค๊ณ„๋˜์–ด, ๊ฐ ์‹œ์ ์—์„œ ๋™์ผํ•œ ๋ฐฉ์‹์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์„ ํ˜• ์žฌ๊ท€์  ๊ตฌ์กฐ(linear recurrence)๋‚˜ ํ•ฉ์„ฑ๊ณฑ ์—ฐ์‚ฐ(convolution)์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.
  • 2. ๊ธฐ์กด ๋ชจ๋ธ์˜ ํ•œ๊ณ„

    • ๊ณ ์ •๋œ ํŒŒ๋ผ๋ฏธํ„ฐ: ๊ธฐ์กด์˜ SSM์€ ๋ชจ๋“  ์‹œ์ ์—์„œ ๋™์ผํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์ด๋‚˜ ์ค‘์š”๋„์— ๋”ฐ๋ผ ๊ฐ€๋ณ€์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์—†๋‹ค๋Š” ํ•œ๊ณ„๋ฅผ ์ง€๋‹ˆ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ๋™์ผํ•˜๊ฒŒ ์ทจ๊ธ‰ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ค‘์š”ํ•œ ์ •๋ณด๋งŒ ์„ ํƒ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ธฐ๋Šฅ์ด ๋ถ€์กฑํ•ฉ๋‹ˆ๋‹ค.
    • ๋ณต์žกํ•œ ๊ณ„์‚ฐ: ์‹œํ€€์Šค๊ฐ€ ๊ธธ์–ด์งˆ์ˆ˜๋ก ๊ณ„์‚ฐ ๋ณต์žก๋„๊ฐ€ ํฌ๊ฒŒ ์ฆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ๊ณ ์ฐจ์›์˜ ์ƒํƒœ ๊ณต๊ฐ„์—์„œ ์ž‘์—…ํ•  ๊ฒฝ์šฐ, ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋งค์šฐ ๋†’์•„์ง€๋ฉฐ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰๋„ ํฌ๊ฒŒ ์ฆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
    • ํšจ์œจ์„ฑ ๋ฌธ์ œ: SSM์€ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ๋ชจ๋“  ์ •๋ณด๋ฅผ ๊ธฐ์–ตํ•ด์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์ด ๋งค์šฐ ํฌ๊ณ  ๊ณ„์‚ฐ ์‹œ๊ฐ„๋„ ๊ธธ์–ด์ง‘๋‹ˆ๋‹ค. ์ด๋Š” ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ํšจ์œจ์„ฑ์ด ๋–จ์–ด์ง€๋Š” ๋ฌธ์ œ๋ฅผ ์ดˆ๋ž˜ํ•ฉ๋‹ˆ๋‹ค.
  • 3. ๊ฐœ์„  ํ•„์š”์„ฑ

    • ์ž…๋ ฅ์— ๋”ฐ๋ผ ์œ ๋™์ ์ธ ์ฒ˜๋ฆฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ชจ๋ธ์€ ๋ชจ๋“  ์‹œ์ ์—์„œ ๋™์ผํ•œ ๋ฐฉ์‹์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ–ˆ์ง€๋งŒ, ์ž…๋ ฅ์˜ ์ค‘์š”๋„์— ๋”ฐ๋ผ ์„ ํƒ์ ์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ธฐ๋Šฅ์ด ์žˆ์œผ๋ฉด ๋” ํšจ์œจ์ ์œผ๋กœ ์ž‘๋™ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๋˜ํ•œ, ๋ฉ”๋ชจ๋ฆฌ์™€ ๊ณ„์‚ฐ ์ž์›์„ ๋” ํšจ์œจ์ ์œผ๋กœ ์‚ฌ์šฉํ•˜๊ธฐ ์œ„ํ•ด, ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋‹ค ๋” ์ ์€ ์ž์›์œผ๋กœ ๋†’์€ ์„ฑ๋Šฅ์„ ๋‚ผ ์ˆ˜ ์žˆ๋Š” ์ตœ์ ํ™”๋œ ๋ฐฉ์‹์ด ํ•„์š”ํ–ˆ์Šต๋‹ˆ๋‹ค.

3.3.2 Overview of Selective Scan: Hardware-Aware State Expansion (์„ ํƒ์  ์Šค์บ”: ํ•˜๋“œ์›จ์–ด ์ธ์‹ ์ƒํƒœ ํ™•์žฅ์˜ ๊ฐœ์š”)

์ด ํ•ญ๋ชฉ์—์„œ๋Š” Selective Scan์˜ ๊ฐœ๋…๊ณผ, ์ด๋ฅผ ํ†ตํ•ด SSSM์ด ํ•˜๋“œ์›จ์–ด ์ƒ์—์„œ ์–ด๋–ป๊ฒŒ ํšจ์œจ์ ์œผ๋กœ ๊ตฌํ˜„๋  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์ค‘์š”ํ•œ ๊ฐœ๋…์€ ํ•˜๋“œ์›จ์–ด์˜ ๋ฉ”๋ชจ๋ฆฌ ๊ณ„์ธต์„ ์ตœ์ ํ™”ํ•˜์—ฌ ์„ ํƒ์  ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

  • 1. Selective Scan์˜ ๊ฐœ๋…

    • Selective Scan์€ ์‹œํ€€์Šค ๋‚ด์—์„œ ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ์„ ํƒ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ณ , ๋ถˆํ•„์š”ํ•œ ์ •๋ณด๋Š” ๋ฌด์‹œํ•˜๋Š” ๊ณผ์ •์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์€ ์ค‘์š”ํ•œ ์ •๋ณด๋งŒ์„ ์„ ํƒ์ ์œผ๋กœ ๊ธฐ์–ตํ•˜๋ฉด์„œ, ๋ถˆํ•„์š”ํ•œ ์—ฐ์‚ฐ์„ ์ค„์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ์‹œ๊ฐ„ ๊ฐ€๋ณ€์ (time-varying)์ด๋ผ๋Š” ํŠน์„ฑ์„ ๊ฐ€์ง„ Selective Scan์€ ๊ฐ ์‹œ์ ์—์„œ ๋™์ ์œผ๋กœ ๋ณ€ํ™”ํ•˜๋Š” ์ƒํƒœ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.
      • ์ด๋•Œ ๊ฐ ์‹œ์ ์—์„œ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜์—ฌ ์ค‘์š”ํ•œ ์ •๋ณด๋งŒ ์„ ํƒ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๊ณผ ๊ณ„์‚ฐ ์ž์›์„ ์ ˆ์•ฝํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • 2. ํ•˜๋“œ์›จ์–ด-์ธ์‹ ์ƒํƒœ ํ™•์žฅ (Hardware-Aware State Expansion)

    • Hardware-Aware State Expansion์€ ์„ ํƒ์  ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์˜ ๊ณ„์‚ฐ์„ ํ•˜๋“œ์›จ์–ด ํšจ์œจ์„ฑ์„ ๊ณ ๋ คํ•˜์—ฌ ์ตœ์ ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.
    • GPU ๋ฉ”๋ชจ๋ฆฌ ๊ณ„์ธต ํ™œ์šฉ: ํ˜„๋Œ€ GPU๋Š” ๊ณ ์† ๋ฉ”๋ชจ๋ฆฌ(SRAM)์™€ ๋Œ€์šฉ๋Ÿ‰ ๋ฉ”๋ชจ๋ฆฌ(HBM)๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์„ ํƒ์  SSM์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๋ฉ”๋ชจ๋ฆฌ ๊ณ„์ธต์„ ์ ์ ˆํžˆ ํ™œ์šฉํ•˜์—ฌ, ์ž์ฃผ ์‚ฌ์šฉ๋˜๋Š” ์ค‘์š”ํ•œ ๋ฐ์ดํ„ฐ๋Š” ๊ณ ์† ๋ฉ”๋ชจ๋ฆฌ์— ์ €์žฅํ•˜๊ณ , ๋œ ์ค‘์š”ํ•œ ๋ฐ์ดํ„ฐ๋Š” ๋Œ€์šฉ๋Ÿ‰ ๋ฉ”๋ชจ๋ฆฌ์— ์ €์žฅํ•จ์œผ๋กœ์จ ๊ณ„์‚ฐ ์†๋„์™€ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ์„ ์ตœ์ ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

      • ๊ณ ์† SRAM์€ ์ฆ‰๊ฐ์ ์ธ ๋ฐ์ดํ„ฐ ์ ‘๊ทผ์„ ์ œ๊ณตํ•˜๊ณ , ๋Œ€์šฉ๋Ÿ‰ HBM์€ ๋ณต์žกํ•œ ์—ฐ์‚ฐ์— ํ•„์š”ํ•œ ๋Œ€๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ €์žฅํ•ฉ๋‹ˆ๋‹ค.
      • ์ด ์กฐํ•ฉ์€ GPU๊ฐ€ ๊ทธ๋ž˜ํ”ฝ ๋ Œ๋”๋ง, ๋จธ์‹  ๋Ÿฌ๋‹, ๊ณผํ•™์  ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋“ฑ ๋ฐ์ดํ„ฐ ์ง‘์•ฝ์ ์ธ ์ž‘์—…์„ ํšจ๊ณผ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

Kernel Fusion : Hardware-aware Algorithm

  • ์ฒ˜์Œ ๋“ฑ์žฅํ•˜๋Š” ๊ฐœ๋…์€ ์•„๋‹ˆ๊ณ , โ€œFlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awarenessโ€œ์— ๋‚˜์˜ค๋Š” idea๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

  • GPU์˜ ์ฃผ์š” ๋ณ‘๋ชฉ ํ˜„์ƒ์€ SRAM๊ณผ DRAM ์‚ฌ์ด์˜ Copy and PASTE์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๊ฒƒ์„ ํ™•์ธํ•˜์˜€๊ณ , ์ €์ž๋Š” ์ด๋Ÿฌํ•œ memory IO ๋กœ ๋ฐœ์ƒํ•˜๋Š” ๋ณ‘๋ชฉํ˜„์ƒ์„ ์ค„์ด๊ธฐ ์œ„ํ•˜์—ฌ kernel fusion์„ ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.
  • Mamba๋Š” ๊ณ„์‚ฐ ์ž์ฒด๋ณด๋‹ค๋Š” ๋ฉ”๋ชจ๋ฆฌ ์ „์†ก ๊ณผ์ •์—์„œ ๋ณ‘๋ชฉ์ด ๋ฐœ์ƒํ•˜๋Š” GPU์˜ ๊ตฌ์กฐ๋ฅผ ๊ณ ๋ คํ•ด ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์ž…๋ ฅ ๋ฒกํ„ฐ์™€ ๊ฐ€์ค‘์น˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ณ ์„ฑ๋Šฅ ๋ฉ”๋ชจ๋ฆฌ๋กœ ์ „์†กํ•œ ํ›„ ๋ชจ๋“  ๊ณ„์‚ฐ์„ ํ•œ ๋ฒˆ์— ์ฒ˜๋ฆฌํ•˜๊ณ , ๋‹ค์‹œ ๋ฉ”์ธ ๋ฉ”๋ชจ๋ฆฌ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ „์†กํ•ฉ๋‹ˆ๋‹ค.
    • ์ด๋กœ ์ธํ•ด ๋ฐ์ดํ„ฐ ์ „์†ก ์‹œ๊ฐ„์€ ๊ทธ๋Œ€๋กœ ์œ ์ง€๋˜๋ฉด์„œ๋„ 16๋ฐฐ ํ™•์žฅ๋œ ๋ฒกํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ์ถ”๊ฐ€ ๊ณ„์‚ฐ ์‹œ๊ฐ„์„ ๊ฑฐ์˜ ๋ฌด๋ฃŒ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

์•„๋ž˜ ๊ทธ๋ฆผ์€ ๊ฐœ๋žต์ ์œผ๋กœ โ€œ์ž…๋ ฅ ๋ฒกํ„ฐ์™€ ๊ฐ€์ค‘์น˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ณ ์„ฑ๋Šฅ ๋ฉ”๋ชจ๋ฆฌ๋กœ ์ „์†กํ•œ ํ›„ ๋ชจ๋“  ๊ณ„์‚ฐ์„ ํ•œ ๋ฒˆ์— ์ฒ˜๋ฆฌํ•˜๊ณ , ๋‹ค์‹œ ๋ฉ”์ธ ๋ฉ”๋ชจ๋ฆฌ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ „์†กโ€ํ•˜๋Š” ๊ณผ์ •์„ ๋„์‹œํ™”ํ•œ ๊ทธ๋ฆผ์ž…๋‹ˆ๋‹ค. (Source: https://youtu.be/N6Piou4oYx8)

  • Scan Operation: Selective Scan ๊ณ„์‚ฐ์„ ๋ณ‘๋ ฌ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„ํ•˜์—ฌ, ์‹œํ€€์Šค์˜ ์—ฌ๋Ÿฌ ์‹œ์ ์„ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
    • ๋ณ‘๋ ฌ ์Šค์บ” ์•Œ๊ณ ๋ฆฌ์ฆ˜(Parellel Scan Operation)์„ ํ†ตํ•ด ์ž…๋ ฅ ์‹œํ€€์Šค๋ฅผ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•˜๋ฉด์„œ, ์„ ํƒ์ ์œผ๋กœ ํ•„์š”ํ•œ ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ณ  ๋‚˜๋จธ์ง€๋Š” ๊ฑด๋„ˆ๋›ฐ๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
    • ์ด๋ฅผ ํ†ตํ•ด ์ „์ฒด ์‹œํ€€์Šค๋ฅผ ์ˆœ์ฐจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ์‹๋ณด๋‹ค ๋” ๋น ๋ฅด๊ณ  ํšจ์œจ์ ์œผ๋กœ ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๊ฒฐํ•ฉ๊ทœ์น™(association rule) ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ โ€œ๋จผ์ € ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์€ ๊ณ„์‚ฐํ•ด์ฃผ์ž!โ€ ๋ผ๋Š” ๊ฐ„๋‹จํ•˜์ง€๋งŒ ๊ฐ•๋ ฅํ•œ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.

    • ์ด ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋ฉด O(logโก(n))O(\log(n))O(log(n))์˜ ์‹œ๊ฐ„ ๋‚ด์— ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์–ด ๊ณ„์‚ฐ ์†๋„๊ฐ€ ํฌ๊ฒŒ ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค.
  • 3. ์‹œ๊ฐ„ ๊ฐ€๋ณ€์  ์„ ํƒ ์ฒ˜๋ฆฌ
    • Selective SSM์€ ์‹œ๊ฐ„ ๊ฐ€๋ณ€์ ์ด๊ธฐ ๋•Œ๋ฌธ์—, ๊ฐ ์‹œ์ ๋งˆ๋‹ค ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด, ๊ฐ ์‹œ์ ์—์„œ ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ์„ ํƒ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ณ , ์žฌ๊ท€์  ์—ฐ์‚ฐ(recurrent operation)์„ ํ†ตํ•ด ์ด์ „ ์ƒํƒœ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค์Œ ์ƒํƒœ๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.
    • ๊ฐ ์‹œ์ ์—์„œ ์ฒ˜๋ฆฌ๋˜๋Š” ๋ฐ์ดํ„ฐ์˜ ์–‘์„ ์ค„์ด๊ธฐ ์œ„ํ•ด, Selective Scan์„ ํ†ตํ•ด ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜๊ณ  ํ•„์š”ํ•œ ์ •๋ณด๋งŒ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰๊ณผ ๊ณ„์‚ฐ๋Ÿ‰์„ ์ค„์ด๊ณ , ์—ฐ์‚ฐ ์†๋„๋ฅผ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

3.4 A Simplified SSM Architecture (๋‹จ์ˆœํ™”๋œ SSM ์•„ํ‚คํ…์ฒ˜)

  • Mamba ์•„ํ‚คํ…์ฒ˜: SSM์„ MLP ๋ธ”๋ก๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ ๊ฐ„๋‹จํ•œ ํ˜•ํƒœ์˜ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ์•„ํ‚คํ…์ฒ˜๋Š” Transformer์ฒ˜๋Ÿผ ๋ณต์žกํ•œ ๊ตฌ์กฐ๋ฅผ ๊ฐ–์ง€ ์•Š์œผ๋ฉฐ, ๋‹จ์ˆœํ•˜์ง€๋งŒ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
    • ์—ฌ๋Ÿฌ ๊ฐœ์˜ Mamba ๋ธ”๋ก์„ ๋ฐ˜๋ณต์ ์œผ๋กœ ์Œ“์•„ ๋ชจ๋ธ์˜ ๊นŠ์ด๋ฅผ ํ™•์žฅํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • Mamba ๋ธ”๋ก์€ ํ˜„๋Œ€ ์‹ ๊ฒฝ๋ง์˜ ๋‹ค์ธต ํผ์…‰ํŠธ๋ก (MLP) ๋ธ”๋ก๊ณผ ๋Œ€๋ถ€๋ถ„์˜ SSM ์•„ํ‚คํ…์ฒ˜์˜ ๊ธฐ์ดˆ๊ฐ€ ๋˜๋Š” H3 ๋ธ”๋ก์„ ์กฐํ•ฉํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์œ„ ๊ทธ๋ฆผ์€ H3 ๋ธ”๋ก, Gated MLP ๋ธ”๋ก, ๊ทธ๋ฆฌ๊ณ  Mamba ๋ธ”๋ก์˜ ๊ตฌ์กฐ๋ฅผ ๋น„๊ตํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ฐ ๋ธ”๋ก์€ ํ˜„๋Œ€ ์‹ ๊ฒฝ๋ง์—์„œ ์‚ฌ์šฉ๋˜๋Š” ๊ตฌ์กฐ์  ์ฐจ์ด์ ์„ ์‹œ๊ฐ์ ์œผ๋กœ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด Mamba ์•„ํ‚คํ…์ฒ˜๊ฐ€ ์–ด๋–ป๊ฒŒ ์„ค๊ณ„๋˜์—ˆ๋Š”์ง€๋ฅผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆผ์— ๋Œ€ํ•œ ์ฃผ์š” ํ•ด์„์€ ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค.


1. H3 Block

  • H3๋Š” ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ์„ค๊ณ„๋œ ๋ธ”๋ก ๊ตฌ์กฐ๋กœ, RNN๊ณผ CNN์˜ ์žฅ์ ์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์ˆœ์ฐจ์  ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
    • ์ด ๋ธ”๋ก์€ ๊ณผ๊ฑฐ์˜ ์ •๋ณด์™€ ํ˜„์žฌ ์ž…๋ ฅ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฏธ๋ž˜์˜ ์ถœ๋ ฅ์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.
    • H3์˜ ์ฃผ์š” ํŠน์ง•์€ ๊ธด ์‹œํ€€์Šค๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ๊ณผ, ์‹œํ€€์Šค์˜ ๋ชจ๋“  ์š”์†Œ์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ๊ณ ๋ คํ•  ์ˆ˜ ์žˆ๋Š” ๊ตฌ์กฐ์  ํŠน์„ฑ์ž…๋‹ˆ๋‹ค.
  • ๊ตฌ์„ฑ ์š”์†Œ:
    • SSM: ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(State Space Model)์€ ์‹œํ€€์Šค ๋ณ€ํ™˜์„ ๋‹ด๋‹นํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ฃผ๋กœ ์žฌ๊ท€์ ์ธ ํŠน์„ฑ์„ ํ™œ์šฉํ•˜์—ฌ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
    • Conv: ํ•ฉ์„ฑ๊ณฑ ์ธต์ด ์ถ”๊ฐ€๋˜์–ด ๋กœ์ปฌ ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ํ•ฉ์„ฑ๊ณฑ์€ ์ผ๋ฐ˜์ ์œผ๋กœ ๊ณต๊ฐ„์  ์—ฐ๊ด€์„ฑ์„ ๋‹ค๋ฃจ๋Š” ๋ฐ ํšจ๊ณผ์ ์ž…๋‹ˆ๋‹ค.
    • ๊ณฑ์…ˆ ๊ฒŒ์ดํŠธ(Multiplicative Gate): SSM๊ณผ Conv ์‚ฌ์ด์— ๊ณฑ์…ˆ ๊ฒŒ์ดํŠธ๊ฐ€ ์žˆ์–ด ๋ฐ์ดํ„ฐ์˜ ํ๋ฆ„์„ ์กฐ์ ˆํ•ฉ๋‹ˆ๋‹ค.
  • ๋™์ž‘ ์›๋ฆฌ:
    • H3 ๋ธ”๋ก์€ SSM๊ณผ ํ•ฉ์„ฑ๊ณฑ ์ธต์„ ๊ต์ฐจ ๋ฐฐ์น˜ํ•˜์—ฌ ๊ฐ๊ฐ์˜ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ์™€ ๋กœ์ปฌ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋ฉฐ, ๊ณฑ์…ˆ ๊ฒŒ์ดํŠธ๋ฅผ ํ†ตํ•ด ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ํ†ต๊ณผ์‹œํ‚ค๊ฑฐ๋‚˜ ์–ต์ œํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ตฌ์กฐ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ์œ ์—ฐ์„ฑ์„ ์ œ๊ณตํ•˜์ง€๋งŒ, ๊ณ„์‚ฐ์ ์œผ๋กœ ๋ณต์žกํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

2. Gated MLP

  • Gated MLP๋Š” ๋‹ค์ธต ํผ์…‰ํŠธ๋ก (MLP)๊ณผ ๊ณฑ์…ˆ ๊ฒŒ์ดํŠธ(Multiplicative Gate)๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ๋น„์„ ํ˜• ๋ณ€ํ™˜์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค.

    • MLP๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ๊ณ ์ •๋œ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ํƒ์›”ํ•œ ๋Šฅ๋ ฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ์œผ๋ฉฐ, ๊ณฑ์…ˆ ๊ฒŒ์ดํŠธ๋Š” ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์— ๋”ฐ๋ผ ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ๊ฐ•์กฐํ•˜๊ณ , ๋ถˆํ•„์š”ํ•œ ์ •๋ณด๋Š” ์–ต์ œํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค.
  • ๊ตฌ์„ฑ ์š”์†Œ:

    • MLP: ๋‹ค์ธต ํผ์…‰ํŠธ๋ก (Multi-Layer Perceptron) ๋ธ”๋ก์€ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ๋น„์„ ํ˜•์ ์œผ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.
    • ๊ณฑ์…ˆ ๊ฒŒ์ดํŠธ(Multiplicative Gate): H3์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๊ณฑ์…ˆ ๊ฒŒ์ดํŠธ๊ฐ€ ์ถ”๊ฐ€๋˜์–ด, ๋ฐ์ดํ„ฐ๋ฅผ ์„ ํƒ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
  • ๋™์ž‘ ์›๋ฆฌ:

    • Gated MLP๋Š” MLP์™€ ๊ณฑ์…ˆ ๊ฒŒ์ดํŠธ๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ, ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์œ ์—ฐํ•œ ๋ณ€ํ™˜์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์— ๋”ฐ๋ผ ์ค‘์š”ํ•œ ์ •๋ณด๋Š” ๊ณฑ์…ˆ์„ ํ†ตํ•ด ๊ฐ•์กฐ๋˜๊ณ , ๋ถˆํ•„์š”ํ•œ ์ •๋ณด๋Š” ์–ต์ œ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๊ทธ๋Ÿฌ๋‚˜ Gated MLP๋Š” ๋น„์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ๋Š” ํšจ๊ณผ์ ์ด์ง€๋งŒ, ์‹œํ€€์Šค ์ฒ˜๋ฆฌ์— ํ•„์š”ํ•œ ๋ฉ”์ปค๋‹ˆ์ฆ˜(์˜ˆ: SSM)์ด ํฌํ•จ๋˜์–ด ์žˆ์ง€ ์•Š๋‹ค๋Š” ์ ์—์„œ ์‹œํ€€์Šค ๊ธฐ๋ฐ˜ ์ž‘์—…์— ์ตœ์ ํ™”๋œ ๊ตฌ์กฐ๋Š” ์•„๋‹™๋‹ˆ๋‹ค.

3. Mamba Block

  • Mamba ๋ธ”๋ก์€ ํ˜„๋Œ€ ์‹ ๊ฒฝ๋ง์˜ ๋‹ค์ธต ํผ์…‰ํŠธ๋ก (MLP) ๋ธ”๋ก๊ณผ SSM(Structured State Space Model) ์•„ํ‚คํ…์ฒ˜์—์„œ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•˜๋Š” H3 ๋ธ”๋ก์„ ๊ฒฐํ•ฉํ•œ ์„ค๊ณ„์ž…๋‹ˆ๋‹ค.

    • ์ด ๊ตฌ์กฐ๋Š” ๊ธฐ์กด์˜ MLP์™€ SSM ๋ธ”๋ก์„ ๊ต์ฐจํ•˜๊ฑฐ๋‚˜ ํ˜ผํ•ฉํ•˜๋Š” ๋Œ€์‹ , ๋™์ผํ•œ Mamba ๋ธ”๋ก์„ ๋™์งˆ์ ์œผ๋กœ ๋ฐ˜๋ณตํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • ๊ตฌ์„ฑ ์š”์†Œ:

    • SSM: H3 ๋ธ”๋ก๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(SSM)์ด ์กด์žฌํ•˜์—ฌ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
    • Conv: ํ•ฉ์„ฑ๊ณฑ ์ธต์ด ์ถ”๊ฐ€๋˜์–ด, ์‹œํ€€์Šค ๋‚ด์˜ ๊ตญ์†Œ์ ์ธ ์ •๋ณด ์ฒ˜๋ฆฌ์— ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.
    • ํ™œ์„ฑํ™” ํ•จ์ˆ˜(SiLU/Swish): H3์™€๋Š” ๋‹ค๋ฅด๊ฒŒ, ๊ณฑ์…ˆ ๊ฒŒ์ดํŠธ ๋Œ€์‹  ํ™œ์„ฑํ™” ํ•จ์ˆ˜๊ฐ€ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ด ํ•จ์ˆ˜๋Š” ๋น„์„ ํ˜•์„ฑ์„ ์ถ”๊ฐ€ํ•˜์—ฌ ๋ฐ์ดํ„ฐ์˜ ํ‘œํ˜„๋ ฅ์„ ๋†’์ž…๋‹ˆ๋‹ค.
  • ๋™์ž‘ ์›๋ฆฌ:

    • Mamba ๋ธ”๋ก์€ SSM๊ณผ Conv๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ์‹œํ€€์Šค ๋ฐ ๋กœ์ปฌ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋‘ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
    • ๊ณฑ์…ˆ ๊ฒŒ์ดํŠธ ๋Œ€์‹  ๋น„์„ ํ˜• ํ™œ์„ฑํ™” ํ•จ์ˆ˜(SiLU ๋˜๋Š” Swish)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ณ„์‚ฐ ๋ณต์žก์„ฑ์„ ์ค„์ด๊ณ  ํšจ์œจ์„ฑ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค. ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋Š” ๋ฐ์ดํ„ฐ์˜ ํ๋ฆ„์„ ์กฐ์ ˆํ•˜๋Š” ๋ฐ ๋” ๊ฐ„๋‹จํ•œ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜๋ฉฐ, ๊ฒŒ์ดํŠธ์˜ ํ•„์š”์„ฑ์„ ์ œ๊ฑฐํ•˜์—ฌ ๋” ๋‹จ์ˆœํ•œ ๊ตฌ์กฐ๋ฅผ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค.
    • Mamba ๋ธ”๋ก์€ ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ์—ฐ์‚ฐ(SMM, Conv)์„ ํ•œ ๋ธ”๋ก ๋‚ด์—์„œ ๋ฐ˜๋ณตํ•˜๋Š” ๊ฐ„๋‹จํ•˜๋ฉด์„œ๋„ ๊ฐ•๋ ฅํ•œ ๊ตฌ์กฐ๋ฅผ ์ฑ„ํƒํ–ˆ์Šต๋‹ˆ๋‹ค.
  • Mamba์™€ ๋‹ค๋ฅธ ๋ธ”๋ก์˜ ์ฐจ์ด์ 

    • ๋ณต์žก์„ฑ ๊ฐ์†Œ: H3 ๋ธ”๋ก์—์„œ๋Š” ๊ณฑ์…ˆ ๊ฒŒ์ดํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ์„ ํƒ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜์ง€๋งŒ, Mamba๋Š” ์ด๋ฅผ ์ œ๊ฑฐํ•˜๊ณ  ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋กœ ๋Œ€์ฒดํ•จ์œผ๋กœ์จ ๊ณ„์‚ฐ ๋ณต์žก์„ฑ์„ ์ค„์˜€์Šต๋‹ˆ๋‹ค.
    • ๋‹จ์ˆœํ™”๋œ ์•„ํ‚คํ…์ฒ˜: Mamba๋Š” SSM๊ณผ Conv๋ฅผ ๋™์ผํ•œ ๋ธ”๋ก ๋‚ด์—์„œ ๋ฐ˜๋ณต์ ์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ๋งค์šฐ ๊ท ์ผํ•˜๊ณ  ๋‹จ์ˆœํ•œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ์„ฑ๋Šฅ์„ ์ตœ์ ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ „์ฒด์ ์œผ๋กœ ๋” ๋น ๋ฅด๊ณ  ํšจ์œจ์ ์ธ ๊ณ„์‚ฐ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
    • ๋น„์„ ํ˜• ํ™œ์„ฑํ™”: Mamba์—์„œ๋Š” ๊ณฑ์…ˆ ๊ฒŒ์ดํŠธ ๋Œ€์‹  SiLU/Swish์™€ ๊ฐ™์€ ๋น„์„ ํ˜• ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ์˜ ํ๋ฆ„์„ ์กฐ์ ˆํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์˜ ํ‘œํ˜„๋ ฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๊ณ„์‚ฐ ๋ณต์žก์„ฑ์„ ์ค„์ด๋Š” ์ค‘์š”ํ•œ ๋ณ€ํ™”์ž…๋‹ˆ๋‹ค.

โœจ Mamba ๋ธ”๋ก์€ H3 ๋ฐ Gated MLP์™€ ๋น„๊ตํ•˜์—ฌ ๋” ๋‹จ์ˆœํ•˜๊ณ  ํšจ์œจ์ ์ธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. SSM๊ณผ Conv๋ฅผ ์ ์ ˆํžˆ ๊ฒฐํ•ฉํ•˜์—ฌ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ์™€ ๋กœ์ปฌ ์ •๋ณด๋ฅผ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•˜๋ฉฐ, ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋กœ ๋น„์„ ํ˜•์„ฑ์„ ๋ถ€์—ฌํ•˜์—ฌ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค.

3.5 Properties of Selection Mechanisms (์„ ํƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ํŠน์„ฑ)

  • ์„ ํƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ํšจ๊ณผ: ์„ ํƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ๋ถˆํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฌด์‹œํ•˜๊ณ , ์ค‘์š”ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์„ ํƒ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์‹œํ€€์Šค์˜ ๊ธด ๋ฌธ๋งฅ์„ ์ฒ˜๋ฆฌํ•  ๋•Œ ํšจ์œจ์„ฑ์ด ์ฆ๊ฐ€ํ•˜๋ฉฐ, ๊ธด ์‹œํ€€์Šค์—์„œ๋„ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ๋ฐœ์ƒํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.
  • ๋ณ€์ˆ˜ ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ: ์„ ํƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ์‹œํ€€์Šค์˜ ๊ฐ ์š”์†Œ๋“ค์ด ์ƒํ˜ธ์ž‘์šฉํ•˜๋Š” ๋ฐฉ์‹์„ ์กฐ์ ˆํ•˜๋ฉฐ, ์ด๋Ÿฌํ•œ ์กฐ์ ˆ ๋Šฅ๋ ฅ์€ ํŠนํžˆ ํ…์ŠคํŠธ๋‚˜ DNA์™€ ๊ฐ™์€ ์ด์‚ฐ์ ์ธ ๋ฐ์ดํ„ฐ์—์„œ ํšจ๊ณผ์ ์ž…๋‹ˆ๋‹ค.

3.6 Additional Model Details (์ถ”๊ฐ€ ๋ชจ๋ธ ์„ธ๋ถ€์‚ฌํ•ญ)

  • ์‹ค์ˆ˜ ๋ฐ ๋ณต์†Œ์ˆ˜ ์ฒ˜๋ฆฌ: ์„ ํƒ์  SSM์€ ๋ณต์†Œ์ˆ˜์™€ ์‹ค์ˆ˜๋ฅผ ๋ชจ๋‘ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ํŠน์ • ์ž‘์—…์—์„œ๋Š” ์‹ค์ˆ˜ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์ด ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ดˆ๊ธฐํ™” ๋ฐ ํŒŒ๋ผ๋ฏธํ„ฐํ™”: ์„ ํƒ์  ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์ดˆ๊ธฐํ™” ๋ฐฉ์‹์— ๋”ฐ๋ผ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ๋‹ฌ๋ผ์ง€๋ฉฐ, ๊ฐ ํŒŒ๋ผ๋ฏธํ„ฐ์— ๋Œ€ํ•œ ์ž์„ธํ•œ ์„ค๋ช…์„ ํ†ตํ•ด ๋ชจ๋ธ์˜ ์•ˆ์ •์„ฑ์„ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค.

4. Empirical Evaluation

Mamba ๋ชจ๋ธ์„ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์œ ํ˜•๊ณผ ์‹œํ€€์Šค ๊ธธ์ด์—์„œ ํ…Œ์ŠคํŠธํ•œ ๊ฒฐ๊ณผ๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

4.1 Synthetic Tasks (ํ•ฉ์„ฑ ์ž‘์—…)

  • Selective Copying: ์„ ํƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์‚ฌ์šฉํ•œ Mamba๋Š” ์‹œํ€€์Šค์˜ ์ค‘์š”ํ•œ ๋ถ€๋ถ„์„ ๊ธฐ์–ตํ•˜๊ณ  ๋‚˜๋จธ์ง€๋ฅผ ๋ฌด์‹œํ•˜๋Š” ์ž‘์—…์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค. ์‹œํ€€์Šค ๊ธธ์ด๊ฐ€ ๋งค์šฐ ๊ธธ์–ด๋„ Mamba๋Š” ์„ฑ๋Šฅ ์ €ํ•˜ ์—†์ด ์ •ํ™•๋„๋ฅผ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค.
  • Induction Heads: LLM์˜ ๋งฅ๋ฝ ํ•™์Šต ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” Induction Heads ์ž‘์—…์—์„œ๋„ Mamba๋Š” ์ค‘์š”ํ•œ ํ† ํฐ์„ ๊ธฐ์–ตํ•˜๋ฉฐ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค. ํ›ˆ๋ จ ์‹œ 256 ๊ธธ์ด์˜ ์‹œํ€€์Šค๋กœ ํ•™์Šตํ•œ ๋ชจ๋ธ์ด 1๋ฐฑ๋งŒ ๊ธธ์ด์˜ ์‹œํ€€์Šค์—์„œ๋„ ์ •ํ™•ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ž…๋‹ˆ๋‹ค.

4.2 Language Modeling (์–ธ์–ด ๋ชจ๋ธ๋ง)

  • Mamba์˜ ์–ธ์–ด ๋ชจ๋ธ๋ง ์„ฑ๋Šฅ: Mamba๋Š” ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์—์„œ Transformer์™€ ๋น„์Šทํ•˜๊ฑฐ๋‚˜ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค. ํŠนํžˆ, 1B ์ด์ƒ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ๋ชจ๋ธ์—์„œ๋Š” Transformer์™€ ๋น„์Šทํ•œ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋‚ด๋Š” ์ฒซ ๋ฒˆ์งธ ์„ ํ˜• ์‹œํ€€์Šค ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

4.3 DNA Modeling (DNA ๋ชจ๋ธ๋ง)

  • DNA ์‹œํ€€์Šค ์ฒ˜๋ฆฌ: Mamba๋Š” ๊ธด ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ๋›ฐ์–ด๋‚˜๋ฉฐ, ๊ธฐ์กด์˜ Transformer ๋ชจ๋ธ๋ณด๋‹ค ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค. DNA์˜ ๊ฒฝ์šฐ ๊ธด ๋ฌธ๋งฅ ์˜์กด์„ฑ์ด ์ค‘์š”ํ•œ๋ฐ, Mamba๋Š” ์ด๋Ÿฌํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ž˜ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

4.4 Audio Modeling and Generation (์˜ค๋””์˜ค ๋ชจ๋ธ๋ง ๋ฐ ์ƒ์„ฑ)

  • ์˜ค๋””์˜ค ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ: Mamba๋Š” ์˜ค๋””์˜ค ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ๋„ ํšจ์œจ์ ์ด๋ฉฐ, ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋‹ค ๋” ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

4.5 Speed and Memory Benchmarks (์†๋„ ๋ฐ ๋ฉ”๋ชจ๋ฆฌ ๋ฒค์น˜๋งˆํฌ)

  • ์ฒ˜๋ฆฌ ์†๋„: Mamba๋Š” Transformer๋ณด๋‹ค 5๋ฐฐ ๋น ๋ฅธ ์ถ”๋ก  ์†๋„๋ฅผ ๋ณด์ด๋ฉฐ, ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰๋„ ๋งค์šฐ ์ ์Šต๋‹ˆ๋‹ค.

4.6 Model Ablations (๋ชจ๋ธ ์—๋ธ”๋ ˆ์ด์…˜)

  • ํŒŒ๋ผ๋ฏธํ„ฐ ๋ถ„์„: ์„ ํƒ์  ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ถ”๊ฐ€ํ• ์ˆ˜๋ก ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜๋ฉฐ, ํŠนํžˆ Delta ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๋ชจ๋ธ ์„ฑ๋Šฅ์— ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์˜ํ–ฅ์„ ๋ฏธ์นฉ๋‹ˆ๋‹ค.


Reference

Paper

Blogs

Youtube



-->