[Paper Review] Resurrecting Recurrent Neural Networks for Long Sequences

Posted by Euisuk's Dev Log on September 24, 2024

[Paper Review] Resurrecting Recurrent Neural Networks for Long Sequences

์›๋ณธ ๊ฒŒ์‹œ๊ธ€: https://velog.io/@euisuk-chung/Paper-Review-Resurrecting-Recurrent-Neural-Networks-for-Long-Sequences

๋…ผ๋ฌธ โ€œResurrecting Recurrent Neural Networks for Long Sequencesโ€๋Š” 25 Apr 2023์— publish๋˜์—ˆ์œผ๋ฉฐ, ICML 2023 OralPoster์— ๋ฐœํ‘œ๋œ ๋…ผ๋ฌธ์ž…๋‹ˆ๋‹ค.

ํ•ด๋‹น ๋…ผ๋ฌธ์€ โ€œRecurrent Neural Networks (RNN)์˜ ์„ฑ๋Šฅ์„ ๋ณต์›ํ•˜์—ฌ ๊ธด ์‹œํ€€์Šค์—์„œ์˜ ํšจ์œจ์ ์ธ ํ•™์Šต๊ณผ ์ถ”๋ก โ€์„ ๋‹ค๋ฃจ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณธ paper-review์—์„œ๋Š” ๊ฐ ์ฑ•ํ„ฐ๋ณ„๋กœ ์ฃผ์š” ๋‚ด์šฉ์„ ์ •๋ฆฌํ•ด๋ณด์•˜์Šต๋‹ˆ๋‹ค.

  1. Introduction

  • ๋…ผ๋ฌธ์˜ ์„œ๋ก ์€ Recurrent Neural Networks(RNNs)๊ฐ€ ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ๊ฒช๋Š” ๋ฌธ์ œ์ ๊ณผ ๊ทธ์— ๋Œ€ํ•œ ํ•ด๊ฒฐ์ฑ…์„ ์ œ์‹œํ•˜๋ฉฐ, ์ตœ๊ทผ์˜ ์—ฐ๊ตฌ ๋™ํ–ฅ์„ ์„ค๋ช…ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

1.1. RNN์˜ ์ค‘์š”์„ฑ๊ณผ ํ•œ๊ณ„

RNN์€ ์ˆœ์ฐจ์  ๋ฐ์ดํ„ฐ(์‹œ๊ณ„์—ด, ์ž์—ฐ์–ด ๋“ฑ)๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ์˜ค๋žœ ์‹œ๊ฐ„ ๋™์•ˆ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ด์™”์Šต๋‹ˆ๋‹ค. RNN์€ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆœ์ฐจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์‹œํ€€์Šค ๊ฐ„์˜ ์˜์กด์„ฑ์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์ด ๋›ฐ์–ด๋‚ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์‹ค์ „์—์„œ RNN์„ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์€ ๋งค์šฐ ์–ด๋ ค์šด ์ผ์ž…๋‹ˆ๋‹ค.

์ฃผ๋œ ์ด์œ ๋Š” ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค(vanishing gradient)๊ณผ ๊ธฐ์šธ๊ธฐ ํญ๋ฐœ(exploding gradient) ๋ฌธ์ œ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์ด๋Š” RNN์ด ๊ธด ์‹œํ€€์Šค๋ฅผ ํ•™์Šตํ•  ๋•Œ, ์ดˆ๋ฐ˜์— ์ž…๋ ฅ๋œ ์ •๋ณด๊ฐ€ ๋„คํŠธ์›Œํฌ๋ฅผ ํ†ตํ•ด ์ „๋‹ฌ๋˜๋ฉด์„œ ์ ์  ์•ฝํ•ด์ง€๊ฑฐ๋‚˜, ๋„ˆ๋ฌด ๊ฐ•ํ•ด์ ธ์„œ ํ•™์Šต์ด ๋ถˆ๊ฐ€๋Šฅํ•ด์ง€๋Š” ํ˜„์ƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

  • ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ๋Š” ๋„คํŠธ์›Œํฌ์˜ ์ดˆ๊ธฐ ์ธต์ด๋‚˜ ๊นŠ์€ ์ธต์—์„œ ๊ธฐ์šธ๊ธฐ๊ฐ€ ๋งค์šฐ ์ž‘์•„์ ธ์„œ, ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ๊ฐ€ ์ด๋ฃจ์–ด์ง€์ง€ ์•Š๊ฑฐ๋‚˜ ๋งค์šฐ ๋А๋ฆฌ๊ฒŒ ์ด๋ฃจ์–ด์ง€๋Š” ํ˜„์ƒ์ž…๋‹ˆ๋‹ค.

    • ๋น„์„ ํ˜• ํ™œ์„ฑํ™” ํ•จ์ˆ˜: ์ž…๋ ฅ๊ฐ’์ด ๋น„์„ ํ˜• ํ•จ์ˆ˜์˜ ๊ทนํ•œ์— ๋„๋‹ฌํ•  ๋•Œ ํ•ด๋‹น ํ•จ์ˆ˜์˜ ๊ธฐ์šธ๊ธฐ๊ฐ€ 0์ด ๋˜๊ธฐ ๋•Œ๋ฌธ์—, ๊ทธ ์ดํ›„์˜ ์ธต์œผ๋กœ ์ „๋‹ฌ๋˜๋Š” ๊ธฐ์šธ๊ธฐ๊ฐ€ ๋ชจ๋‘ 0์— ๊ฐ€๊นŒ์›Œ์ง„๋‹ค.
    • ์ธต์ด ๊นŠ์–ด์งˆ์ˆ˜๋ก: RNN์€ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์—ฐ์†์ ์œผ๋กœ ์—ฌ๋Ÿฌ ์ธต์„ ์Œ“์•„ ๋‚˜๊ฐ€๊ธฐ ๋•Œ๋ฌธ์—, ๊ฐ ๋‹จ๊ณ„์—์„œ ์‹ ํ˜ธ๊ฐ€ ์ „ํŒŒ๋  ๋•Œ ๊ธฐ์šธ๊ธฐ๊ฐ€ ๊ณฑํ•ด์ ธ์„œ ๊ฐ์†Œํ•˜๊ฒŒ ๋œ๋‹ค.
  • ๊ธฐ์šธ๊ธฐ ํญ๋ฐœ ๋ฌธ์ œ๋Š” ๊ธฐ์šธ๊ธฐ๊ฐ€ ๋„ˆ๋ฌด ์ปค์ ธ์„œ ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ๊ฐ€ ๊ทน์‹ฌํ•ด์ง€๋Š” ํ˜„์ƒ์ž…๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด ๋ชจ๋ธ์ด ํ•™์Šต ์ค‘์— ๋ฐœ์‚ฐํ•˜๊ฒŒ ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

    • ๊ธฐ์šธ๊ธฐ ์กฐํ•ฉ: RNN ๋ชจ๋ธ์—์„œ ์—ฌ๋Ÿฌ ์ธต์˜ ๊ฐ€์ค‘์น˜๊ฐ€ ๊ณฑํ•ด์ง€๋ฉด์„œ ๊ธฐ์šธ๊ธฐ๊ฐ€ ์ง€์ˆ˜์ ์œผ๋กœ ์ฆ๊ฐ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๋ถ€์ ์ ˆํ•œ ์ดˆ๊ธฐํ™”: ๊ฐ€์ค‘์น˜๋ฅผ ์ž˜๋ชป ์ดˆ๊ธฐํ™”ํ•˜๋ฉด ํ›ˆ๋ จ ์ค‘์— ๊ธฐ์šธ๊ธฐ๊ฐ€ ํฐ ๊ฐ’์„ ๊ฐ€์ง€๊ฒŒ ๋˜๋ฉด์„œ, ์—…๋ฐ์ดํŠธ๋„ ๋น„์ •์ƒ์ ์œผ๋กœ ์ปค์ง€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋ช‡ ๊ฐ€์ง€ ๊ธฐ์ˆ ๋“ค์ด ๊ฐœ๋ฐœ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, LSTM(Long Short-Term Memory)๊ณผ GRU(Gated Recurrent Units) ๊ฐ™์€ ๊ฒŒ์ดํŠธ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์‚ฌ์šฉํ•˜๋Š” ๋ชจ๋ธ๋“ค์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋“ค์€ RNN์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๋ ค๊ณ  ๊ณ ์•ˆ๋œ ๋ฐฉ์‹์ด์ง€๋งŒ, ์—ฌ์ „ํžˆ ํ•™์Šต ๊ณผ์ •์—์„œ ์†๋„๊ฐ€ ๋А๋ฆฌ๊ณ , ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์—์„œ ํ™•์žฅ์„ฑ(scalability)์ด ๋ถ€์กฑํ•˜๋‹ค๋Š” ๋ฌธ์ œ๊ฐ€ ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹ค.

1.2. Transformer ๋ชจ๋ธ์˜ ๋Œ€๋‘

์ตœ๊ทผ์—๋Š” Transformer ๋ชจ๋ธ์ด ๋“ฑ์žฅํ•˜๋ฉด์„œ ์ˆœ์ฐจ์  ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ์—์„œ ํฐ ์„ฑ๊ณต์„ ๊ฑฐ๋‘์—ˆ์Šต๋‹ˆ๋‹ค.

Transformer๋Š” ์ฃผ์˜(attention) ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ์‹œํ€€์Šค์˜ ๊ฐ ์š”์†Œ ๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ์ง์ ‘ ๋ชจ๋ธ๋งํ•ฉ๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด RNN๊ณผ ๋‹ฌ๋ฆฌ ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•˜์ง€ ์•Š์œผ๋ฉฐ, ๋ณ‘๋ ฌํ™”๊ฐ€ ๊ฐ€๋Šฅํ•ด ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ํ•™์Šต์— ์œ ๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์žฅ์  ๋•๋ถ„์— ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ, ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ํƒ์›”ํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ Transformer์˜ ๊ฐ€์žฅ ํฐ ๋ฌธ์ œ๋Š” ๋ฉ”๋ชจ๋ฆฌ ๋ฐ ๊ณ„์‚ฐ ๋น„์šฉ์ด ์‹œํ€€์Šค ๊ธธ์ด์— ๋”ฐ๋ผ Quadraticํ•˜๊ฒŒ ์ฆ๊ฐ€ํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์‹œํ€€์Šค ๊ธธ์ด๊ฐ€ ๊ธธ์–ด์งˆ์ˆ˜๋ก ๋ฉ”๋ชจ๋ฆฌ์™€ ์—ฐ์‚ฐ ๋น„์šฉ์ด ๊ธ‰๊ฒฉํžˆ ์ฆ๊ฐ€ํ•˜์—ฌ, ๊ธด ์‹œํ€€์Šค๋ฅผ ๋‹ค๋ฃจ๋Š” ๋ฐ ํšจ์œจ์ ์ด์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

์ด์— ๋ฐ˜ํ•ด, RNN์€ ์‹œํ€€์Šค ๊ธธ์ด์— ๋น„๋ก€ํ•˜๋Š” Linearํ•œ Cost๋งŒ์„ ์š”๊ตฌํ•˜๋ฏ€๋กœ, ๊ธด ์‹œํ€€์Šค์—์„œ ์ถ”๋ก ํ•  ๋•Œ ์—ฌ์ „ํžˆ ๋” ๋น ๋ฆ…๋‹ˆ๋‹ค.

1.3. ์ƒํƒœ๊ณต๊ฐ„๋ชจ๋ธ(SSM)์˜ ๋“ฑ์žฅ

์ด๋Ÿฌํ•œ Transformer์˜ ๋ฌธ์ œ์ ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Gu et al. (2021)์ด ์ œ์•ˆํ•œ State Space Model(SSM)์„ ํ™œ์šฉํ•œ S4(Structured State Space Model)๋ชจ๋ธ์ด ์ฃผ๋ชฉ๋ฐ›๊ธฐ ์‹œ์ž‘ํ–ˆ์Šต๋‹ˆ๋‹ค.

S4 ๋ชจ๋ธ์€ Long Range Arena(LRA)๋ผ๋Š” ๊ธด ์‹œํ€€์Šค๋ฅผ ๋‹ค๋ฃจ๋Š” ๋ฒค์น˜๋งˆํฌ์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ํŠนํžˆ ๊ธด ์‹œํ€€์Šค๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. SSM์€ ์‹œํ€€์Šค ๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ์ˆœ์ฐจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋ฉด์„œ๋„ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•˜๊ณ , ์ถ”๋ก  ์†๋„๋„ ๋น ๋ฆ…๋‹ˆ๋‹ค. (๋‹ค์Œ paper-review์—์„œ ์ •๋ฆฌํ•ด๋ณผ๊ฒŒ์š”!)

์ด๋Š” RNN๊ณผ ์œ ์‚ฌํ•œ ๋ฐฉ์‹์œผ๋กœ ์ž‘๋™ํ•˜๋ฉด์„œ๋„, ํ•™์Šต ์†๋„์™€ ์„ฑ๋Šฅ ๋ฉด์—์„œ Transformer๋ณด๋‹ค ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค.

1.4. ์—ฐ๊ตฌ ๋ชฉํ‘œ์™€ ํ•ต์‹ฌ ๊ธฐ์—ฌ

์„œ๋ก ์˜ ๋งˆ์ง€๋ง‰ ๋ถ€๋ถ„์—์„œ๋Š” ์ด ๋…ผ๋ฌธ์˜ ์—ฐ๊ตฌ ๋ชฉํ‘œ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. RNN๊ณผ SSM์˜ ์„ฑ๋Šฅ ์ฐจ์ด๋ฅผ ๋ถ„์„ํ•˜๊ณ , RNN์„ ๊ฐœ์„ ํ•˜์—ฌ SSM ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋ณต์›ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํƒ๊ตฌํ•˜๋Š” ๊ฒƒ์ด ์ด ๋…ผ๋ฌธ์˜ ์ฃผ๋œ ๋ชฉํ‘œ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด, RNN์˜ ๊ตฌ์กฐ๋ฅผ ์„ธ๋ฐ€ํ•˜๊ฒŒ ์กฐ์ •ํ•˜๋Š” ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•๋“ค์„ ํ†ตํ•ด RNN๋„ SSM๊ณผ ๋™์ผํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ๊ณ , ์ด๋Ÿฌํ•œ ์ˆ˜์ •์ด RNN์˜ ํ•™์Šต ์†๋„์—๋„ ๊ธ์ •์ ์ธ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค๋Š” ์ ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

๋…ผ๋ฌธ์—์„œ๋Š” ์•„๋ž˜์™€ ๊ฐ™์€ ํ™”๋‘๋ฅผ ๋˜์ง€๋ฉฐ ํ•ด๋‹น ์งˆ๋ฌธ์— ๊ธ์ •์ (positive)๋ผ๊ณ  ์ด์•ผ๊ธฐํ•ฉ๋‹ˆ๋‹ค.

์—ฐ๊ตฌ์ž๋“ค์€ deepRNN์„ ์‚ฌ์šฉํ•˜์—ฌ ๊นŠ์€ ์—ฐ์† ์‹œ๊ฐ„ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(SSM)์˜ ์„ฑ๋Šฅ๊ณผ ํšจ์œจ์„ฑ์„ ์ผ์น˜์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ์„ ์ฃผ์žฅํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ๋…ผ๋ฌธ์—์„œ ์ œ์‹œํ•œ ๋ช‡ ๊ฐ€์ง€ ์ฃผ์š” ์ ‘๊ทผ ๋ฐฉ์‹์„ ์„ค๋ช…ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

  • Linear Recurrences (์„ ํ˜• ์žฌ๊ท€): ๊ธฐ์กด์˜ tanh ๋˜๋Š” ReLU ํ™œ์„ฑํ™”๋ฅผ ์‚ฌ์šฉํ•˜๋Š” RNN ๊ณ„์ธต ๋Œ€์‹  ๋น„์„ ํ˜•์„ฑ์„ ์ œ๊ฑฐํ•˜๊ณ  ์„ ํ˜• ์žฌ๊ท€(์„ ํ˜•์ ์œผ๋กœ ๋ฐ˜๋ณต๋˜๋Š” ๊ตฌ์กฐ)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋œ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์„ ํ˜•์ ์œผ๋กœ ๋ฐ˜๋ณต๋˜๋Š” ๊ตฌ์กฐ๋ž€, ์˜ˆ๋ฅผ ๋“ค์–ด tanh๋‚˜ ReLU์™€ ๊ฐ™์€ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ  ๋‹จ์ˆœํžˆ ํ–‰๋ ฌ ๊ณฑ์…ˆ๊ณผ ๋ง์…ˆ๋งŒ์„ ํ†ตํ•ด ์ƒํƒœ๋ฅผ ๊ฐฑ์‹ ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์„ ํ˜• ์žฌ๊ท€๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด gradient์˜ ์†Œ์‹ค ๋˜๋Š” ํญ๋ฐœ์„ ์ง์ ‘ ์ œ์–ดํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋ณ‘๋ ฌํ™”๋œ ํ›ˆ๋ จ์ด ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค.
  • Complex Diagonal Recurrent Matrices (๋ณต์†Œ์ˆ˜ ๋Œ€๊ฐ ์žฌ๊ท€ ํ–‰๋ ฌ): ๋ฐ€์ง‘ ์„ ํ˜• RNN ๊ณ„์ธต์„ ๋ณต์†Œ์ˆ˜ ๋Œ€๊ฐ ํ˜•ํƒœ๋กœ ์žฌ๊ตฌ์„ฑํ•˜๋Š” ๊ฒƒ์œผ๋กœ๋„ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค. ๋ฐ€์ง‘ ์„ ํ˜• RNN ๋ ˆ์ด์–ด๋Š” ๋„คํŠธ์›Œํฌ์˜ ํ‘œํ˜„๋ ฅ์„ ์†์ƒ์‹œํ‚ค์ง€ ์•Š์œผ๋ฉด์„œ ๋ณต์žกํ•œ ๋Œ€๊ฐ ํ˜•ํƒœ๋กœ ์žฌ๋งค๊ฐœ๋ณ€์ˆ˜ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ดˆ๊ธฐํ™”์—์„œ์˜ ํŠน์„ฑ๋„ ์œ ์ง€๋ฉ๋‹ˆ๋‹ค. ๋Œ€๊ฐ ํ–‰๋ ฌ์€ ๋ฐ˜๋ณต์ ์ธ ๊ณผ์ •์„ ๋ณ‘๋ ฌ๋กœ ํ’€ ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ฃผ์–ด ํ›ˆ๋ จ ์†๋„๋ฅผ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.

    • ๋Œ€๊ฐํ–‰๋ ฌ๋“ค์€ ๊ณฑ์…ˆ ์—ฐ์‚ฐ์—์„œ ๊ฒฐํ•ฉ๋ฒ•์น™์„ ๋งŒ์กฑํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ๊ฐ ์—ฐ์‚ฐ์„ ๋ณ‘๋ ฌํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด RNN๊ณผ ๊ฐ™์€ ๋ชจ๋ธ์˜ ํ›ˆ๋ จ ์†๋„๋ฅผ ํฌ๊ฒŒ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. (Martin & Cundy, 2017).
    • (์ฐธ๊ณ ) ๋Œ€๊ฐ ํ–‰๋ ฌ ๊ณฑ์…ˆ์˜ ํŠน์„ฑ : ๋Œ€๊ฐ ํ–‰๋ ฌ์€ ๋น„๋Œ€๊ฐ์„  ์š”์†Œ๊ฐ€ ๋ชจ๋‘ 0์ด๊ธฐ ๋•Œ๋ฌธ์—, ๊ณฑ์…ˆ ์—ฐ์‚ฐ์ด ๊ฐ ๋Œ€๊ฐ์„  ์š”์†Œ๋ผ๋ฆฌ๋งŒ ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค. ์ฆ‰, ๊ฐ๊ฐ์˜ ์š”์†Œ๊ฐ€ ๋…๋ฆฝ์ ์ด๊ธฐ ๋•Œ๋ฌธ์—, ๋ณ‘๋ ฌ๋กœ ์—ฐ์‚ฐ์ด ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค.
    • (์ฐธ๊ณ ) ๊ฒฐํ•ฉ๋ฒ•์น™ : ๋Œ€๊ฐ ํ–‰๋ ฌ์˜ ๊ณฑ์…ˆ์€ ๊ฒฐํ•ฉ๋ฒ•์น™์„ ๋งŒ์กฑํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, Aร—(Bร—C)=(Aร—B)ร—C์™€ ๊ฐ™์€ ๋ฐฉ์‹์œผ๋กœ ์—ฐ์‚ฐ ์ˆœ์„œ์— ์ƒ๊ด€์—†์ด ๋™์ผํ•œ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ์— ๋งค์šฐ ์œ ๋ฆฌํ•œ ํŠน์„ฑ์ž…๋‹ˆ๋‹ค.
  • Stable Exponential Parameterization (์•ˆ์ •์ ์ธ ์ง€์ˆ˜ ํŒŒ๋ผ๋ฏธํ„ฐํ™”): ๋Œ€๊ฐ ์žฌ๊ท€ ํ–‰๋ ฌ์— ๋Œ€ํ•œ ์ง€์ˆ˜ ํŒŒ๋ผ๋ฏธํ„ฐํ™”๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์•ˆ์ •์„ฑ์„ ๋ณด์žฅํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋กœ ์ธํ•ด ์ดˆ๊ธฐํ™” ๋ถ„ํฌ๋ฅผ ์กฐ์ •ํ•˜์—ฌ ์žฅ๊ธฐ์ ์ธ ์ถ”๋ก  ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ดˆ๊ธฐํ™” ์‹œ ๊ณ ์œ ๊ฐ’ ๋ถ„ํฌ๊ฐ€ ์žฅ๊ธฐ ์ถ”๋ก ์„ ์บก์ฒ˜ํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•œ๋‹ค๊ณ  ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.
  • Normalization (์ •๊ทœํ™”): ํ›ˆ๋ จ ๊ณผ์ •์—์„œ์˜ ์ˆจ๊ฒจ์ง„ ํ™œ์„ฑํ™”๋ฅผ ์ •๊ทœํ™”ํ•˜๋Š” ๊ฒƒ์ด ๋งค์šฐ ์ค‘์š”ํ•˜๋‹ค๊ณ  ์–ธ๊ธ‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด RNN์ด LRA(Long Range Arena) ๋ฒค์น˜๋งˆํฌ์˜ ๋ชจ๋“  Task์—์„œ SSM์˜ ์„ฑ๋Šฅ๊ณผ ์ค€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋‚ผ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์€ RNN์˜ ์„ฑ๋Šฅ์„ ๋˜์‚ด๋ฆฌ๊ธฐ ์œ„ํ•ด Linear Recurrent Unit(LRU)๋ผ๋Š” ์ƒˆ๋กœ์šด ๋ธ”๋ก์„ ์ œ์•ˆํ•˜๋ฉฐ, LRU๊ฐ€ SSM๊ณผ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ๊ณผ ํšจ์œจ์„ฑ์„ ๊ฐ–์ถœ ์ˆ˜ ์žˆ์Œ์„ ์‹คํ—˜์ ์œผ๋กœ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค. ์ œ์•ˆ๋œ LRU๋Š” Long Range Arena(LRA) ๋ฒค์น˜๋งˆํฌ์—์„œ SSM๊ณผ ๋™๋“ฑํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ๋ณ‘๋ ฌ ํ•™์Šต ์†๋„๋„ ์ผ์น˜ํ•ฉ๋‹ˆ๋‹ค.

  1. Preliminaries

์ด ์žฅ์—์„œ๋Š” ์ „ํ†ต์ ์ธ RNN๊ณผ ์ตœ๊ทผ์˜ S4์™€ ๊ฐ™์€ deepSSM์˜ ์ฃผ์š” ์ฐจ์ด์ ์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.

RNN (Recurrent Neural Network)

  • RNN์€ ์ˆœ์ฐจ์ ์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ์‹ ๊ฒฝ๋ง ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์ค‘์š”ํ•œ ๊ฒƒ์€ ์ด์ „ ๋‹จ๊ณ„์˜ ์ƒํƒœ ์ •๋ณด๊ฐ€ ํ˜„์žฌ ์ƒํƒœ๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค.

์ด๋Š” ๋‹ค์Œ ์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค:

xk=ฯƒ(Axkโˆ’1+Buk),yk=Cxk+Dukx_k = \sigma(Ax_{k-1} + Bu_k), \quad y_k = Cx_k + D u_kxkโ€‹=ฯƒ(Axkโˆ’1โ€‹+Bukโ€‹),ykโ€‹=Cxkโ€‹+Dukโ€‹

์—ฌ๊ธฐ์„œ:

  • AAA, BBB, CCC, DDD๋Š” ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋งค๊ฐœ๋ณ€์ˆ˜์ž…๋‹ˆ๋‹ค.
  • ฯƒ\sigmaฯƒ๋Š” ๋น„์„ ํ˜• ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋กœ ๋ณดํ†ต tanh๋‚˜ sigmoid๊ฐ€ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ๋งŒ์•ฝ ฯƒ\sigmaฯƒ๊ฐ€ ํ•ญ๋“ฑ ํ•จ์ˆ˜(identity function)๋ผ๋ฉด RNN์€ ์„ ํ˜• RNN์œผ๋กœ ๊ฐ„์ฃผ๋ฉ๋‹ˆ๋‹ค.
  • xkx_kxkโ€‹๋Š” kkk๋ฒˆ์งธ ์‹œ์ ์—์„œ์˜ ํžˆ๋“  ์ƒํƒœ(hidden state)์ด๊ณ , yky_kykโ€‹๋Š” ์ถœ๋ ฅ์ž…๋‹ˆ๋‹ค.

์ผ๋ฐ˜์ ์œผ๋กœ tanh๋‚˜ ReLU ๊ฐ™์€ ๋น„์„ ํ˜• ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ƒํƒœ ์ „์ด๋ฅผ ์ด๋ฃจ๋ฉฐ, ๋งค๋ฒˆ ์ด์ „ ์ƒํƒœ์—์„œ ์ƒˆ๋กœ์šด ์ž…๋ ฅ์„ ๋ฐ›์•„ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ƒํƒœ๋ฅผ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค.

  • ํ•˜์ง€๋งŒ RNN์€ ๋น„์„ ํ˜•์„ฑ์„ ๊ฐ–๊ณ  ์žˆ์–ด ํ•™์Šต ๊ณผ์ •์—์„œ ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ๋กœ ์ธํ•ด ํ•™์Šต์ด ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

SSM (State Space Model)

  • SSM์€ ์—ฐ์† ์‹œ๊ฐ„ ์‹œ์Šคํ…œ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์—ฐ์†์ ์ธ ์‹œ๊ฐ„ ์ถ•์—์„œ ์ƒํƒœ ๋ณ€ํ™”๋ฅผ ๋ชจ๋ธ๋งํ•˜๊ณ , ์ด๋ฅผ ์ด์‚ฐํ™”ํ•˜์—ฌ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋Š” ์ˆ˜ํ•™์ ์œผ๋กœ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์„ค๋ช…๋ฉ๋‹ˆ๋‹ค:

ddtxct(t)=A~xct(t)+B~uct(t)\frac{d}{dt}x_{ct}(t) = Aฬƒ x_{ct}(t) + Bฬƒ u_{ct}(t)dtdโ€‹xctโ€‹(t)=A~xctโ€‹(t)+B~uctโ€‹(t) yct(t)=R(C~xct(t))+D~uct(t)y_{ct}(t) = \mathcal{R}(Cฬƒ x_{ct}(t)) + Dฬƒ u_{ct}(t)yctโ€‹(t)=R(C~xctโ€‹(t))+D~uctโ€‹(t)

์ด ๋ชจ๋ธ์—์„œ ์ž…๋ ฅ ์‹ ํ˜ธ uctu_{ct}uctโ€‹๋Š” ์—ฐ์† ์‹œ๊ฐ„์—์„œ ์ƒ˜ํ”Œ๋ง๋œ ์‹œ๊ทธ๋„๋กœ ๊ฐ„์ฃผ๋ฉ๋‹ˆ๋‹ค. ์ด ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์€ ๊ธด ์‹œํ€€์Šค์—์„œ๋„ ์•ˆ์ •์ ์ธ ๊ณ„์‚ฐ์„ ๋ณด์žฅํ•˜๋ฉฐ, ํŠนํžˆ ๋ณต์žกํ•œ ์ƒํ˜ธ์ž‘์šฉ์„ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

S4 (Structured State Space Sequence Model)

  • S4๋Š” ์œ„์˜ SSM์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์„ค๊ณ„๋œ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ๋กœ, ๊ธด ์‹œํ€€์Šค ๋ชจ๋ธ๋ง์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ๋ณต์†Œ์ˆ˜ ํ–‰๋ ฌ์„ ์‚ฌ์šฉํ•˜์—ฌ RNN๋ณด๋‹ค ๋” ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋ณ‘๋ ฌํ™”๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋ฏธ์ง€ ์ถœ์ฒ˜ : A Visual Guide to Mamba and State Space Models (๋งํฌ)

S4๋Š” ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๋งค์šฐ ํšจ์œจ์ ์ธ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. S4๋Š” ๋ณต์žกํ•œ ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์œผ๋กœ ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ์œผ๋ฉฐ, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํŠน์ง•์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค:

  1. ์—ฐ์† ์‹œ๊ฐ„ ๊ธฐ๋ฐ˜์˜ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ: S4๋Š” ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์—ฐ์†์ ์ธ ์‹ ํ˜ธ๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ณ  ์ด๋ฅผ ์ด์‚ฐ ์‹œ๊ฐ„์œผ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.
  2. ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅ: S4๋Š” ์„ ํ˜• ์‹œ์Šคํ…œ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜์—ฌ RNN๊ณผ ๋‹ฌ๋ฆฌ ํ•™์Šต ๊ณผ์ •์—์„œ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
  3. HiPPO ์ด๋ก ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ์ดˆ๊ธฐํ™”: S4๋Š” HiPPO ์ด๋ก ์„ ๋ฐ”ํƒ•์œผ๋กœ ๋ณต์žกํ•œ ์ดˆ๊ธฐํ™” ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด ์ดˆ๊ธฐํ™” ๊ณผ์ •์€ SSM์ด ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

S4๋Š” RNN๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ ๊ธด ์‹œํ€€์Šค๋ฅผ ๋” ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋ฉฐ, RNN์˜ ๋ณ‘๋ชฉ ํ˜„์ƒ(Sequential Processing)์„ ๊ทน๋ณตํ•  ์ˆ˜ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

  1. Designing Performant Deep RNNs

์ด ์žฅ์—์„œ๋Š” ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•˜๋Š” ์„ฑ๋Šฅ์ด ๋›ฐ์–ด๋‚œ ๊นŠ์€ RNN(Deep RNN)์„ ์„ค๊ณ„ํ•˜๊ธฐ ์œ„ํ•œ ์ฃผ์š” ๋‹จ๊ณ„๋ฅผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ SSM(์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ)์˜ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ์žฌํ˜„ํ•˜๊ณ ์ž RNN์˜ ๊ตฌ์กฐ์  ๋ณ€ํ˜•์„ ํ†ตํ•ด SSM๊ณผ ๋น„์Šทํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

๋จผ์ € ์œ„์—์„œ ๋ณด์—ฌ๋“œ๋ฆฐ ๊ทธ๋ฆผ์„ ํƒ๊ตฌํ•ด๋ด…์‹œ๋‹ค.

(Left) Deep Linear Recurrent Unit (LRU) Architecture

  • ์™ผ์ชฝ ๊ทธ๋ฆผ์€ LRU ์˜ ์„ธ๋ถ€ ๊ตฌ์กฐ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

    • Linear Encoder (์„ ํ˜• ์ธ์ฝ”๋”) :

      • ์ž…๋ ฅ ์‹œํ€€์Šค๋ฅผ ์„ ํ˜• ์ธ์ฝ”๋”์— ํ†ต๊ณผ์‹œํ‚ต๋‹ˆ๋‹ค.

        • ์ด ์ธ์ฝ”๋”๋Š” ๋ชจ๋“  ํƒ€์ž„์Šคํ…์— ๋Œ€ํ•ด ๋™์ผํ•˜๊ฒŒ ์ ์šฉ๋˜๋ฉฐ, ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ์ ์ ˆํ•œ ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.
      • ์ฐจ์› ์ถ•์†Œ ๋˜๋Š” ๋ณ€ํ™˜์„ ํ†ตํ•ด ๋ชจ๋ธ์ด ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ํ˜•ํƒœ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ „๋‹ฌํ•ฉ๋‹ˆ๋‹ค.

    • Linear Recurrent Unit (LRU) :

      • LRU ๋ธ”๋ก ์€ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์ธต์œผ๋กœ ์Œ“์ธ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€๋ฉฐ, ๊ฐ ์ธต ์‚ฌ์ด์—๋Š” MLP/GLU ๋ธ”๋ก์ด ์‚ฝ์ž…๋˜์–ด ๋น„์„ ํ˜•์„ฑ์„ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

        • ์—ฌ๊ธฐ์„œ MLP๋Š” Multi-Layer Perceptron ์„ ์˜๋ฏธํ•˜๊ณ , GLU๋Š” Gated Linear Unit ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
      • LRU๋Š” RNN์˜ ๊ธฐ๋ณธ์ ์ธ ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ฅผ ๋”ฐ๋ฅด๊ณ  ์žˆ์ง€๋งŒ, ๋ช‡ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ๋ณ€ํ˜•์„ ํ†ตํ•ด ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•œ ๋ฒ„์ „์ž…๋‹ˆ๋‹ค.

        • ํŠนํžˆ, ๋น„์„ ํ˜•์„ฑ์„ ์ œ๊ฑฐํ•˜๊ณ , ๋ณต์†Œ์ˆ˜ ๋Œ€๊ฐ ํ–‰๋ ฌ์„ ์‚ฌ์šฉํ•˜๋Š” ๋“ฑ, RNN์˜ ํšจ์œจ์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•œ ์—ฌ๋Ÿฌ ๊ฐœ์„  ์‚ฌํ•ญ์„ ํฌํ•จํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
        • ํ•˜์ง€๋งŒ ์ˆœํ™˜์ ์ธ ์ƒํƒœ ์ „์ด์™€ ์‹œํ€€์Šค ์ฒ˜๋ฆฌ๋ผ๋Š” RNN์˜ ํ•ต์‹ฌ ํŠน์„ฑ์€ ์œ ์ง€ํ•˜๊ณ  ์žˆ๊ธฐ ๋•Œ๋ฌธ์— LRU๋„ RNN์˜ ํ•œ ํ˜•ํƒœ๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
      • LRU์˜ ํ•ต์‹ฌ์€ ์„ ํ˜• ๋ฐ˜๋ณต ์„ ์‚ฌ์šฉํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด RNN์˜ ๋น„์„ ํ˜•์„ฑ์„ ์ œ๊ฑฐํ•˜๋ฉด์„œ๋„ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ตฌ์กฐ๋Š” ๋ณ‘๋ ฌํ™”๊ฐ€ ๊ฐ€๋Šฅํ•˜๋ฉฐ, ํ•™์Šต ์†๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.
      • LRU์˜ ๋ฐ˜๋ณต ์ˆ˜์‹์€ ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค:

        xk=diag(ฮป)xkโˆ’1+ฮณโŠ™Bukx_k = \text{diag}(\lambda) x_{k-1} + \gamma \odot B u_kxkโ€‹=diag(ฮป)xkโˆ’1โ€‹+ฮณโŠ™Bukโ€‹

        • diag(ฮป)diag(ฮป)diag(ฮป) : ๋ณต์†Œ์ˆ˜ ๋Œ€๊ฐ ํ–‰๋ ฌ๋กœ, ์ด๋Š” ์ƒํƒœ ์ „์ด๋ฅผ ๋” ํšจ์œจ์ ์œผ๋กœ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค.
        • ฮณฮณฮณ : ํ•™์Šต ๊ฐ€๋Šฅํ•œ ์ •๊ทœํ™” ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ, ์ด๋Š” ๊ฐ ์‹œํ€€์Šค ํƒ€์ž„์Šคํ…์—์„œ ์ƒํƒœ ์ •๋ณด๋ฅผ ์กฐ์ •ํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
        • BukB u_kBukโ€‹ : ์ž…๋ ฅ ๋ฐ์ดํ„ฐ uku_kukโ€‹ ์— ๋Œ€ํ•ด ๊ฐ€์ค‘์น˜ BBB ๋ฅผ ๊ณฑํ•˜์—ฌ ๋‹ค์Œ ์ƒํƒœ๋กœ ์ „๋‹ฌํ•ฉ๋‹ˆ๋‹ค.
      • ์„ธ๋ถ€ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ข€ ๋” ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

      • Normalization (์ •๊ทœํ™”, ฮณj\gamma_jฮณjโ€‹) :

        • LRU ๋‚ด๋ถ€์—์„œ๋Š” Pre-Layer Normalization ๋˜๋Š” Batch Normalization ์ด ์ ์šฉ๋˜์–ด ๊ธด ์‹œํ€€์Šค ํ•™์Šต ์ค‘ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•ฉ๋‹ˆ๋‹ค.
        • ์ •๊ทœํ™”๋Š” ๊ฐ ์ธต์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์€๋‹‰ ์ƒํƒœ์˜ ์Šค์ผ€์ผ์„ ์กฐ์ •ํ•˜์—ฌ ํ•™์Šต์„ ์•ˆ์ •ํ™”์‹œํ‚ต๋‹ˆ๋‹ค.

          ฮณj=(1โˆ’โˆฃฮปjโˆฃ2)1/2\gamma_j = (1 - ฮป_j ^2)^{1/2}ฮณjโ€‹=(1โˆ’โˆฃฮปjโ€‹โˆฃ2)1/2
      • Stable Exponential Parameterization (์•ˆ์ •์ ์ธ ์ง€์ˆ˜ ๋งค๊ฐœ๋ณ€์ˆ˜ํ™”, ฮปjฮป_jฮปjโ€‹)

        • RNN์˜ ๋ฐ˜๋ณต ํ–‰๋ ฌ์„ ๋งค๊ฐœ๋ณ€์ˆ˜ํ™”ํ•  ๋•Œ, ํ•™์Šต ๊ณผ์ •์—์„œ ์•ˆ์ •์„ฑ์„ ๋ณด์žฅํ•˜๊ธฐ ์œ„ํ•ด ์ˆ˜ํ–‰๋ฉ๋‹ˆ๋‹ค.
        • ์ด๋Š” ๋ชจ๋ธ์ด ํ•™์Šตํ•˜๋Š” ๋™์•ˆ ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค(vanishing gradient) ๋˜๋Š” ๊ธฐ์šธ๊ธฐ ํญ๋ฐœ(exploding gradient)์„ ๋ฐฉ์ง€ํ•˜์—ฌ, ํŠนํžˆ ๊ธด ์‹œํ€€์Šค์—์„œ ์˜ค๋ฒ„ํ”Œ๋กœ์šฐ ๋˜๋Š” ์–ธ๋”ํ”Œ๋กœ์šฐ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

          ฮปj=exp(โˆ’exp(ฮฝjlog)+iexp(ฮธjlog))ฮป_j = exp(-exp(ฮฝ_j^log) + i exp(ฮธ_j^log))ฮปjโ€‹=exp(โˆ’exp(ฮฝjlโ€‹og)+iexp(ฮธjlโ€‹og))

          • ฮป๋Š” ๋ณต์†Œ์ˆ˜ ๊ณ ์œ ๊ฐ’์ด๋ฉฐ, ์ด๋Š” ํ•™์Šต ์ค‘์— ๋งค๊ฐœ๋ณ€์ˆ˜ํ™”๋˜์–ด ์•ˆ์ •์„ฑ์„ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค.
          • ๊ณ ์œ ๊ฐ’์˜ ํฌ๊ธฐ์™€ ์œ„์ƒ์„ ๊ฐ๊ฐ ๋งค๊ฐœ๋ณ€์ˆ˜ํ™”ํ•˜์—ฌ ํ•™์Šต ์„ฑ๋Šฅ์„ ๋†’์ž…๋‹ˆ๋‹ค.
  • Skip Connection :

    • ๊ฐ ์ธต ์‚ฌ์ด์—๋Š” Skip Connection ์ด ํฌํ•จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ๊นŠ์–ด์งˆ์ˆ˜๋ก ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ์ •๋ณด ์†์‹ค์„ ๋ฐฉ์ง€ํ•˜๊ณ , ๋” ๊นŠ์€ ๋„คํŠธ์›Œํฌ์—์„œ ํšจ๊ณผ์ ์ธ ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
  • Linear Layer (์„ ํ˜• ์ถœ๋ ฅ ๋ ˆ์ด์–ด) :

    • ๋งˆ์ง€๋ง‰์œผ๋กœ, ํƒ€์ž„์Šคํ…๊ณผ ๊ด€๋ จ๋œ ์ถœ๋ ฅ์„ ์œ„ํ•ด ์„ ํ˜• ๋ ˆ์ด์–ด ๊ฐ€ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์˜ ์ตœ์ข… ์ถœ๋ ฅ์œผ๋กœ ์ด์–ด์ง€๋ฉฐ, ํด๋ž˜์Šค ์˜ˆ์ธก์ด๋‚˜ ๊ธฐํƒ€ ์‹œํ€€์Šค ๋ชจ๋ธ๋ง ์ž‘์—…์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

(Right) Test accuracy on LRA tasks

์˜ค๋ฅธ์ชฝ ๊ทธ๋ž˜ํ”„๋Š” Long Range Arena (LRA) ๋ฒค์น˜๋งˆํฌ์—์„œ ์ˆ˜ํ–‰ํ•œ ํ…Œ์ŠคํŠธ ๊ฒฐ๊ณผ๋ฅผ ์‹œ๊ฐ์ ์œผ๋กœ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด ๊ทธ๋ž˜ํ”„๋Š” RNN ๊ตฌ์กฐ์—์„œ tanh ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ธฐ๋ณธ RNN์—์„œ ์‹œ์ž‘ํ•˜์—ฌ, LRU ๊ตฌ์กฐ๋กœ ๋ณ€๊ฒฝํ•ด๊ฐ€๋ฉด์„œ ์„ฑ๋Šฅ์ด ์–ด๋–ป๊ฒŒ ๋ณ€ํ™”ํ•˜๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

  1. Recurrent Block Variants (RNN ๋ธ”๋ก ๋ณ€ํ˜•) :

    • X์ถ•์€ ๋ฐ˜๋ณต ๋ชจ๋“ˆ์˜ ์—ฌ๋Ÿฌ ๋ณ€ํ˜•์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์ดˆ๊ธฐ tanh ํ™œ์„ฑํ™” RNN์—์„œ ์‹œ์ž‘ํ•˜์—ฌ, ์„ ํ˜• ํ™œ์„ฑํ™” , ๋Œ€๊ฐ์„ ํ™”(๋ณต์†Œ์ˆ˜ ๋Œ€๊ฐ ํ–‰๋ ฌ) , ์•ˆ์ •์ ์ธ ์ง€์ˆ˜ ๋งค๊ฐœ๋ณ€์ˆ˜ํ™” , ๊ทธ๋ฆฌ๊ณ  ์ตœ์ข…์ ์œผ๋กœ ฮณ ์ •๊ทœํ™” ๋ฅผ ํฌํ•จํ•˜๋Š” LRU๊นŒ์ง€ ๋ฐœ์ „ํ•ฉ๋‹ˆ๋‹ค.
    • ๊ฐ ๋‹จ๊ณ„์—์„œ RNN์ด ์–ด๋–ป๊ฒŒ ๊ฐœ์„ ๋˜๊ณ  ์žˆ๋Š”์ง€ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  2. Efficiency Boost (ํšจ์œจ์„ฑ ํ–ฅ์ƒ) :

    • ๊ทธ๋ž˜ํ”„์—์„œ ์ฃผ๋ชฉํ•  ์ ์€ ์„ ํ˜• ๋Œ€๊ฐ ํ–‰๋ ฌ๊ณผ ์•ˆ์ •์ ์ธ ์ง€์ˆ˜ ๋งค๊ฐœ๋ณ€์ˆ˜ํ™”๋ฅผ ๋„์ž…ํ•œ ์‹œ์ ์—์„œ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋ณ‘๋ ฌํ™” ๋ฐ ํšจ์œจ์ ์ธ ๊ณ„์‚ฐ์„ ํ†ตํ•ด ํ•™์Šต ์†๋„์™€ ์„ฑ๋Šฅ์ด ๋™์‹œ์— ๊ฐœ์„ ๋œ ๊ฒƒ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
  3. Performance on LRA tasks (LRA ๊ณผ์ œ์—์„œ์˜ ์„ฑ๋Šฅ) :

    • ๊ทธ๋ž˜ํ”„์˜ Y์ถ•์€ ํ…Œ์ŠคํŠธ ์ •ํ™•๋„๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ๊ฐ ์ƒ‰์ƒ๊ณผ ๊ธฐํ˜ธ๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ๊ณผ์ œ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

      • sCIFAR (์˜ค๋ Œ์ง€์ƒ‰ ์›), ListOps (์ดˆ๋ก์ƒ‰ ์‚ผ๊ฐํ˜•), PathFinder (๊ฐˆ์ƒ‰ ์‚ฌ๊ฐํ˜•), PathX (๋…ธ๋ž€์ƒ‰ ๋‹ค์ด์•„๋ชฌ๋“œ)
    • S4์™€ S5 ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์€ ๋Œ€์‹œ ์„ ์œผ๋กœ ๋‚˜ํƒ€๋‚ด์–ด, ๊ฐ ๊ณผ์ œ์—์„œ LRU๊ฐ€ S4/S5์™€ ๋™๋“ฑํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๊ณ  ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.


๊ฐ 3. Designing Performant Deep RNNs์˜ ๊ฐ ์ ˆ์—์„œ๋Š” ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•˜๋Š” Linear Recurrent Unit (LRU)์˜ ํ•ต์‹ฌ์ ์ธ ์„ค๊ณ„ ์š”์†Œ๋“ค์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.

3.1 Linear RNN layers are performant (์„ ํ˜• RNN ๋ ˆ์ด์–ด๋Š” ์„ฑ๋Šฅ์ด ๋›ฐ์–ด๋‚จ)

์ด ์ ˆ์—์„œ ์—ฐ๊ตฌ์ง„์€ RNN์˜ ๋น„์„ ํ˜•์„ฑ์„ ์ œ๊ฑฐํ•˜๋Š” ๊ฒƒ์ด ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ์–ด๋–ป๊ฒŒ ๊ธฐ์—ฌํ•˜๋Š”์ง€ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. RNN์˜ ์ „ํ†ต์ ์ธ ๊ตฌ์กฐ๋Š” tanh๋‚˜ ReLU์™€ ๊ฐ™์€ ๋น„์„ ํ˜• ํ™œ์„ฑํ™” ํ•จ์ˆ˜๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ์ง€๋งŒ, ๋…ผ๋ฌธ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๋น„์„ ํ˜•์„ฑ์„ ์ œ๊ฑฐํ•œ ์„ ํ˜• RNN (Linear RNN)์ด ๋งค์šฐ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ๋ฐœ๊ฒฌ๋œ ์„ฑ๋Šฅ ๊ฐœ์„ : ์‹คํ—˜ ๊ฒฐ๊ณผ์— ๋”ฐ๋ฅด๋ฉด RNN์˜ ๋น„์„ ํ˜•์„ฑ์„ ์ œ๊ฑฐํ•œ ํ›„, Long Range Arena(LRA) ๋ฒค์น˜๋งˆํฌ์—์„œ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๊ฐœ์„ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, ํ…์ŠคํŠธ ์ฒ˜๋ฆฌ๋‚˜ ์ •๋ณด ๊ฒ€์ƒ‰๊ณผ ๊ฐ™์€ ํŠน์ • ๊ณผ์ œ์—์„œ๋Š” ๋น„์„ ํ˜• RNN๋ณด๋‹ค๋„ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
  • ๋น„์„ ํ˜•์„ฑ ์ œ๊ฑฐ์˜ ํšจ๊ณผ: ๋น„์„ ํ˜•์„ฑ์„ ์ œ๊ฑฐํ•˜๋ฉด RNN์ด ํ›จ์”ฌ ๋” ํšจ์œจ์ ์œผ๋กœ ์ž‘๋™ํ•˜๋ฉฐ, ํŠนํžˆ ๊ธด ์‹œํ€€์Šค์—์„œ์˜ ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค(vanishing gradient) ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋น„์„ ํ˜•์„ฑ์ด ์—†๋Š” ์ƒํƒœ์—์„œ RNN์„ ์Œ“์•„ ์˜ฌ๋ฆฌ๋Š” ๊ฒƒ์ด ๋น„์„ ํ˜•์„ฑ์„ ์œ ์ง€ํ•˜๋Š” ๊ฒฝ์šฐ๋ณด๋‹ค ๋” ์‰ฝ๊ฒŒ ๋ณ‘๋ ฌํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด ์„น์…˜์—์„œ์˜ ์ฃผ์š” ๊ฒฐ๋ก ์€, RNN์—์„œ ๋น„์„ ํ˜•์„ฑ์„ ์ œ๊ฑฐํ•˜๋Š” ๊ฒƒ์ด ์„ฑ๋Šฅ์— ๋ถ€์ •์ ์ธ ์˜ํ–ฅ์„ ๋ฏธ์น˜์ง€ ์•Š์œผ๋ฉฐ, ์˜คํžˆ๋ ค ์„ ํ˜• ๋ฐ˜๋ณต(Linear Recurrence)์ด ๋ณต์žกํ•œ ์‹œํ€€์Šค-์‹œํ€€์Šค ๋งต์„ ๋ชจ๋ธ๋งํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ด๋Š” SSM์ด ์„ ํ˜• ๋ฐ˜๋ณต์„ ํ†ตํ•ด ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ด๋Š” ์ด์œ ์™€๋„ ๊ด€๋ จ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

3.2 Using complex diagonal recurrent matrices is efficient (๋ณต์†Œ ๋Œ€๊ฐ ๋ฐ˜๋ณต ํ–‰๋ ฌ ์‚ฌ์šฉ์˜ ํšจ์œจ์„ฑ)

๋‹ค์Œ ๋‹จ๊ณ„์—์„œ๋Š” RNN์˜ ๋ฐ˜๋ณต ํ–‰๋ ฌ์„ ๋ณต์†Œ์ˆ˜ ๋Œ€๊ฐ ํ–‰๋ ฌ(complex diagonal recurrent matrices)๋กœ ์žฌ๊ตฌ์„ฑํ•˜์—ฌ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ๊ฐœ์„ ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.

  • ๋ณต์†Œ์ˆ˜ ๋Œ€๊ฐ ํ–‰๋ ฌ์˜ ์žฅ์ : RNN์˜ ์„ ํ˜• ๋ ˆ์ด์–ด๋ฅผ ๋ณต์†Œ์ˆ˜ ๋Œ€๊ฐ ํ–‰๋ ฌ๋กœ ๋ณ€ํ™˜ํ•˜๋ฉด, ์ด ํ–‰๋ ฌ์€ ๋” ์‰ฝ๊ฒŒ ๋ณ‘๋ ฌํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณต์†Œ ๋Œ€๊ฐ ํ–‰๋ ฌ์€ ํ–‰๋ ฌ์˜ ๊ณ ์œ ๊ฐ’ ๋ถ„ํ•ด(eigen decomposition)๋ฅผ ํ†ตํ•ด ์‰ฝ๊ฒŒ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๊ฐ ํƒ€์ž„์Šคํ…์—์„œ์˜ ๊ณ„์‚ฐ์„ ๋ณ‘๋ ฌ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ•™์Šต ์†๋„๋ฅผ ํฌ๊ฒŒ ๋†’์ด๋ฉฐ, ํŠนํžˆ ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒฝ์šฐ ์œ ๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
  • ๋ณ‘๋ ฌํ™”์™€ ์†๋„ ํ–ฅ์ƒ: ๋ณต์†Œ์ˆ˜ ๋Œ€๊ฐ ํ–‰๋ ฌ์„ ์‚ฌ์šฉํ•˜๋ฉด, ์„ ํ˜• RNN์˜ ํ•™์Šต๊ณผ ์ถ”๋ก ์„ ๋ณ‘๋ ฌํ™”ํ•  ์ˆ˜ ์žˆ์–ด ๊ณ„์‚ฐ ๋น„์šฉ์„ ์ค„์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ๋น„์„ ํ˜• RNN์€ ํ•™์Šต ์‹œ ์ˆœ์ฐจ์ ์œผ๋กœ ๊ณ„์‚ฐ์ด ์ด๋ฃจ์–ด์ ธ์•ผ ํ•˜์ง€๋งŒ, ๋ณต์†Œ์ˆ˜ ๋Œ€๊ฐ ํ–‰๋ ฌ์„ ์‚ฌ์šฉํ•˜๋ฉด ๋ณ‘๋ ฌ ๊ณ„์‚ฐ์ด ๊ฐ€๋Šฅํ•˜๋ฏ€๋กœ ํ•™์Šต ์†๋„์™€ ์ถ”๋ก  ์†๋„๊ฐ€ ํฌ๊ฒŒ ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค.

๋…ผ๋ฌธ์—์„œ๋Š” ์ด ๊ณผ์ •์ด SSM์—์„œ๋„ ์ž์ฃผ ์‚ฌ์šฉ๋˜๋Š” ๊ธฐ์ˆ ์ž„์„ ๊ฐ•์กฐํ•˜๋ฉฐ, ๋ณต์†Œ ๋Œ€๊ฐ ํ–‰๋ ฌ์ด ๋ณต์žกํ•œ ์‹œํ€€์Šค ๋ชจ๋ธ๋ง์—์„œ ํšจ์œจ์„ฑ์„ ๋†’์ด๋Š” ๋ฐ ํฐ ์—ญํ• ์„ ํ•œ๋‹ค๊ณ  ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.

3.3 Stable Exponential Parameterization (์•ˆ์ •์ ์ธ ์ง€์ˆ˜ ๋งค๊ฐœ๋ณ€์ˆ˜ํ™”)

๋‹ค์Œ์œผ๋กœ ๋…ผ๋ฌธ์—์„œ๋Š” ์ง€์ˆ˜ ๋งค๊ฐœ๋ณ€์ˆ˜ํ™”(exponential parameterization)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ˜๋ณต ํ–‰๋ ฌ์˜ ์•ˆ์ •์„ฑ(stability)์„ ๋ณด์žฅํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.

  • ์ง€์ˆ˜ ๋งค๊ฐœ๋ณ€์ˆ˜ํ™”์˜ ์ด์ : ๋ฐ˜๋ณต ํ–‰๋ ฌ์„ ์ง€์ˆ˜ ํ•จ์ˆ˜๋กœ ๋งค๊ฐœ๋ณ€์ˆ˜ํ™”ํ•˜๋ฉด, ํ•™์Šต ์ค‘ ๋ชจ๋ธ์˜ ์•ˆ์ •์„ฑ์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํŠนํžˆ ๊ธด ์‹œํ€€์Šค์—์„œ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ƒํƒœ๋ฅผ ์—…๋ฐ์ดํŠธํ•  ๋•Œ, ๊ธฐ์šธ๊ธฐ์˜ ์†Œ์‹ค์ด๋‚˜ ํญ๋ฐœ ๋ฌธ์ œ๋ฅผ ๋ฐฉ์ง€ํ•˜๋Š” ๋ฐ ๋งค์šฐ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.
  • ๊ณ ์œ ๊ฐ’ ๋ถ„ํฌ์™€ ์„ฑ๋Šฅ ํ–ฅ์ƒ: ์‹คํ—˜ ๊ฒฐ๊ณผ์— ๋”ฐ๋ฅด๋ฉด, ๋ฐ˜๋ณต ํ–‰๋ ฌ์˜ ๊ณ ์œ ๊ฐ’ ๋ถ„ํฌ๋ฅผ ์ ์ ˆํžˆ ์ดˆ๊ธฐํ™”ํ•˜๋ฉด ๋ชจ๋ธ์ด ๊ธด ์‹œํ€€์Šค ์˜์กด์„ฑ์„ ๋” ์ž˜ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” SSM์—์„œ ์„ฑ๋Šฅ์ด ๋›ฐ์–ด๋‚œ ์ด์œ  ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. SSM์—์„œ ๋ณต์žกํ•œ ์ดˆ๊ธฐํ™” ๊ทœ์น™์„ ์‚ฌ์šฉํ•˜๋Š” ๋Œ€์‹ , ๊ณ ์œ ๊ฐ’์˜ ๋ถ„ํฌ๋ฅผ ์กฐ์ •ํ•˜์—ฌ ํ•™์Šต ์„ฑ๋Šฅ์„ ๋†’์ผ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

3.4 Normalization (์ •๊ทœํ™”)

๋งˆ์ง€๋ง‰์œผ๋กœ ๋…ผ๋ฌธ์—์„œ๋Š” ์ •๊ทœํ™”(Normalization)์˜ ์ค‘์š”์„ฑ์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ๊ธด ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•  ๋•Œ, RNN์˜ ์€๋‹‰ ์ƒํƒœ๋ฅผ ์ ์ ˆํ•˜๊ฒŒ ์ •๊ทœํ™”ํ•˜๋Š” ๊ฒƒ์ด ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.

  • ์ •๊ทœํ™”์˜ ์—ญํ• : RNN์€ ์€๋‹‰ ์ƒํƒœ๋ฅผ ์ˆœ์ฐจ์ ์œผ๋กœ ์—…๋ฐ์ดํŠธํ•˜๋ฉฐ ํ•™์Šต์„ ์ง„ํ–‰ํ•˜๋Š”๋ฐ, ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ณผ์ •์—์„œ ์€๋‹‰ ์ƒํƒœ๊ฐ€ ๊ณผ๋„ํ•˜๊ฒŒ ์ปค์ง€๊ฑฐ๋‚˜ ์ž‘์•„์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด ๋ชจ๋ธ์ด ํ•™์Šตํ•˜๊ธฐ ์–ด๋ ค์›Œ์งˆ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, forward pass์—์„œ ์€๋‹‰ ์ƒํƒœ๋ฅผ ์ •๊ทœํ™”ํ•˜๋Š” ๊ฒƒ์ด ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.
  • ์ •๊ทœํ™”์™€ ์„ฑ๋Šฅ ํ–ฅ์ƒ: ์ •๊ทœํ™”๋ฅผ ์ ์ ˆํžˆ ์ ์šฉํ•˜๋ฉด ๊ธด ์‹œํ€€์Šค์—์„œ RNN์ด ๋” ์•ˆ์ •์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•˜๋Š” LRU ๊ตฌ์กฐ๊ฐ€ SSM๊ณผ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ๋Š” ์ด์œ  ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ •๊ทœํ™”๋Š” S4 ๋ชจ๋ธ์—์„œ ์‚ฌ์šฉ๋˜๋Š” ๊ตฌ์กฐ์™€๋„ ์—ฐ๊ฒฐ๋˜๋ฉฐ, ์ด ๊ณผ์ •์ด SSM์—์„œ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•˜๋Š” ๋ฐ ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.
  1. Insights on S4 and Variants

๋…ผ๋ฌธ์—์„œ ์–ธ๊ธ‰๋˜๋Š” S4 ๋ชจ๋ธ๊ณผ ๊ทธ ๋ณ€ํ˜•๋“ค(S4 and Variants)์— ๋Œ€ํ•œ ์ธ์‚ฌ์ดํŠธ๋Š” ์ฃผ๋กœ S4 ๋ชจ๋ธ์ด ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๋Š” ์›์ธ๊ณผ ์ด ๋ชจ๋ธ์˜ ํŠน์ง•์— ๋Œ€ํ•œ ์ดํ•ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

1. S4์˜ ๊ตฌ์กฐ์  ํšจ์œจ์„ฑ

  • ์ธ์‚ฌ์ดํŠธ: S4์™€ ๊ทธ ๋ณ€ํ˜• ๋ชจ๋ธ๋“ค(DSS, S4D, S5 ๋“ฑ)์€ ์‹œํ€€์Šค ๊ธธ์ด์— ๋”ฐ๋ผ ์—ฐ์‚ฐ ๋ณต์žก๋„๋ฅผ ๋‚ฎ์ถ”๋Š” ํšจ์œจ์ ์ธ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ด์œ : S4๋Š” Transformer์˜ attention ๋ ˆ์ด์–ด๊ฐ€ ๊ฐ€์ง€๋Š” O(L2)O(L^2)O(L2) ๋ฉ”๋ชจ๋ฆฌ์™€ ๊ณ„์‚ฐ ๋ณต์žก๋„๋ฅผ ํ”ผํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. S4๋Š” ์ˆœ์ฐจ์ ์œผ๋กœ ํ† ํฐ ๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ๋ชจ๋ธ๋งํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๊ธด ์‹œํ€€์Šค๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ˆœ์ฐจ์  ๋ชจ๋ธ์ž„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ํ›ˆ๋ จ ์‹œ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•˜์—ฌ ํ•™์Šต ์†๋„๊ฐ€ ๋น ๋ฆ…๋‹ˆ๋‹ค.

2. ์„ ํ˜• ์žฌ๊ท€ ๊ตฌ์กฐ์˜ ์žฅ์ 

  • ์ธ์‚ฌ์ดํŠธ: S4๋Š” ์žฌ๊ท€์  ์—ฐ์‚ฐ์„ ์„ ํ˜•์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋ฏ€๋กœ RNN์ฒ˜๋Ÿผ ๊ธด ์‹œํ€€์Šค์— ๋Œ€ํ•œ ์ •๋ณด ์ „ํŒŒ๋ฅผ ๋น ๋ฅด๊ฒŒ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ด์œ : S4์˜ ์žฌ๊ท€์  ๋ ˆ์ด์–ด๋Š” ๋น„์„ ํ˜•์„ฑ์ด ์—†๋Š” ์„ ํ˜• ์‹œ์Šคํ…œ์œผ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ์ด๋Š” ํ•™์Šต์ด ๋ณด๋‹ค ์•ˆ์ •์ ์ด๊ณ  ๋น ๋ฅด๊ฒŒ ์ด๋ฃจ์–ด์ง€๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด ์„ ํ˜•์„ฑ์€ RNN๊ณผ ์œ ์‚ฌํ•œ ์„ฑ์งˆ์„ ๊ฐ€์ง€์ง€๋งŒ, ๋ณ‘๋ ฌ ํ›ˆ๋ จ์ด ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์ ์—์„œ ํฐ ์žฅ์ ์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค.

3. ๋ณต์†Œ ๋Œ€๊ฐ ํ–‰๋ ฌ ์‚ฌ์šฉ์˜ ์ด์ 

  • ์ธ์‚ฌ์ดํŠธ: S4๋Š” ๋ณต์†Œ์ˆ˜ ๋Œ€๊ฐ ํ–‰๋ ฌ์„ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ ๋ชจ๋ธ์˜ ์•ˆ์ •์„ฑ๊ณผ ์„ฑ๋Šฅ์„ ๋†’์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ด์œ : ๋ณต์†Œ์ˆ˜ ๋Œ€๊ฐ ํ–‰๋ ฌ์„ ์‚ฌ์šฉํ•˜๋ฉด ๋ชจ๋ธ์ด ๋” ๋งŽ์€ ์ •๋ณด๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์—ฐ์‚ฐ ํšจ์œจ๋„ ํฌ๊ฒŒ ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ๋ณต์†Œ์ˆ˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ด์šฉํ•˜์—ฌ ๋ชจ๋ธ ์ดˆ๊ธฐํ™”๋ฅผ ์•ˆ์ •์ ์œผ๋กœ ์„ค์ •ํ•˜๊ณ , ํ›ˆ๋ จ ์‹œ ์žฅ๊ธฐ ์˜์กด์„ฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

4. ํŠน์ • ์ดˆ๊ธฐํ™”์˜ ์ค‘์š”์„ฑ

  • ์ธ์‚ฌ์ดํŠธ: S4 ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์€ ํŠน์ •ํ•œ ์ดˆ๊ธฐํ™” ๋ฐฉ๋ฒ•์—์„œ ๊ธฐ์ธํ•˜์ง€๋งŒ, ์ด๋Ÿฌํ•œ ์ดˆ๊ธฐํ™”๊ฐ€ ํ•ญ์ƒ ๊ฒฐ์ •์ ์ธ ๊ฒƒ์€ ์•„๋‹™๋‹ˆ๋‹ค.
  • ์ด์œ : ์ดˆ๊ธฐํ™”๋Š” ๋ชจ๋ธ์ด ์žฅ๊ธฐ์ ์ธ ์˜์กด์„ฑ์„ ํ•™์Šตํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•˜์ง€๋งŒ, ๋…ผ๋ฌธ์—์„œ๋Š” ์ด ์ดˆ๊ธฐํ™” ๊ทœ์น™์ด ํ•ญ์ƒ ์ด๋ก ์ ์œผ๋กœ ์ตœ์ ์€ ์•„๋‹ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์œผ๋กœ๋„ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ฃผ์žฅํ•ฉ๋‹ˆ๋‹ค.

5. ํ›ˆ๋ จ ์†๋„ ๋ฐ ์„ฑ๋Šฅ์˜ ๊ท ํ˜•

  • ์ธ์‚ฌ์ดํŠธ: S4 ๋ชจ๋ธ์€ ๊ธด ์‹œํ€€์Šค๋ฅผ ๋‹ค๋ฃฐ ๋•Œ๋„ ๋น ๋ฅธ ํ•™์Šต ์†๋„๋ฅผ ์œ ์ง€ํ•˜๋ฉฐ, ์„ฑ๋Šฅ์„ ์žƒ์ง€ ์•Š๋Š” ๊ท ํ˜•์ ์„ ์ฐพ์•˜์Šต๋‹ˆ๋‹ค.
  • ์ด์œ : S4์˜ ์„ค๊ณ„๋Š” RNN๊ณผ ์œ ์‚ฌํ•˜์ง€๋งŒ ํ›ˆ๋ จ ์‹œ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ๋ฅผ ํ†ตํ•ด ํ•™์Šต ์†๋„๋ฅผ ๋†’์ผ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋ณต์žกํ•œ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๋น ๋ฅธ ํ›ˆ๋ จ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

๊ฒฐ๋ก ์ ์œผ๋กœ, ์ด ๋…ผ๋ฌธ์€ S4 ๋ชจ๋ธ๊ณผ ๊ทธ ๋ณ€ํ˜•๋“ค์ด ๋†’์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ๋‹ค์–‘ํ•œ ๊ธฐํ•˜ํ•™์  ๋ฐ ๊ณ„์‚ฐ์  ์š”์†Œ๋“ค์„ ๋ถ„์„ํ•˜๊ณ , ๊ธฐ์กด์˜ ๊ฐ€์ •์ด ๋” ๊ฐ„๋‹จํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ๋„ ๊ฒ€์ฆ๋  ์ˆ˜ ์žˆ์Œ์„ ์ œ์‹œํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ์ธ์‚ฌ์ดํŠธ๋Š” ํ–ฅํ›„ RNN ๋ฐ SSM ๋ชจ๋ธ ๊ฐœ๋ฐœ์— ์ค‘์š”ํ•œ ๋ฐฉํ–ฅ์„ฑ์„ ์ œ๊ณตํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋œ๋‹ค๊ณ  ํ•˜๋ฉฐ ๊ธ€์„ ๋งˆ๋ฌด๋ฆฌํ•ฉ๋‹ˆ๋‹ค.



-->