[Paper Review] Structured State Space Models for Deep Sequence Modeling

Posted by Euisuk's Dev Log on September 25, 2024

[Paper Review] Structured State Space Models for Deep Sequence Modeling

์›๋ณธ ๊ฒŒ์‹œ๊ธ€: https://velog.io/@euisuk-chung/Structured-State-Space-Models-for-Deep-Sequence-Modeling

์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ์ง€๋‚œ ๋ช‡ ๋…„ ๋™์•ˆ ๋น ๋ฅด๊ฒŒ ๋ฐœ์ „ํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, CMU์— ๊ณ„์‹  Albert Gu ๊ต์ˆ˜๋‹˜์€ ๊ธด ์‹œ๊ณ„์—ด ์˜์กด์„ฑ(Long-Range Dependencies, LRDs)์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ์ง‘์ค‘ํ•œ HiPPO(2020), LSSL(2021), ๊ทธ๋ฆฌ๊ณ  S4(2022)์™€ ๊ฐ™์€ ์—ฐ๊ตฌ๋“ค์„ ํ•˜๊ณ  ๊ณ„์‹ญ๋‹ˆ๋‹ค.

์ด๋ฒˆ ๊ธ€์—์„œ๋Š” ์—ฐ๊ตฌ์˜ ํ๋ฆ„๊ณผ ๊ฐ ๋ชจ๋ธ์˜ ๊ธฐ์ˆ ์  ๋ฐฐ๊ฒฝ๊ณผ ์ฃผ์š” ๊ธฐ์—ฌ๋ฅผ ์„ค๋ช…ํ•˜๊ณ , ์–ด๋ ค์šด ๊ฐœ๋…๋“ค์„ ํ’€์–ด๋ด…๋‹ˆ๋‹ค. ์ด๋ฏธ์ง€๋“ค์€ ์•„๋ž˜ Reference์— ์ ์–ด๋‘” ๊ฐ•์˜, ๋ธ”๋กœ๊ทธ ๋˜๋Š” ๋…ผ๋ฌธ์—์—์„œ ๋ฐœ์ทŒํ•˜์—ฌ ํŽธ์ง‘ ๋˜๋Š” ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.


Backgrounds

  1. Sequence Modeling์˜ ํ•„์š”์„ฑ

Sequence Modeling์€ ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ๋ฐ์ดํ„ฐ์˜ ํŒจํ„ด์„ ๋ถ„์„ํ•˜๊ณ  ์˜ˆ์ธกํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ ์ธ ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์Œ์„ฑ ์ธ์‹, ๊ธˆ์œต ์‹œ๊ณ„์—ด ๋ถ„์„, ๋ฐ”์ด์˜ค ์‹ ํ˜ธ ๋ถ„์„ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ์ด๋Ÿฌํ•œ ๊ธฐ์ˆ ์ด ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, ๊ธด ์‹œํ€€์Šค(long sequences)๋ฅผ ๋‹ค๋ฃจ๋Š” ๋ชจ๋ธ์€ ์ด๋Ÿฌํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ณ  ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๋Š” ๋ฐ ์ค‘์ ์„ ๋‘ก๋‹ˆ๋‹ค.

  1. Sequence Modeling์˜ ์ฃผ์š” ๊ณผ์ œ

๊ธด ์‹œํ€€์Šค๋ฅผ ๋‹ค๋ฃจ๋Š” ๊ณผ์ •์—์„œ ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ๊ณผ์ œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์ฒซ์งธ, ๋ฐ์ดํ„ฐ์˜ ์‹œ๊ฐ„์  ์—ฐ์†์„ฑ(time continuity)์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ์ด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
  • ๋‘˜์งธ, ํ•™์Šต ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•˜๋Š” Vanishing Gradient ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

์ด๋Š” RNN์ด๋‚˜ ๊ธฐ์กด์˜ ์ˆœ์ฐจ ๋ชจ๋ธ๋“ค์ด ๊ธด ์‹œํ€€์Šค์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๊ณตํ†ต์ ์ธ ๋ฌธ์ œ๋กœ, ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์‹ ํ˜ธ๊ฐ€ ์ ์ฐจ ์•ฝํ•ด์ ธ ๋ชจ๋ธ ํ•™์Šต์— ์–ด๋ ค์›€์„ ์ค๋‹ˆ๋‹ค.

  1. State Space Model(SSM) ์†Œ๊ฐœ

State Space Model(SSM)์€ ๋ณธ๋ž˜ ์ œ์–ด ์ด๋ก ์—์„œ ์œ ๋ž˜ํ•œ ๋ชจ๋ธ๋กœ, ์‹œ์Šคํ…œ์˜ ์ƒํƒœ(state)์™€ ์ถœ๋ ฅ์„ ์ˆ˜ํ•™์ ์œผ๋กœ ์ •์˜ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ(xxx)๋ฅผ ๋ฐ›์•„ ์ƒํƒœ(hhh)๋ฅผ ๊ณ„์‚ฐํ•œ ํ›„ ์ด๋ฅผ ์ถœ๋ ฅ(yyy)์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ๋ฐฉ์ •์‹์œผ๋กœ ์ •์˜๋ฉ๋‹ˆ๋‹ค.

  • SSM์€ ํฌ๊ฒŒ 3๊ฐ€์ง€ Representation์œผ๋กœ ํ‘œํ˜„๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:
    1. ์—ฐ์† ํ‘œํ˜„ (Continuous Representation)
    2. ์ˆœ์ฐจ์  ํ‘œํ˜„ (Recurrent Representation)
    3. ํ•ฉ์„ฑ๊ณฑ ํ‘œํ˜„ (Convolution Representation)

1. ์—ฐ์† ํ‘œํ˜„ (Continuous Representation)

๊ฐ€์žฅ ๋จผ์ € SSM์€ ์—ฐ์† ํ‘œํ˜„(continuous Representation)์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ์˜ ์—ฐ์†์„ฑ์„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋ชจ๋ธ๋งํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

SSM์˜ ์ฃผ์š” ์ˆ˜ํ•™์  ํ‘œํ˜„์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  • ์ƒํƒœ ๋ฐฉ์ •์‹: hโ€ฒ(t)=Ah(t)+Bx(t)hโ€™(t) = Ah(t) + Bx(t)hโ€ฒ(t)=Ah(t)+Bx(t)
  • ์ถœ๋ ฅ ๋ฐฉ์ •์‹: y(t)=Ch(t)+Dx(t)y(t) = Ch(t) + Dx(t)y(t)=Ch(t)+Dx(t)

์ด ๋ฐฉ์ •์‹์„ ๊ธฐ๋ฐ˜์œผ๋กœ, SSM์€ ์ž…๋ ฅ ์‹œํ€€์Šค๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ ์ด๋ฅผ ์ฒ˜๋ฆฌํ•˜์—ฌ ์—ฐ์†์ ์ธ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

ํ•˜์ง€๋งŒ, ์—ฌ๊ธฐ์„œ ๋ฐ˜ํ™˜๋˜๋Š” y๋Š” ์—ฐ์†๋œ ์‹œ๊ณ„์—ด ํ‘œํ˜„(continuous-time representation)์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ๊ธฐ๊ณ„ ๋˜๋Š” ์‚ฌ๋žŒ์ด ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ๋ฒ”์ฃผ๋กœ ๊ฐ€์ ธ์˜ค๊ธฐ ์œ„ํ•ด์„œ๋Š” Discrete Signal๋กœ discretization(์ด์‚ฐํ™”) ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•ด์•ผํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”Ž ์ด์‚ฐํ™”๋ž€?

์ด์‚ฐํ™”(้›ขๆ•ฃๅŒ–, discretization)๋Š” ์‘์šฉ์ˆ˜ํ•™์—์„œ, ์—ฐ์†์ ์ธ ํ•จ์ˆ˜, ๋ชจ๋ธ, ๋ณ€์ˆ˜, ๋ฐฉ์ •์‹์„ ์ด์‚ฐ์ ์ธ ๊ตฌ์„ฑ์š”์†Œ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ํ”„๋กœ์„ธ์Šค(process)์ด๋‹ค. ์ด ํ”„๋กœ์„ธ์Šค๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ๋””์ง€ํ„ธ ์ปดํ“จํ„ฐ์—์„œ ์ˆ˜์น˜์  ํ‰๊ฐ€ ๋ฐ ๊ตฌํ˜„์— ์ ํ•ฉํ•˜๋„๋ก ํ•˜๋Š” ์ฒซ ๋‹จ๊ณ„๋กœ ์ˆ˜ํ–‰๋œ๋‹ค.


2. Recurrent Representation

๋‹ค์Œ์œผ๋กœ Recurrent Representation์€ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์—์„œ ์ˆœ์ฐจ์ ์œผ๋กœ ์ƒํƒœ hkh_khkโ€‹๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค. ์ฆ‰, kkk-๋ฒˆ์งธ ์‹œ๊ฐ„ ๋‹จ๊ณ„์—์„œ์˜ ์ƒํƒœ hkh_khkโ€‹๋Š” ์ด์ „ ์ƒํƒœ hkโˆ’1h_{k-1}hkโˆ’1โ€‹์— ์˜์กดํ•ฉ๋‹ˆ๋‹ค.

์œ„ ๊ทธ๋ฆผ์„ ๋ณด์‹œ๋ฉด ์ด์ „์— ์‹ค์„ ์œผ๋กœ ์ด์–ด์ง„ ๊ทธ๋ž˜ํ”„์™€๋Š” ๋‹ค๋ฅด๊ฒŒ ์ง€๊ธˆ์˜ ๊ทธ๋ž˜ํ”„๋Š” ์ž‘๊ฒŒ ์ž‘๊ฒŒ ๋ธ”๋ก์œผ๋กœ ๋‚˜๋‰œ ๊ฒƒ์„ ๋ณด์‹ค ์ˆ˜ ์žˆ์ฃ ? ์ด๊ฒƒ์€ ๋ฐ์ดํ„ฐ๊ฐ€ ์ด์‚ฐํ™”๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

์–ด๋””์„ ๊ฐ€ ๋งŽ์ด ๋ณธ ๊ทธ๋ฆผ์•„๋‹Œ๊ฐ€์š”? ๋ฐ”๋กœ RNN์˜ ๋ชจ์–‘๊ณผ ์œ ์‚ฌํ•œ ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋…ผ๋ฌธ์—์„œ๋Š” ์ด์‚ฐํ™”๋ฅผ ์œ„ํ•ด Zero-order hold (ZOH)์ด๋ผ๋Š” ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ZOH๋Š” ๋””์ง€ํ„ธ ์‹ ํ˜ธ๋ฅผ ์•„๋‚ ๋กœ๊ทธ ์‹ ํ˜ธ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ณผ์ •์—์„œ ์‚ฌ์šฉ๋˜๋Š” ์ค‘์š”ํ•œ ๊ธฐ๋ฒ•์œผ๋กœ, ๊ฐ ์ƒ˜ํ”Œ๋ง ์ฃผ๊ธฐ ๋™์•ˆ ์‹ ํ˜ธ ๊ฐ’์„ ์ผ์ •ํ•˜๊ฒŒ ์œ ์ง€ํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

โœ๏ธ ZOH์˜ ์ˆ˜ํ•™์  ํ‘œํ˜„์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

xZOH(t)=โˆ‘n=โˆ’โˆžโˆžx[n]โ‹…rect(tโˆ’T/2โˆ’nTT)x_{\text{ZOH}}(t) = \sum_{n=-\infty}^{\infty} x[n] \cdot \text{rect}\left(\frac{t-T/2-nT}{T}\right)xZOHโ€‹(t)=โˆ‘n=โˆ’โˆžโˆžโ€‹x[n]โ‹…rect(Ttโˆ’T/2โˆ’nTโ€‹)

์—ฌ๊ธฐ์„œ:

  • x[n]x[n]x[n]์€ ์ด์‚ฐ ์‹œ๊ฐ„ ์ž…๋ ฅ ์‹ ํ˜ธ
  • TTT๋Š” ์ƒ˜ํ”Œ๋ง ์ฃผ๊ธฐ
  • rect(โ‹…)\text{rect}(\cdot)rect(โ‹…)๋Š” ์ง์‚ฌ๊ฐํ˜• ํ•จ์ˆ˜

(ZOH๊ธฐ๋ฐ˜) ์—ฐ์† ์‹œ๊ฐ„ SSM์„ ์ด์‚ฐ ์‹œ๊ฐ„ SSM์œผ๋กœ ๋ณ€ํ™˜

1. ์—ฐ์† ์‹œ๊ฐ„ SSM:

  • hโ€ฒ(t)=Ah(t)+Bx(t)hโ€™(t) = Ah(t) + Bx(t)hโ€ฒ(t)=Ah(t)+Bx(t)
  • y(t)=Ch(t)+Dx(t)y(t) = Ch(t) + Dx(t)y(t)=Ch(t)+Dx(t)

2. ZOH ๊ฐ€์ •:

  • x(t)=x(kฮ”t)ย ,ย forkฮ”tโ‰คt<(k+1)ฮ”tx(t) = x(k\Delta t) \quad \text{ , for} \quad k\Delta t \leq t < (k+1)\Delta tx(t)=x(kฮ”t)ย ,ย forkฮ”tโ‰คt<(k+1)ฮ”t

3. ์ƒํƒœ ๋ฐฉ์ •์‹ ํ•ด๊ฒฐ:

  • h(t)=eA(tโˆ’kฮ”t)h(kฮ”t)+โˆซkฮ”tteA(tโˆ’ฯ„)Bx(kฮ”t)dฯ„h(t) = e^{A(t-k\Delta t)}h(k\Delta t) + \int_{k\Delta t}^t e^{A(t-\tau)}Bx(k\Delta t)d\tauh(t)=eA(tโˆ’kฮ”t)h(kฮ”t)+โˆซkฮ”ttโ€‹eA(tโˆ’ฯ„)Bx(kฮ”t)dฯ„

4. ์ด์‚ฐ ์‹œ๊ฐ„ ๋ชจ๋ธ ๋„์ถœ:

  • hk+1=Aห‰hk+Bห‰xkh_{k+1} = \bar{A}h_k + \bar{B}x_khk+1โ€‹=Aห‰hkโ€‹+Bห‰xkโ€‹
  • yk=Chk+Dxky_k = Ch_k + Dx_kykโ€‹=Chkโ€‹+Dxkโ€‹

    ์—ฌ๊ธฐ์„œ,

    • Aห‰=eAฮ”t\bar{A} = e^{A\Delta t}Aห‰=eAฮ”t
    • Bห‰=Aโˆ’1(eAฮ”tโˆ’I)B\bar{B} = A^{-1}(e^{A\Delta t} - I)BBห‰=Aโˆ’1(eAฮ”tโˆ’I)B

์ด์ œ ์ด์‚ฐํ™”ํ•œ ๊ฒฐ๊ณผ๋ฅผ ์‚ดํŽด๋ณด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ฐ๊ฐ์˜ T=0, T=1, T=2์— ๋Œ€ํ•ด์„œ ์ด์ „ time k-1์˜ hkโˆ’1h_{k-1}hkโˆ’1โ€‹์˜ input๊ณผ ํ˜„์‹œ์  xkx_kxkโ€‹์˜ input์„ ๋ฐ›์•„์„œ hkh_khkโ€‹๋ฅผ ๋„์ถœํ•˜๊ณ  ์ด๋ฅผ ํ†ตํ•ด yky_kykโ€‹๋ฅผ ์žฌ๊ท€์ ์œผ๋กœ ํ˜ธ์ถœํ•˜๋Š” ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ฐ”๋กœ RNN๊ณผ ์œ ์‚ฌํ•œ ํ˜•ํƒœ๋กœ ๋ง์ด์ฃ !!


3. Convolution Representation

Recurrent Representation์˜ ์ˆœ์ฐจ์ ์ธ ์ƒํƒœ ์—…๋ฐ์ดํŠธ๋ฅผ Convolution Representation์œผ๋กœ ๋ฐ”๊พธ๊ธฐ ์ „์— ๋จผ์ € ์‹œ๊ฐ„ ์ˆœ์œผ๋กœ hkh_khkโ€‹๋ฅผ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด,

  • ์ฒซ ๋ฒˆ์งธ ์ƒํƒœ(k=1)๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

    • ์ƒํƒœ h1h_1h1โ€‹:h1=Aห‰h0+Bห‰x0h_1 = \bar{A} h_0 + \bar{B} x_0h1โ€‹=Aห‰h0โ€‹+Bห‰x0โ€‹
    • ์ถœ๋ ฅ y1y_1y1โ€‹:y1=Ch1+Dx0=C(Aห‰h0+Bห‰x0)+Dx0y_1 = C h_1 + D x_0 = C(\bar{A} h_0 + \bar{B} x_0) + D x_0y1โ€‹=Ch1โ€‹+Dx0โ€‹=C(Aห‰h0โ€‹+Bห‰x0โ€‹)+Dx0โ€‹
  • ๋‘ ๋ฒˆ์งธ ์ƒํƒœ(k=2)๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

    • ์ƒํƒœ h2h_2h2โ€‹:h2=Aห‰h1+Bห‰x1=Aห‰2h0+Aห‰Bห‰x0+Bห‰x1h_2 = \bar{A} h_1 + \bar{B} x_1 = \bar{A}^2 h_0 + \bar{A} \bar{B} x_0 + \bar{B} x_1h2โ€‹=Aห‰h1โ€‹+Bห‰x1โ€‹=Aห‰2h0โ€‹+Aห‰Bห‰x0โ€‹+Bห‰x1โ€‹
    • ์ถœ๋ ฅ y2y_2y2โ€‹:y2=Ch2+Dx1=C(Aห‰2h0+Aห‰Bห‰x0+Bห‰x1)+Dx1y_2 = C h_2 + D x_1 = C(\bar{A}^2 h_0 + \bar{A} \bar{B} x_0 + \bar{B} x_1) + D x_1y2โ€‹=Ch2โ€‹+Dx1โ€‹=C(Aห‰2h0โ€‹+Aห‰Bห‰x0โ€‹+Bห‰x1โ€‹)+Dx1โ€‹
  • ์„ธ ๋ฒˆ์งธ ์ƒํƒœ(k=3)๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

    • ์ƒํƒœ h3h_3h3โ€‹:h3=Aห‰h2+Bห‰x2=Aห‰3h0+Aห‰2Bห‰x0+Aห‰Bห‰x1+Bห‰x2h_3 = \bar{A} h_2 + \bar{B} x_2 = \bar{A}^3 h_0 + \bar{A}^2 \bar{B} x_0 + \bar{A} \bar{B} x_1 + \bar{B} x_2h3โ€‹=Aห‰h2โ€‹+Bห‰x2โ€‹=Aห‰3h0โ€‹+Aห‰2Bห‰x0โ€‹+Aห‰Bห‰x1โ€‹+Bห‰x2โ€‹
    • ์ถœ๋ ฅ y3y_3y3โ€‹:y3=Ch3+Dx2=C(Aห‰3h0+Aห‰2Bห‰x0+Aห‰Bห‰x1+Bห‰x2)+Dx2y_3 = C h_3 + D x_2 = C(\bar{A}^3 h_0 + \bar{A}^2 \bar{B} x_0 + \bar{A} \bar{B} x_1 + \bar{B} x_2) + D x_2y3โ€‹=Ch3โ€‹+Dx2โ€‹=C(Aห‰3h0โ€‹+Aห‰2Bห‰x0โ€‹+Aห‰Bห‰x1โ€‹+Bห‰x2โ€‹)+Dx2โ€‹
  • ๋„ค ๋ฒˆ์งธ ์ƒํƒœ(k=4)๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

    • ์ƒํƒœ h4h_4h4โ€‹:h4=Aห‰h3+Bห‰x3=Aห‰4h0+Aห‰3Bห‰x0+Aห‰2Bห‰x1+Aห‰Bห‰x2+Bห‰x3h_4 = \bar{A} h_3 + \bar{B} x_3 = \bar{A}^4 h_0 + \bar{A}^3 \bar{B} x_0 + \bar{A}^2 \bar{B} x_1 + \bar{A} \bar{B} x_2 + \bar{B} x_3h4โ€‹=Aห‰h3โ€‹+Bห‰x3โ€‹=Aห‰4h0โ€‹+Aห‰3Bห‰x0โ€‹+Aห‰2Bห‰x1โ€‹+Aห‰Bห‰x2โ€‹+Bห‰x3โ€‹
    • ์ถœ๋ ฅ y4y_4y4โ€‹:y4=Ch4+Dx3=C(Aห‰4h0+Aห‰3Bห‰x0+Aห‰2Bห‰x1+Aห‰Bห‰x2+Bห‰x3)+Dx3y_4 = C h_4 + D x_3 = C(\bar{A}^4 h_0 + \bar{A}^3 \bar{B} x_0 + \bar{A}^2 \bar{B} x_1 + \bar{A} \bar{B} x_2 + \bar{B} x_3) + D x_3y4โ€‹=Ch4โ€‹+Dx3โ€‹=C(Aห‰4h0โ€‹+Aห‰3Bห‰x0โ€‹+Aห‰2Bห‰x1โ€‹+Aห‰Bห‰x2โ€‹+Bห‰x3โ€‹)+Dx3โ€‹
  • ๋‹ค์„ฏ ๋ฒˆ์งธ ์ƒํƒœ(k=5)๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

    • ์ƒํƒœ h5h_5h5โ€‹:h5=Aห‰h4+Bห‰x4=Aห‰5h0+Aห‰4Bห‰x0+Aห‰3Bห‰x1+Aห‰2Bห‰x2+Aห‰Bห‰x3+Bห‰x4h_5 = \bar{A} h_4 + \bar{B} x_4 = \bar{A}^5 h_0 + \bar{A}^4 \bar{B} x_0 + \bar{A}^3 \bar{B} x_1 + \bar{A}^2 \bar{B} x_2 + \bar{A} \bar{B} x_3 + \bar{B} x_4h5โ€‹=Aห‰h4โ€‹+Bห‰x4โ€‹=Aห‰5h0โ€‹+Aห‰4Bห‰x0โ€‹+Aห‰3Bห‰x1โ€‹+Aห‰2Bห‰x2โ€‹+Aห‰Bห‰x3โ€‹+Bห‰x4โ€‹
    • ์ถœ๋ ฅ y5y_5y5โ€‹:y5=Ch5+Dx4=C(Aห‰5h0+Aห‰4Bห‰x0+Aห‰3Bห‰x1+Aห‰2Bห‰x2+Aห‰Bห‰x3+Bห‰x4)+Dx4y_5 = C h_5 + D x_4 = C(\bar{A}^5 h_0 + \bar{A}^4 \bar{B} x_0 + \bar{A}^3 \bar{B} x_1 + \bar{A}^2 \bar{B} x_2 + \bar{A} \bar{B} x_3 + \bar{B} x_4) + D x_4y5โ€‹=Ch5โ€‹+Dx4โ€‹=C(Aห‰5h0โ€‹+Aห‰4Bห‰x0โ€‹+Aห‰3Bห‰x1โ€‹+Aห‰2Bห‰x2โ€‹+Aห‰Bห‰x3โ€‹+Bห‰x4โ€‹)+Dx4โ€‹

๊ทœ์น™์ด ์ข€ ๋ณด์ด์‹œ๋‚˜์š”?! ์ข€ ๋” ์ด์˜๊ฒŒ ์ œ๊ฐ€ ๋งŒ๋“  ๊ทธ๋ฆผ์„ ๋ฐ‘์— ๋ณด์—ฌ๋“œ๋ฆฌ๊ฒ ์Šต๋‹ˆ๋‹ค. (*D term์€ ์ƒ๋žตํ•จ)

1. k=1k = 1k=1 (์ฒซ ๋ฒˆ์งธ ์ถœ๋ ฅ)

  • ์ƒํƒœ: h1=CBห‰x0h_1 = C \bar{B} x_0h1โ€‹=CBห‰x0โ€‹
    • ์—ฌ๊ธฐ์„œ ์ปค๋„์˜ ๋งˆ์ง€๋ง‰ ํ•ญ๋ชฉ CBห‰C \bar{B}CBห‰๊ฐ€ ์ž…๋ ฅ x0x_0x0โ€‹์™€ ๊ณฑํ•ด์ ธ ์ฒซ ๋ฒˆ์งธ ์ถœ๋ ฅ y1y_1y1โ€‹๊ฐ€ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.
    • ํŒจ๋”ฉ์ด ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์ปค๋„์˜ ์•ž ๋‘ ํ•ญ๋ชฉ์€ ์ž…๋ ฅ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜์ง€ ์•Š๊ณ  ํŒจ๋”ฉ(0)์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค.
  • ์ถœ๋ ฅ: y1=CBห‰x0y_1 = C \bar{B} x_0y1โ€‹=CBห‰x0โ€‹
    • ์ฒซ ๋ฒˆ์งธ ์ถœ๋ ฅ์€ CBห‰x0C \bar{B} x_0CBห‰x0โ€‹๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค.

2. k=2k = 2k=2 (๋‘ ๋ฒˆ์งธ ์ถœ๋ ฅ)

  • ์ƒํƒœ: h2=CAห‰Bห‰x0+CBห‰x1h_2 = C \bar{A} \bar{B} x_0 + C \bar{B} x_1h2โ€‹=CAห‰Bห‰x0โ€‹+CBห‰x1โ€‹
    • ์ด์ œ ์ปค๋„์˜ ๋‘ ๋ฒˆ์งธ ํ•ญ๋ชฉ์ด x0x_0x0โ€‹, ๋งˆ์ง€๋ง‰ ํ•ญ๋ชฉ์ด x1x_1x1โ€‹๊ณผ ๊ณฑํ•ด์ง€๋ฉด์„œ ๋‘ ๋ฒˆ์งธ ์ƒํƒœ๊ฐ€ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.
    • ํŒจ๋”ฉ ๊ฐ’์ด ํ•˜๋‚˜ ๋‚จ์•„์žˆ๊ณ , ์ปค๋„์˜ ์ฒซ ๋ฒˆ์งธ ํ•ญ๋ชฉ์€ ์—ฌ์ „ํžˆ ํŒจ๋”ฉ(0)๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•ฉ๋‹ˆ๋‹ค.
  • ์ถœ๋ ฅ: y2=CAห‰Bห‰x0+CBห‰x1y_2 = C \bar{A} \bar{B} x_0 + C \bar{B} x_1y2โ€‹=CAห‰Bห‰x0โ€‹+CBห‰x1โ€‹
    • ๋‘ ๋ฒˆ์งธ ์ถœ๋ ฅ์€ ์ด์ „ ์ž…๋ ฅ๊ณผ ํ˜„์žฌ ์ž…๋ ฅ์˜ ํ•ฉ์œผ๋กœ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.

3. k=3k = 3k=3 (์„ธ ๋ฒˆ์งธ ์ถœ๋ ฅ)

  • ์ƒํƒœ: h3=CAห‰2Bห‰x0+CAห‰Bห‰x1+CBห‰x2h_3 = C \bar{A}^2 \bar{B} x_0 + C \bar{A} \bar{B} x_1 + C \bar{B} x_2h3โ€‹=CAห‰2Bห‰x0โ€‹+CAห‰Bห‰x1โ€‹+CBห‰x2โ€‹
    • ์„ธ ๋ฒˆ์งธ ์ƒํƒœ์—์„œ๋Š” ์ปค๋„์˜ ๋ชจ๋“  ํ•ญ๋ชฉ์ด ์‹ค์ œ ์ž…๋ ฅ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๊ธฐ ์‹œ์ž‘ํ•ฉ๋‹ˆ๋‹ค.
    • ์ปค๋„์˜ ์ฒซ ๋ฒˆ์งธ ํ•ญ๋ชฉ์€ x0x_0x0โ€‹, ๋‘ ๋ฒˆ์งธ ํ•ญ๋ชฉ์€ x1x_1x1โ€‹, ์„ธ ๋ฒˆ์งธ ํ•ญ๋ชฉ์€ x2x_2x2โ€‹์™€ ๊ณฑํ•ด์ง‘๋‹ˆ๋‹ค.
  • ์ถœ๋ ฅ: y3=CAห‰2Bห‰x0+CAห‰Bห‰x1+CBห‰x2y_3 = C \bar{A}^2 \bar{B} x_0 + C \bar{A} \bar{B} x_1 + C \bar{B} x_2y3โ€‹=CAห‰2Bห‰x0โ€‹+CAห‰Bห‰x1โ€‹+CBห‰x2โ€‹
    • ์„ธ ๋ฒˆ์งธ ์ถœ๋ ฅ์€ x0x_0x0โ€‹, x1x_1x1โ€‹, x2x_2x2โ€‹์— ๋Œ€ํ•œ ์ปค๋„ ๊ฐ€์ค‘ํ•ฉ์œผ๋กœ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.

4. k=4k = 4k=4 (๋„ค ๋ฒˆ์งธ ์ถœ๋ ฅ)

  • ์ƒํƒœ: h4=CAห‰2Bห‰x1+CAห‰Bห‰x2+CBห‰x3h_4 = C \bar{A}^2 \bar{B} x_1 + C \bar{A} \bar{B} x_2 + C \bar{B} x_3h4โ€‹=CAห‰2Bห‰x1โ€‹+CAห‰Bห‰x2โ€‹+CBห‰x3โ€‹
    • ๋„ค ๋ฒˆ์งธ ์ƒํƒœ์—์„œ๋Š” ์ปค๋„์ด x1x_1x1โ€‹, x2x_2x2โ€‹, x3x_3x3โ€‹๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•ฉ๋‹ˆ๋‹ค.
    • ๋” ์ด์ƒ ํŒจ๋”ฉ์ด ์ ์šฉ๋˜์ง€ ์•Š์œผ๋ฉฐ, ์ž…๋ ฅ ์‹œํ€€์Šค์™€ ์ปค๋„ ๊ฐ„์˜ ์™„์ „ํ•œ ์ƒํ˜ธ์ž‘์šฉ์ด ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค.
  • ์ถœ๋ ฅ: y4=CAห‰2Bห‰x1+CAห‰Bห‰x2+CBห‰x3y_4 = C \bar{A}^2 \bar{B} x_1 + C \bar{A} \bar{B} x_2 + C \bar{B} x_3y4โ€‹=CAห‰2Bห‰x1โ€‹+CAห‰Bห‰x2โ€‹+CBห‰x3โ€‹
    • ๋„ค ๋ฒˆ์งธ ์ถœ๋ ฅ์€ x1x_1x1โ€‹, x2x_2x2โ€‹, x3x_3x3โ€‹์— ๋Œ€ํ•œ ์ปค๋„ ๊ฐ€์ค‘ํ•ฉ์ž…๋‹ˆ๋‹ค.

Convolution Representation ๋ฐฉ์‹์˜ ์žฅ์ ์€ Recurrent Representation์—์„œ ๊ฐ ์‹œ๊ฐ„ ๋‹จ๊ณ„๋ณ„๋กœ ์ˆœ์ฐจ์ ์œผ๋กœ ์ƒํƒœ๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋Œ€์‹ , ๋ชจ๋“  ์‹œ๊ฐ„ ๋‹จ๊ณ„์˜ ์ถœ๋ ฅ์„ ํ•œ ๋ฒˆ์— ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค.

  • ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅ: Recurrent Representation์—์„œ๋Š” ๊ฐ ์‹œ๊ฐ„ ๋‹จ๊ณ„๋ณ„๋กœ ์ˆœ์ฐจ์ ์œผ๋กœ ์ƒํƒœ๋ฅผ ์—…๋ฐ์ดํŠธํ•ด์•ผ ํ•˜๋ฏ€๋กœ ๊ณ„์‚ฐ์ด ์ง๋ ฌํ™”๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ Convolution Representation์—์„œ๋Š” ์ปค๋„์„ ์ด์šฉํ•˜์—ฌ ์ž…๋ ฅ ์‹œํ€€์Šค ์ „์ฒด์— ๊ฑธ์ณ ๋™์‹œ์— ์ถœ๋ ฅ์„ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ์–ด, ๋ณ‘๋ ฌํ™”๊ฐ€ ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค. ์ด๋Š” ํŠนํžˆ ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ํšจ์œจ์ ์ธ ๊ณ„์‚ฐ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
  • ๋” ํฐ ์ปค๋„ ์ ์šฉ ๊ฐ€๋Šฅ: ์˜ˆ์‹œ์—์„œ๋Š” ์ปค๋„ ์‚ฌ์ด์ฆˆ๋ฅผ 3์œผ๋กœ ์„ค์ •ํ–ˆ์ง€๋งŒ, ์ด๋ก ์ ์œผ๋กœ๋Š” ๋” ํฐ ์ปค๋„๋„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋” ํฐ ์ปค๋„์€ ๋” ๊ธด ๋ฒ”์œ„์˜ ๊ณผ๊ฑฐ ์ž…๋ ฅ์„ ํ•œ ๋ฒˆ์— ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์–ด, ๋” ๋„“์€ ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ์—์„œ ์žฅ๊ธฐ์ ์ธ ์ข…์†์„ฑ์„ ๋” ์ž˜ ๋ฐ˜์˜ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.
  • ํšจ์œจ์„ฑ: ํ•ฉ์„ฑ๊ณฑ ์—ฐ์‚ฐ์€ ์ผ๋ฐ˜์ ์œผ๋กœ GPU์™€ ๊ฐ™์€ ๋ณ‘๋ ฌํ™”๊ฐ€ ๊ฐ€๋Šฅํ•œ ํ•˜๋“œ์›จ์–ด์—์„œ ๋งค์šฐ ๋น ๋ฅด๊ฒŒ ์ฒ˜๋ฆฌ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” Recurrent Representation์— ๋น„ํ•ด ๊ณ„์‚ฐ ์†๋„์—์„œ ํฐ ์ด์ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜, ์ด์ƒ์ ์œผ๋กœ ์ด๋Ÿฌํ•œ deepSSM์„ ๋ฐ”๋กœ ์ ์šฉํ•˜๊ธฐ์—๋Š” ๋งŽ์€ ๋ฌธ์ œ์ ๋“ค์ด ์žˆ์—ˆ๋Š”๋ฐ์š”.

์•„๋ž˜ ์—ฐ๊ตฌ๋“ค์€ ์ด๋Ÿฐ Convolution Representation์„ ์–ด๋–ป๊ฒŒ ํšจ์œจ์ ์œผ๋กœ ๊ณ„์‚ฐํ•˜๊ณ  ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€์— ๋Œ€ํ•œ ์—ฐ๊ตฌ๋“ค์ž…๋‹ˆ๋‹ค.

  1. HiPPO : Recurrent Memory with Optimal Polynomial Projections (2020)
  2. LSSL : Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers (2021)
  3. S4 : Efficiently Modeling Long Sequences with Structured State Spaces (2022)

Research

์ด ๋…ผ๋ฌธ๋“ค์€ ๊ฐ๊ฐ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃจ๋Š” ๊ธฐ์กด ๋ชจ๋ธ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๋Š” ์ค‘์š”ํ•œ ๊ธฐ์ˆ ์  ๋ฐœ์ „์„ ๋‹ด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

  1. HiPPO: Recurrent Memory with Optimal Polynomial Projections (NeurIPS, 2020)

    • ๋ชฉ์ : ๊ธด ์‹œํ€€์Šค์— ๋Œ€ํ•œ ๋ฉ”๋ชจ๋ฆฌ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ , ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์œ ์ง€ํ•˜๋ฉด์„œ ์ž…๋ ฅ ์ •๋ณด๋ฅผ ๊ณ„์† ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
    • ํšจ๊ณผ: ์ด ์—ฐ๊ตฌ๋Š” ๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ์„ฑ๊ณผ ์ •๋ณด ์œ ์ง€ ๊ฐ„์˜ ๊ท ํ˜•์„ ์ฐพ๋Š” ๋ฐ ์ดˆ์ ์„ ๋งž์ถฅ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ธด ์‹œํ€€์Šค์—์„œ๋„ ์ •๋ณด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
  2. LSSL: Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers (NeurIPS, 2021)

    • ๋ชฉ์ : ์ด ์—ฐ๊ตฌ๋Š” ์—ฐ์† ์‹œ๊ฐ„ ๋ชจ๋ธ๊ณผ ์„ ํ˜• ์ƒํƒœ ๊ณต๊ฐ„ ๋ ˆ์ด์–ด(LSSL)๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ, ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ์—ฐ์†์ ์ธ ๋ณ€ํ™”์™€ ๋น„์—ฐ์†์ ์ธ ๋ณ€ํ™”๋ฅผ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค.
    • ํšจ๊ณผ: LSSL์€ ๋ชจ๋ธ์˜ ์œ ์—ฐ์„ฑ์„ ๋†’์—ฌ์„œ, ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋ฟ ์•„๋‹ˆ๋ผ ๋‹ค์–‘ํ•œ ์ข…๋ฅ˜์˜ ์—ฐ์†์  ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•์Šต๋‹ˆ๋‹ค.
  3. S4: Efficiently Modeling Long Sequences with Structured State Spaces (ICLR, 2022)

    • ๋ชฉ์ : S4๋Š” Convolution Representation์˜ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•˜๋ฉด์„œ๋„, ์žฅ๊ธฐ์ ์ธ ์ข…์†์„ฑ์„ ๋” ์ž˜ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ์ตœ์ ํ™”๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
    • ํšจ๊ณผ: S4๋Š” ํŠนํžˆ ์žฅ๊ธฐ์ ์ธ ํŒจํ„ด ํ•™์Šต์— ๊ฐ•์ ์ด ์žˆ์–ด, ๊ธฐ์กด์˜ ๋ชจ๋ธ๋ณด๋‹ค ํ›จ์”ฌ ๊ธด ์‹œํ€€์Šค์—์„œ๋„ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค.

  1. HiPPO: Recurrent Memory with Optimal Polynomial Projections (Neurips 2020)

Preliminary

๋ณธ๊ฒฉ์ ์œผ๋กœ HiPPO๋ฅผ ์‚ดํŽด๋ณด๊ธฐ์— ์•ž์„œ, ๋‹ค์Œ ์ˆ˜ํ•™ ๊ฐœ๋…๋“ค์„ ์–ด๋А ์ •๋„ ์ดํ•ดํ•˜๊ณ  ์žˆ์–ด์•ผ ๊ด€๋ จ ๋‚ด์šฉ์„ ๋” ์ž˜ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค: ๋ผ๊ฒŒ๋ฅด(Laguerre) ๋‹คํ•ญ์‹, ๋ฅด์žฅ๋“œ๋ฅด(Legendre) ๋‹คํ•ญ์‹, ๊ทธ๋ฆฌ๊ณ  ๋‹คํ•ญ์‹ ํˆฌ์˜ ์—ฐ์‚ฐ์ž์ž…๋‹ˆ๋‹ค. ์ด ๊ฐœ๋…๋“ค์€ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜๊ณ  ๊ทผ์‚ฌํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•˜๋ฉฐ, ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜ํ•™์ ์œผ๋กœ ๋‹ค๋ฃจ๋Š” ๊ฐ•๋ ฅํ•œ ๋„๊ตฌ์ž…๋‹ˆ๋‹ค. ๊ฐ ๊ฐœ๋…์„ ์ฐจ๋ก€๋กœ ์„ค๋ช…ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

1. ๋‹คํ•ญ์‹ ํˆฌ์˜ ์—ฐ์‚ฐ์ž(Polynomial Projection Operator)

  • ๋‹คํ•ญ์‹ ํˆฌ์˜ ์—ฐ์‚ฐ์ž๋Š” ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํŠน์ • ์ง๊ต ๋‹คํ•ญ์‹ ๊ธฐ์ €๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋” ๊ฐ„๋‹จํ•œ ๋‹คํ•ญ์‹์œผ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋‚˜ ํ•จ์ˆ˜๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ์ด๋ฅผ ์ง๊ตํ•˜๋Š” ๋‹คํ•ญ์‹๋“ค์˜ ์„ ํ˜• ๊ฒฐํ•ฉ์œผ๋กœ ๊ทผ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ’ก ์ง๊ต ๋‹คํ•ญ์‹ ๊ธฐ์ €(Orthogonal Polynomial Basis)๋Š” ์—ฌ๋Ÿฌ ๋‹คํ•ญ์‹ ์ค‘์—์„œ๋„ ์„œ๋กœ ์ง๊ต(orthogonal)ํ•˜๋Š” ์„ฑ์งˆ์„ ๊ฐ€์ง„ ๋‹คํ•ญ์‹๋“ค์˜ ์ง‘ํ•ฉ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

  • ์ง๊ต์„ฑ์€ ๋‘ ํ•จ์ˆ˜(๋˜๋Š” ๋‘ ๋‹คํ•ญ์‹) ์‚ฌ์ด์˜ ๋‚ด์ (inner product)์ด 0์ด๋ผ๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค. ์ง๊ต์„ฑ์€ ๋ฐ์ดํ„ฐ๋‚˜ ํ•จ์ˆ˜์˜ ์„œ๋กœ ๋‹ค๋ฅธ ์„ฑ๋ถ„์ด ์„œ๋กœ ์˜ํ–ฅ์„ ๋ฏธ์น˜์ง€ ์•Š๋Š” ๋…๋ฆฝ์ ์ธ ๊ด€๊ณ„๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
  • ๊ธฐ์ €๋ž€ ์ฃผ์–ด์ง„ ๊ณต๊ฐ„์„ ๊ตฌ์„ฑํ•˜๋Š” โ€œ๊ธฐ๋ณธโ€ ์š”์†Œ๋“ค์˜ ์ง‘ํ•ฉ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์ € ๋ฒกํ„ฐ์˜ ์„ ํ˜• ๊ฒฐํ•ฉ์„ ํ†ตํ•ด ๊ณต๊ฐ„ ๋‚ด์˜ ๋ชจ๋“  ๋ฒกํ„ฐ(๋˜๋Š” ํ•จ์ˆ˜)๋ฅผ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ฒ˜๋Ÿผ, ๊ธฐ์ € ๋‹คํ•ญ์‹์„ ์‚ฌ์šฉํ•˜๋ฉด ์ฃผ์–ด์ง„ ํ•จ์ˆ˜๋‚˜ ๋ฐ์ดํ„ฐ๋ฅผ ๊ทธ ๊ธฐ์ € ๋‹คํ•ญ์‹๋“ค์˜ ์„ ํ˜• ๊ฒฐํ•ฉ์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • 3์ฐจ ๋‹คํ•ญ์‹ ๊ณต๊ฐ„์—์„œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ธฐ์ €๋ฅผ ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

      1,x,x2,x31, x, x^2, x^31,x,x2,x3

    • 3์ฐจ ์ดํ•˜์˜ ๋ชจ๋“  ๋‹คํ•ญ์‹์€ ์ด๋“ค์˜ ์„ ํ˜• ๊ฒฐํ•ฉ์œผ๋กœ ํ‘œํ˜„๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

      f(x)=a0+a1x+a2x2+a3x3f(x) = a_0 + a_1 x + a_2 x^2 + a_3 x^3f(x)=a0โ€‹+a1โ€‹x+a2โ€‹x2+a3โ€‹x3

  • ๋‹คํ•ญ์‹ ํˆฌ์˜์˜ ํ•ต์‹ฌ : ์ฃผ์–ด์ง„ ํ•จ์ˆ˜๋‚˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ง๊ต ๋‹คํ•ญ์‹ ๊ธฐ์ € ์œ„์— โ€œํˆฌ์˜โ€ํ•˜์—ฌ ๊ฐ€์žฅ ์ ํ•ฉํ•œ ๊ทผ์‚ฌ๊ฐ’์„ ์ฐพ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ง๊ต ๋‹คํ•ญ์‹์€ ์„œ๋กœ ๋…๋ฆฝ์ด๊ธฐ ๋•Œ๋ฌธ์—, ๋ฐ์ดํ„ฐ๋ฅผ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋…๋ฆฝ์ ์ธ ์„ฑ๋ถ„์œผ๋กœ ๋ถ„ํ•ดํ•˜์—ฌ ๋ถ„์„ํ•˜๋Š” ๊ฒƒ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
  • ์˜ค์ฐจ ์ตœ์†Œํ™” : ํˆฌ์˜ ์—ฐ์‚ฐ์ž๋Š” ๋ณดํ†ต ์ตœ์†Œ ์ œ๊ณฑ๋ฒ•(least squares method)์„ ์‚ฌ์šฉํ•˜์—ฌ ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹คํ•ญ์‹ ๊ธฐ์ €๋กœ ํ‘œํ˜„ํ•˜๋Š” ๊ณผ์ •์—์„œ ์˜ค์ฐจ๋ฅผ ์ตœ์†Œํ™”ํ•ฉ๋‹ˆ๋‹ค.
์ผ๋ฐ˜์ ์œผ๋กœ โ€œ๋‚ด์ !โ€ ํ•˜๋ฉด ๊ณ ๋“ฑํ•™๊ต์—์„œ ๋ฐฐ์šด aโ‹…b=โˆฃaโˆฃโˆฃbโˆฃcosโกฮธa \cdot b = a ย  b \cos\thetaaโ‹…b=โˆฃaโˆฃโˆฃbโˆฃcosฮธ ๊ฐ€ ์ƒ๊ฐ๋‚˜์‹ค๊ฒ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ, ํ•จ์ˆ˜ ๊ฐ„์˜ ๋‚ด์ ์€ ์ด๋ฅผ ํ™•์žฅํ•œ ๊ฐœ๋…์œผ๋กœ ๋‹จ์ˆœํžˆ ๊ฐ๋„๋‚˜ ํฌ๊ธฐ์™€ ๊ฐ™์€ ์ง๊ด€์ ์ธ ๊ฐœ๋…์œผ๋กœ ์„ค๋ช…๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.
๐Ÿ’ฌ (REVIEW) ๋ฒกํ„ฐ ๋‚ด์  : aโ‹…b=โˆฃaโˆฃโˆฃbโˆฃcosโกฮธa \cdot b = a ย  b \cos\thetaaโ‹…b=โˆฃaโˆฃโˆฃbโˆฃcosฮธ
  • aaa์™€ bbb๋Š” ๋ฒกํ„ฐ์ž…๋‹ˆ๋‹ค.
  • โˆฃaโˆฃ a โˆฃaโˆฃ์™€ โˆฃbโˆฃ b โˆฃbโˆฃ๋Š” ๊ฐ ๋ฒกํ„ฐ์˜ ๊ธธ์ด(ํฌ๊ธฐ, magnitude)์ž…๋‹ˆ๋‹ค.
  • ฮธ\thetaฮธ๋Š” ๋‘ ๋ฒกํ„ฐ ์‚ฌ์ด์˜ ๊ฐ๋„์ž…๋‹ˆ๋‹ค.
  • ๋‘ ๋ฒกํ„ฐ์˜ ๋‚ด์ ์€ ๋‘ ๋ฒกํ„ฐ ์‚ฌ์ด์˜ ์œ ์‚ฌ๋„๋ฅผ ์ธก์ •ํ•˜๋Š”๋ฐ, ๋ฒกํ„ฐ๊ฐ€ ํ‰ํ–‰ํ• ์ˆ˜๋ก ๋‚ด์ ์˜ ๊ฐ’์€ ํฌ๊ณ , ์ง๊ต(์ฆ‰, 90๋„์ผ ๋•Œ)ํ• ์ˆ˜๋ก ๋‚ด์ ์€ 0์ด ๋ฉ๋‹ˆ๋‹ค.

โœจ (NEW) ํ•จ์ˆ˜ ๋‚ด์  : โŸจf,gโŸฉ=โˆซabf(x)g(x)w(x)โ€‰dx\langle f, g \rangle = \int_a^b f(x) g(x) w(x) \, dxโŸจf,gโŸฉ=โˆซabโ€‹f(x)g(x)w(x)dx

  • f(x)f(x)f(x)์™€ g(x)g(x)g(x)๋Š” ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค.
  • [a,b][a, b][a,b]๋Š” ํ•จ์ˆ˜๊ฐ€ ์ •์˜๋œ ๊ตฌ๊ฐ„์ž…๋‹ˆ๋‹ค.
  • w(x)w(x)w(x)๋Š” ๊ฐ€์ค‘ ํ•จ์ˆ˜๋กœ, ๋‚ด์  ๊ณ„์‚ฐ์—์„œ ํŠน์ • ๊ตฌ๊ฐ„์— ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
  • ํ•จ์ˆ˜์˜ ๋‚ด์ ์€ ๋ฒกํ„ฐ ๋‚ด์ ์ฒ˜๋Ÿผ ํ•จ์ˆ˜ ์‚ฌ์ด์˜ ์œ ์‚ฌ๋„๋ฅผ ์ธก์ •ํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
  • ํˆฌ์˜ ์—ฐ์‚ฐ์ž์˜ ์ž‘๋™ ๋ฐฉ์‹:

    1. ๊ธฐ์ € ๋‹คํ•ญ์‹ ์„ ํƒ: ํŠน์ • ๊ตฌ๊ฐ„์—์„œ ์ง๊ตํ•˜๋Š” ๋‹คํ•ญ์‹์„ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค.

      โ†ณ ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ตฌ๊ฐ„ [-1, 1]์—์„œ ๋ฅด์žฅ๋“œ๋ฅด ๋‹คํ•ญ์‹, ๊ตฌ๊ฐ„ [0, โˆž)์—์„œ ๋ผ๊ฒŒ๋ฅด ๋‹คํ•ญ์‹์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. (์•„๋ž˜ ์ฐธ๊ณ )

    2. ๊ณ„์ˆ˜ ๊ฒฐ์ •: ๋‹คํ•ญ์‹ ํˆฌ์˜ ์—ฐ์‚ฐ์ž๋Š” ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ์— ๊ฐ€์žฅ ์ ํ•ฉํ•œ ๋‹คํ•ญ์‹ ๊ธฐ์ €์˜ ๊ณ„์ˆ˜๋ฅผ ์ฐพ์•„๋ƒ…๋‹ˆ๋‹ค.

      โ†ณ ์ด๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ํ‘œํ˜„ํ•˜๋Š” ํ•จ์ˆ˜๊ฐ€ ๊ฐ ๋‹คํ•ญ์‹์˜ ์„ ํ˜• ๊ฒฐํ•ฉ์œผ๋กœ ๋‚˜ํƒ€๋‚ฉ๋‹ˆ๋‹ค.

    3. ํ•จ์ˆ˜ ๊ทผ์‚ฌ: ํˆฌ์˜๋œ ๊ฒฐ๊ณผ๋Š” ์›๋ž˜ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ โ€œ์ตœ์ ์˜ ๊ทผ์‚ฌโ€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

      โ†ณ ์ด๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ๋‹จ์ˆœํ™”ํ•˜๊ฑฐ๋‚˜ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

2. ๋ฅด์žฅ๋“œ๋ฅด ๋‹คํ•ญ์‹(Legendre Polynomials)

  • ๋ฅด์žฅ๋“œ๋ฅด ๋‹คํ•ญ์‹์€ ๊ตฌ๊ฐ„ [-1, 1]์—์„œ ๊ฐ€์ค‘ ํ•จ์ˆ˜ w(x)=1w(x) = 1w(x)=1์— ๋Œ€ํ•ด ์ง๊ต์„ฑ์„ ๊ฐ–๋Š” ๋‹คํ•ญ์‹์ž…๋‹ˆ๋‹ค.
  • ๋ฅด์žฅ๋“œ๋ฅด ๋‹คํ•ญ์‹์˜ ์ง๊ต์„ฑ์€ ๋‹ค์Œ ์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค:

    2n+12โˆซโˆ’11Pn(x)Pm(x)โ€‰dx=ฮดnm\frac{2n+1}{2} \int_{-1}^{1} P_n(x) P_m(x) \, dx = \delta_{nm}22n+1โ€‹โˆซโˆ’11โ€‹Pnโ€‹(x)Pmโ€‹(x)dx=ฮดnmโ€‹

  • ์ด ์ˆ˜์‹์€ ์„œ๋กœ ๋‹ค๋ฅธ ์ฐจ์ˆ˜์˜ ๋ฅด์žฅ๋“œ๋ฅด ๋‹คํ•ญ์‹๋“ค์ด ๊ตฌ๊ฐ„ [-1, 1]์—์„œ ์ง๊ตํ•จ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ:

    • Pn(x)P_n(x)Pnโ€‹(x)์™€ Pm(x)P_m(x)Pmโ€‹(x)๋Š” ๊ฐ๊ฐ ์ฐจ์ˆ˜๊ฐ€ ๋‹ค๋ฅธ ๋ฅด์žฅ๋“œ๋ฅด ๋‹คํ•ญ์‹์ž…๋‹ˆ๋‹ค.
    • ฮดnm\delta_{nm}ฮดnmโ€‹๋Š” ํฌ๋กœ๋„ค์ปค ๋ธํƒ€๋กœ, n=mn = mn=m์ผ ๋•Œ๋Š” 1, ๊ทธ๋ ‡์ง€ ์•Š์œผ๋ฉด 0์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ๊ฐ™์€ ์ฐจ์ˆ˜์ผ ๊ฒฝ์šฐ ๋‚ด์ ์ด 1์ด ๋˜๊ณ , ๋‹ค๋ฅธ ์ฐจ์ˆ˜์ผ ๊ฒฝ์šฐ ๋‚ด์ ์ด 0์ด ๋ฉ๋‹ˆ๋‹ค.
  • ๋˜ํ•œ, ๋ฅด์žฅ๋“œ๋ฅด ๋‹คํ•ญ์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ฒฝ๊ณ„ ์กฐ๊ฑด์„ ๋งŒ์กฑํ•ฉ๋‹ˆ๋‹ค:

    Pn(1)=1,Pn(โˆ’1)=(โˆ’1)nP_n(1) = 1, \quad P_n(-1) = (-1)^nPnโ€‹(1)=1,Pnโ€‹(โˆ’1)=(โˆ’1)n

    ์ด๋Š” ๋ฅด์žฅ๋“œ๋ฅด ๋‹คํ•ญ์‹์˜ ๊ฐ’์ด ๊ตฌ๊ฐ„ ๋์ ์—์„œ ์–ด๋–ป๊ฒŒ ๋™์ž‘ํ•˜๋Š”์ง€๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

  • (์ฐธ๊ณ ) HiPPO์—์„œ๋Š” Legendre ๋‹คํ•ญ์‹์ด ์‹œ๊ฐ„ ์ถ•์— ๋”ฐ๋ฅธ ๋ฐ์ดํ„ฐ๋ฅผ ์••์ถ•ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ด์ „ ์‹œ์ ์—์„œ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๋ฉ”๋ชจ๋ฆฌ์— ์ €์žฅํ•˜๊ณ  ๊ธฐ์–ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

3. ๋ผ๊ฒŒ๋ฅด ๋‹คํ•ญ์‹(Laguerre Polynomials)

  • ๋ผ๊ฒŒ๋ฅด ๋‹คํ•ญ์‹์€ [0, โˆž) ๊ตฌ๊ฐ„์—์„œ ๊ฐ€์ค‘ ํ•จ์ˆ˜ eโˆ’xe^{-x}eโˆ’x์— ๋Œ€ํ•ด ์ง๊ต์„ฑ์„ ๊ฐ–๋Š” ๋‹คํ•ญ์‹์ž…๋‹ˆ๋‹ค.
  • ๋ผ๊ฒŒ๋ฅด ๋‹คํ•ญ์‹์˜ ์ง๊ต์„ฑ์€ ๋‹ค์Œ ์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค:

    โˆซ0โˆžxฮฑeโˆ’xLn(ฮฑ)(x)Lm(ฮฑ)(x)โ€‰dx=(n+ฮฑ)!n!ฮดnm\int_0^{\infty} x^\alpha e^{-x} L_n^{(\alpha)}(x) L_m^{(\alpha)}(x) \, dx = \frac{(n + \alpha)!}{n!} \delta_{nm}โˆซ0โˆžโ€‹xฮฑeโˆ’xLn(ฮฑ)โ€‹(x)Lm(ฮฑ)โ€‹(x)dx=n!(n+ฮฑ)!โ€‹ฮดnmโ€‹

  • ์ด ์ˆ˜์‹์€ ์„œ๋กœ ๋‹ค๋ฅธ ์ฐจ์ˆ˜์˜ ๋ผ๊ฒŒ๋ฅด ๋‹คํ•ญ์‹๋“ค์ด ๊ฐ€์ค‘ ํ•จ์ˆ˜ eโˆ’xe^{-x}eโˆ’x์— ๋Œ€ํ•ด ์ง๊ตํ•จ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ:

    • Ln(ฮฑ)(x)L_n^{(\alpha)}(x)Ln(ฮฑ)โ€‹(x)์™€ Lm(ฮฑ)(x)L_m^{(\alpha)}(x)Lm(ฮฑ)โ€‹(x)๋Š” ๊ฐ๊ฐ ์ผ๋ฐ˜ํ™”๋œ ๋ผ๊ฒŒ๋ฅด ๋‹คํ•ญ์‹์œผ๋กœ, ๋งค๊ฐœ๋ณ€์ˆ˜ ฮฑ\alphaฮฑ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง‘๋‹ˆ๋‹ค.
    • ฮดnm\delta_{nm}ฮดnmโ€‹๋Š” ํฌ๋กœ๋„ค์ปค ๋ธํƒ€๋กœ, n=mn = mn=m์ผ ๋•Œ๋Š” 1, ๊ทธ๋ ‡์ง€ ์•Š์œผ๋ฉด 0์ž…๋‹ˆ๋‹ค.
  • ํ‘œ์ค€ ๋ผ๊ฒŒ๋ฅด ๋‹คํ•ญ์‹์€ ๋งค๊ฐœ๋ณ€์ˆ˜ ฮฑ=0\alpha = 0ฮฑ=0์ผ ๋•Œ์˜ ํŠน์ˆ˜ํ•œ ๊ฒฝ์šฐ๋กœ, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ง๊ต์„ฑ์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค:

    โˆซ0โˆžeโˆ’xLn(x)Lm(x)โ€‰dx=(n)!n!ฮดnm=ฮดnm\int_0^{\infty} e^{-x} L_n(x) L_m(x) \, dx = \frac{(n)!}{n!} \delta_{nm} = \delta_{nm}โˆซ0โˆžโ€‹eโˆ’xLnโ€‹(x)Lmโ€‹(x)dx=n!(n)!โ€‹ฮดnmโ€‹=ฮดnmโ€‹

  • (์ฐธ๊ณ ) HiPPO์—์„œ๋Š” Laguerre ๋‹คํ•ญ์‹์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ณผ๊ฑฐ ๋ฐ์ดํ„ฐ๋ฅผ ํ‘œํ˜„ํ•˜๊ณ  ๊ธฐ์–ตํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, ํŠนํžˆ ๋ฉ”๋ชจ๋ฆฌ ๊ด€๋ฆฌ์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ด ๋‹คํ•ญ์‹์€ ์‹œ๊ฐ„์ด ์ง€๋‚จ์— ๋”ฐ๋ผ ๋ฐ์ดํ„ฐ๊ฐ€ ์–ด๋–ป๊ฒŒ ๋ณ€ํ•˜๋Š”์ง€ ๋ชจ๋ธ๋งํ•˜๋Š” ๋ฐ ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.

HiPPO Preliminary

HiPPO์—์„œ๋Š” ๋‹คํ•ญ์‹ ํˆฌ์˜ ์—ฐ์‚ฐ์ž(Legendre ๋‹คํ•ญ์‹๊ณผ Laguerre ๋‹คํ•ญ์‹)์„ ํ†ตํ•ด ์‹œ๊ฐ„ ์ถ•์— ๋”ฐ๋ฅธ ๋ฐ์ดํ„ฐ๋ฅผ ์••์ถ•ํ•˜๊ณ , ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ์ค„์ด๋ฉฐ, ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ์š”์•ฝํ•˜์—ฌ ์ €์žฅํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

  • ์ด ๋‹คํ•ญ์‹๋“ค์€ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹คํ•ญ์‹ ๊ณต๊ฐ„์— ํˆฌ์˜ํ•˜์—ฌ, ์ด์ „ ์‹œ์ ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ๊ธฐ์–ตํ•˜๊ณ  ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ค๋‹ˆ๋‹ค.

    • Legendre ๋‹คํ•ญ์‹์€ ๊ตฌ๊ฐ„ [-1, 1] ๋‚ด์—์„œ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋ธ๋งํ•˜๊ณ , ์ง๊ต์„ฑ์„ ํ†ตํ•ด ๋ฉ”๋ชจ๋ฆฌ์˜ ํšจ์œจ์ ์ธ ๊ด€๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
    • Laguerre ๋‹คํ•ญ์‹์€ ์ฃผ๋กœ ์‹ ํ˜ธ ์ฒ˜๋ฆฌ์—์„œ ๊ธด ์‹œ๊ฐ„์— ๊ฑธ์ณ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ์‚ฌ์šฉ๋˜๋ฉฐ, HiPPO์—์„œ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์š”์•ฝํ•˜๊ณ  ์ €์žฅํ•˜๋Š” ๋ฐ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

Introduction (์„œ๋ก )

  • Introductin์—์„œ๋Š” ๋จผ์ € Sequential ๋ฐ์ดํ„ฐ์˜ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ ํ˜„์กดํ•˜๋Š” RNN ๋ชจ๋ธ์˜ ์ œ์•ฝ ์‚ฌํ•ญ๋“ค์„ ์•„๋ž˜์™€ ๊ฐ™์ด ์„œ์ˆ ํ•ฉ๋‹ˆ๋‹ค:

    1. Limited Memory Horizon: RNN์€ ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ์ด์ „ ์ •๋ณด์˜ ๊ธฐ์–ต์ด ์•ฝํ•ด์ง€๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ๋ชจ๋ธ์ด ์ด์ „ ๋ฐ์ดํ„ฐ์—์„œ ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ์žŠ์–ด๋ฒ„๋ฆฌ๋Š” ๋ฌธ์ œ์— ์ง๋ฉดํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
    2. Vanishing Gradients: RNN์€ ์—ญ์ „ํŒŒ ๊ณผ์ •์—์„œ ๊ธฐ์šธ๊ธฐ๊ฐ€ ๋งค์šฐ ์ž‘์•„์ ธ์„œ ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ๊ฐ€ ๊ฑฐ์˜ ์ด๋ฃจ์–ด์ง€์ง€ ์•Š๋Š” ๋ฌธ์ œ์— ์ง๋ฉดํ•ฉ๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด ๋ชจ๋ธ์ด ์žฅ๊ธฐ ์˜์กด์„ฑ์„ ํ•™์Šตํ•˜๊ธฐ๊ฐ€ ๋งค์šฐ ์–ด๋ ค์›Œ์ง‘๋‹ˆ๋‹ค.
    3. ์‹œํ€€์Šค ๊ธธ์ด ๋ฐ ์‹œ๊ฐ„ ์ฒ™๋„์— ๋Œ€ํ•œ ์„ ํ–‰ ์ •๋ณด ์š”๊ตฌ: ๊ธฐ์กด RNN ๋ฐ ๊ทธ ๋ณ€ํ˜•๋“ค์€ ํŠน์ •ํ•œ ์‹œํ€€์Šค ๊ธธ์ด๋‚˜ ์‹œ๊ฐ„ ์ฒ™๋„์— ๋Œ€ํ•œ ์„ ํ–‰ ์ •๋ณด(prior)๋ฅผ ํ•„์š”๋กœ ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Ÿฌํ•œ ์„ ํ–‰ ์ •๋ณด๋Š” ๋ถˆํ™•์‹คํ•œ ํ™˜๊ฒฝ์ด๋‚˜ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ ๋ณ€ํ™”์— ๋Œ€ํ•ด ์ผ๋ฐ˜ํ™”ํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค.
    4. ์ด๋ก ์  ๋ณด์žฅ ๊ฒฐ์—ฌ(Theoretical Guarantees):

      • ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์€ ์žฅ๊ธฐ ์˜์กด์„ฑ์„ ์–ผ๋งˆ๋‚˜ ์ž˜ ์บก์ฒ˜ํ•  ์ˆ˜ ์žˆ๋Š”์ง€์— ๋Œ€ํ•œ ์ด๋ก ์  ๋ณด์žฅ์ด ๋ถ€์กฑํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, ๊ธฐ์šธ๊ธฐ ๊ฒฝ๊ณ„ ๋“ฑ๊ณผ ๊ฐ™์€ ์„ฑ๋Šฅ์— ๋Œ€ํ•œ ์ด๋ก ์  ๊ทผ๊ฑฐ๊ฐ€ ๊ฒฐ์—ฌ๋˜์–ด ์žˆ์–ด, ํšจ๊ณผ์ ์ธ ์„ฑ๋Šฅ์„ ๊ธฐ๋Œ€ํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค.
    5. ์žฅ๊ธฐ ๋ฐ ๋ณต์žกํ•œ ์‹œ๊ฐ„ ์˜์กด์„ฑ ๋ชจ๋ธ๋ง์˜ ์–ด๋ ค์›€: RNN์€ ๋ณต์žกํ•œ ์‹œ๊ฐ„ ์˜์กด์„ฑ์„ ๋ชจ๋ธ๋งํ•˜๋Š” ๋ฐ ํ•œ๊ณ„๊ฐ€ ์žˆ์œผ๋ฉฐ, ์ด๋กœ ์ธํ•ด ์˜๋ฃŒ ๋ฐ์ดํ„ฐ์™€ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ์ƒ˜ํ”Œ๋ง ์ฃผ๊ธฐ๋ฅผ ๊ฐ€์ง„ ๋ฐ์ดํ„ฐ์—์„œ ํšจ๊ณผ์ ์œผ๋กœ ์ž‘๋™ํ•˜์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋…ผ๋ฌธ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ํ•œ๊ณ„์ ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด HiPPO(High-order Polynomial Projection Operators)๋ผ๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
  • HiPPO๋Š” ์—ฐ์† ์‹ ํ˜ธ ๋ฐ ์ด์‚ฐ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋ฅผ ์ตœ์ ์˜ ๋ฐฉ๋ฒ•์œผ๋กœ ์••์ถ•ํ•˜๊ณ  ๊ณผ๊ฑฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋ธ๋งํ•˜์—ฌ ์žฅ๊ธฐ ์˜์กด์„ฑ์„ ์ž˜ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค.


The HiPPO Framework: High-order Polynomial Projection Operators (HiPPO ํ”„๋ ˆ์ž„์›Œํฌ: ๊ณ ์ฐจ ๋‹คํ•ญ์‹ ํˆฌ์˜ ์—ฐ์‚ฐ์ž)

HiPPO ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๋ชฉํ‘œ๋Š” ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋ณ€ํ™”ํ•˜๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์••์ถ•๋œ ํ˜•ํƒœ๋กœ ์œ ์ง€ํ•˜๋ฉฐ, ๊ฐ ์‹œ๊ฐ„ t์—์„œ ๊ณผ๊ฑฐ ๋ฐ์ดํ„ฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  • ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ์˜จ๋ผ์ธ ํ•จ์ˆ˜ ๊ทผ์‚ฌ๋ฅผ ํ†ตํ•ด ๋ฉ”๋ชจ๋ฆฌ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๊ณ ์•ˆํ•˜๊ณ , ๊ณ ์ฐจ ๋‹คํ•ญ์‹ ํˆฌ์˜ ์—ฐ์‚ฐ์ž๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ˆœ์ฐจ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค

๋ฌธ์ œ ์ •์˜

  • ์ž…๋ ฅ ํ•จ์ˆ˜ f(t)f(t)f(t)์˜ ๋ˆ„์  ์ด๋ ฅ์„ ์˜จ๋ผ์ธ์œผ๋กœ ์••์ถ•ํ•˜์—ฌ ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋…ผ์˜ํ•ฉ๋‹ˆ๋‹ค.

    • Online Approximation (์˜จ๋ผ์ธ ๊ทผ์‚ฌ):
      • ๊ฐ ์‹œ๊ฐ„ ttt๋งˆ๋‹ค fโ‰คtf_{\leq t}fโ‰คtโ€‹๋ฅผ ๊ทผ์‚ฌํ•˜๊ธฐ ์œ„ํ•ด ์ธก๋„ ฮผ(t)\mu(t)ฮผ(t)๊ฐ€ ๋ณ€ํ™”ํ•ฉ๋‹ˆ๋‹ค.
      • ์ด ์ธก๋„๋Š” ๋‹ค์–‘ํ•œ ๊ณผ๊ฑฐ ์ž…๋ ฅ์˜ ์ค‘์š”๋„๋ฅผ ์กฐ์ ˆํ•˜๋ฉฐ, ์ตœ์ ์˜ ๋‹คํ•ญ์‹ ๊ทผ์‚ฌ๋ฅผ ์ฐพ์•„๋‚ด๋Š” ๊ณผ์ •์—์„œ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.
  • ํ•จ์ˆ˜์˜ ์—ญ์‚ฌ fโ‰คtf_{\leq t}fโ‰คtโ€‹๋ฅผ ์œ ์ง€ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋‘ ๊ฐ€์ง€ ํ•„์ˆ˜ ์š”์†Œ๊ฐ€ ๋„์ถœ๋ฉ๋‹ˆ๋‹ค: ๊ทผ์‚ฌ ๋ฐฉ๋ฒ•๊ณผ ์„œ๋ธŒ์ŠคํŽ˜์ด์Šค.

    1. Function Approximation with respect to a Measure (์ธก๋„์— ๋Œ€ํ•œ ํ•จ์ˆ˜ ๊ทผ์‚ฌ):

      • ๊ทผ์‚ฌ ํ’ˆ์งˆ์„ ์ •๋Ÿ‰ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ํ™•๋ฅ  ์ธก๋„ ฮผ\muฮผ๋ฅผ ํ†ตํ•ด ๋‚ด์ ์„ ์ •์˜ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
      • ๋‚ด์ ์€ โŸจf,gโŸฉฮผ=โˆซ0โˆžf(x)g(x)dฮผ(x)\langle f, g \rangle_\mu = \int_0^\infty f(x) g(x) d\mu(x)โŸจf,gโŸฉฮผโ€‹=โˆซ0โˆžโ€‹f(x)g(x)dฮผ(x)๋กœ ํ‘œํ˜„๋˜๋ฉฐ, ํ•จ์ˆ˜ fff์™€ ggg ์‚ฌ์ด์˜ ๊ฑฐ๋ฆฌ ๋˜๋Š” ์˜ค์ฐจ๋ฅผ ์ธก์ •ํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ์ค€์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
    2. Polynomial Basis Expansion (๋‹คํ•ญ์‹ ๊ธฐ์ดˆ ํ™•์žฅ):

      • ๋‹คํ•ญ์‹์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๋ถ€๋ถ„ ๊ณต๊ฐ„ GGG๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•จ์ˆ˜๋ฅผ ๊ทผ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
      • ์ด ๋ถ€๋ถ„ ๊ณต๊ฐ„์€ ์ฐจ์ˆ˜ NNN ๋ฏธ๋งŒ์˜ ๋‹คํ•ญ์‹์œผ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ์ด๋Š” ์ž…๋ ฅ ํ•จ์ˆ˜์˜ ๊ทผ์‚ฌ๋ฅผ ์œ„ํ•ด ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ์ค€์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
      • ์ด๋Ÿฌํ•œ ๊ธฐ์ดˆ ํ™•์žฅ์€ ๋‹ค์–‘ํ•œ ํ•จ์ˆ˜๋“ค์„ ํšจ๊ณผ์ ์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

HiPPO ํ•ต์‹ฌ ์•„์ด๋””์–ด

1. Choose suitable basis (์ ์ ˆํ•œ ๊ธฐ์ € ์„ ํƒ)

  • ์˜๋ฏธ:

    • ํŠน์ • ํ•จ์ˆ˜ f(t)f(t)f(t)๋ฅผ ๊ทผ์‚ฌํ•˜๊ธฐ ์œ„ํ•ด, ๊ทธ ํ•จ์ˆ˜์˜ ๊ณต๊ฐ„์—์„œ ์ ์ ˆํ•œ ๋‹คํ•ญ์‹ ๊ธฐ์ €๋ฅผ ์„ ํƒํ•˜๋Š” ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค.
    • ์ด ๊ธฐ์ €๋Š” ํ•จ์ˆ˜์˜ ์„ฑ์งˆ๊ณผ ์‹œ๊ฐ„ ๊ฐ€๋ณ€ ์ธก์ • ฮผ(t)\mu(t)ฮผ(t)์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๋ฉฐ, ์ผ๋ฐ˜์ ์œผ๋กœ๋Š” orthogonal ๋‹คํ•ญ์‹์ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
  • ์„ธ๋ถ€ ์‚ฌํ•ญ:

    • ์„ ํƒ๋œ ๊ธฐ์ € {gn}n<N{g_n}_{n < N}{gnโ€‹}n<Nโ€‹๋Š” NNN์ฐจ์›์˜ ๋‹คํ•ญ์‹ ๊ณต๊ฐ„์„ ๊ตฌ์„ฑํ•˜๋ฉฐ, ์ด ๊ธฐ์ €์— ๋Œ€ํ•ด ํ•จ์ˆ˜ fโ‰คtf_{\leq t}fโ‰คtโ€‹๋ฅผ projection ํ•ฉ๋‹ˆ๋‹ค.
    • ์ด๋Š” ์ฃผ์–ด์ง„ ํ•จ์ˆ˜์™€ ๊ธฐ์ €์˜ ๊ด€๊ณ„๋ฅผ ์ •์˜ํ•˜๊ธฐ ์œ„ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ตœ์ ์˜ ๊ณ„์ˆ˜ c(t)c(t)c(t)๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋‚ด์ ์„ ํ†ตํ•ด ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค:c(t)n:=โŸจfโ‰คt,gnโŸฉฮผ(t)c(t)_n := \langle f_{\leq t}, g_n \rangle_{\mu(t)}c(t)nโ€‹:=โŸจfโ‰คtโ€‹,gnโ€‹โŸฉฮผ(t)โ€‹
    • ์ด ๋‹จ๊ณ„์˜ ๋ชฉ์ ์€ ์ž…๋ ฅ ์‹ ํ˜ธ์˜ ์ค‘์š”ํ•œ ํŠน์„ฑ๋“ค์„ ๋ณด์กดํ•˜๋ฉด์„œ ๋ณต์žกํ•œ ํ•จ์ˆ˜๋ฅผ ๊ทธ ๊ธฐ์ €์— ๋งž์ถฐ ๊ฐ„๋‹จํ•œ ๋‹คํ•ญ์‹์œผ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

2. Differentiate the projection (ํ”„๋กœ์ ์…˜ ๋ฏธ๋ถ„)

  • ์˜๋ฏธ:

    • ์„ ํƒํ•œ ๊ธฐ์ €์— ๋Œ€ํ•ด ์‹œ๊ฐ„ ttt์— ๋”ฐ๋ผ projection์„ ๋ฏธ๋ถ„ํ•˜๋Š” ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค.
    • ์ด๋Š” ์ฃผ์–ด์ง„ ํ•จ์ˆ˜์˜ ์‹œ๊ฐ„์  ๋ณ€ํ™”๋ฅผ ํฌ์ฐฉํ•˜๊ณ , projection ๊ณ„์ˆ˜์˜ ๋™์—ญํ•™์„ ์ดํ•ดํ•˜๋Š” ๋ฐ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
  • ์„ธ๋ถ€ ์‚ฌํ•ญ:

    • ๋ฏธ๋ถ„์„ ํ†ตํ•ด ์–ป์€ ๊ด€๊ณ„๋Š” projection์˜ ๋ณ€ํ™”๋Ÿ‰์„ ์„ค๋ช…ํ•˜๋ฉฐ, ์ผ๋ฐ˜์ ์œผ๋กœ ์ด๋Ÿฌํ•œ ๋ฏธ๋ถ„์€ ์ž๊ธฐ ์œ ์‚ฌ์„ฑ์„ ๊ฐ€์ง€๋Š” ๋ฐฉ์ •์‹ ํ˜•ํƒœ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค.ddtcn(t)=functionย ofย f(t)ย andย (ck(t))kโˆˆ[N]\frac{d}{dt}c_n(t) = \text{function of } f(t) \text{ and } (c_k(t))_{k \in [N]}dtdโ€‹cnโ€‹(t)=functionย ofย f(t)ย andย (ckโ€‹(t))kโˆˆ[N]โ€‹
    • ์ด ๋‹จ๊ณ„๋Š” ํ”„๋กœ์ ์…˜ ๊ณ„์ˆ˜๊ฐ€ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์–ด๋–ป๊ฒŒ ๋ณ€ํ™”ํ•˜๋Š”์ง€๋ฅผ ์„ค๋ช…ํ•˜๋Š” ODE(์ƒ๋ฏธ๋ถ„๋ฐฉ์ •์‹)๋ฅผ ์ˆ˜๋ฆฝํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด, c(t)c(t)c(t)์˜ ๋™์—ญํ•™์ด ์ •๋Ÿ‰์ ์œผ๋กœ ๋ถ„์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

HiPPO ํ”„๋ ˆ์ž„์›Œํฌ

HiPPO๋Š” ํ•จ์ˆ˜ ๊ทผ์‚ฌ๋ฅผ ์œ„ํ•œ ์ผ์ข…์˜ ๋™์  ์‹œ์Šคํ…œ ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ, ์ฃผ์–ด์ง„ ํ•จ์ˆ˜ f(t)f(t)f(t)๋ฅผ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์••์ถ•ํ•˜๊ณ  ์ €์žฅํ•˜๋Š” ๊ณผ์ •์„ ๋‹ค๋ฃน๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์€ ์ธก๋„์— ๊ธฐ๋ฐ˜ํ•œ ์ง๊ต ๊ธฐ์ €๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•จ์ˆ˜๋ฅผ ๋‹คํ•ญ์‹ ๊ณต๊ฐ„์œผ๋กœ ํˆฌ์˜(projection)ํ•˜๊ณ , ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋ณ€ํ™”ํ•˜๋Š” ํ•จ์ˆ˜์˜ ์ •๋ณด๋ฅผ ํšจ์œจ์ ์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์•„๋ž˜์™€ ๊ทธ๋ฆผ์œผ๋กœ ์ •๋ฆฌ๋ฅผ ํ•˜๋‹ˆ๊นŒ ์ดํ•ด๊ฐ€ ๋˜๋Š”๊ตฐ์š”! ๐Ÿ”ฅ (์˜ค๋žœ๋งŒ์— ์ˆ˜์‹๋ณด๋‹ˆ๊นŒ ๋จธ๋ฆฌ๊ฐ€๐Ÿ˜ฑ)

๊ธ€๋กœ ๋‹ค์‹œ ํ•œ๋ฒˆ ์ข€ ์ •๋ฆฌํ•ด๋ณผ๊นŒ์š”?

โ‘  Projection ์—ฐ์‚ฐ : ํ•จ์ˆ˜ f(t)f(t)f(t)๋ฅผ ๋‹คํ•ญ์‹ ๊ณต๊ฐ„์œผ๋กœ ํˆฌ์˜

  • ํˆฌ์˜ ์—ฐ์‚ฐ์ž proj\text{proj}proj๋Š” ํ•จ์ˆ˜ f(t)f(t)f(t)๋ฅผ ์ผ์ • ์‹œ๊ฐ„ ttt๊นŒ์ง€์˜ ์ •๋ณด๋กœ ์ œํ•œํ•˜์—ฌ ๋‹คํ•ญ์‹ ๊ณต๊ฐ„ GGG์— ํˆฌ์˜ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ์ฃผ์–ด์ง„ f(t)f(t)f(t)์˜ ์ •๋ณด๋ฅผ ๋‹คํ•ญ์‹ g(t)g(t)g(t)๋กœ ๊ทผ์‚ฌํ•˜์—ฌ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
  • ์ด ๊ณผ์ •์—์„œ ์ค‘์š”ํ•œ ๊ฒƒ์€, ํˆฌ์˜์„ ํ†ตํ•ด ์–ป์€ ๋‹คํ•ญ์‹์ด ์‹œ๊ฐ„ ttt ์ด์ „์˜ ํ•จ์ˆ˜ ์ •๋ณด fโ‰คt(x)f_{\leq t}(x)fโ‰คtโ€‹(x)๋ฅผ ์ตœ๋Œ€ํ•œ ์ •ํ™•ํ•˜๊ฒŒ ํ‘œํ˜„ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํˆฌ์˜ ์—ฐ์‚ฐ์˜ ๋ชฉํ‘œ๋Š”, ์ฃผ์–ด์ง„ ์ธก๋„ ฮผ(t)\mu(t)ฮผ(t) ํ•˜์—์„œ ์˜ค์ฐจ๊ฐ€ ์ตœ์†Œํ™”๋˜๋„๋ก ๋‹คํ•ญ์‹ g(t)g(t)g(t)๋กœ ํ•จ์ˆ˜๋ฅผ ๊ทผ์‚ฌํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

โ‘ก Coefficients ๊ณ„์‚ฐ: ๊ณ„์ˆ˜ c(t)c(t)c(t) ๊ตฌํ•˜๊ธฐ

  • ํˆฌ์˜๋œ ๋‹คํ•ญ์‹ g(t)g(t)g(t)๋Š” ๋‹คํ•ญ์‹ ๊ธฐ์ € ํ•จ์ˆ˜๋“ค์˜ ์„ ํ˜• ๊ฒฐํ•ฉ์œผ๋กœ ํ‘œํ˜„๋˜๋ฉฐ, ๊ฐ ๊ธฐ์ € ํ•จ์ˆ˜์— ๊ณฑํ•ด์ง€๋Š” ๊ณ„์ˆ˜ c(t)c(t)c(t)๋Š” ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋ณ€ํ™”ํ•ฉ๋‹ˆ๋‹ค.
  • HiPPO๋Š” ์ด ๊ณ„์ˆ˜ c(t)c(t)c(t)๋ฅผ ํšจ์œจ์ ์œผ๋กœ ๊ณ„์‚ฐํ•˜์—ฌ, ํ•จ์ˆ˜ f(t)f(t)f(t)์˜ ๊ณผ๊ฑฐ ๊ธฐ๋ก์„ ์••์ถ•ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค. c(t)c(t)c(t)๋Š” RN\mathbb{R}^NRN์˜ ๋ฒกํ„ฐ๋กœ, ์ด๋Š” ์„ ํƒ๋œ NNN๊ฐœ์˜ ๊ธฐ์ € ํ•จ์ˆ˜์— ๋Œ€ํ•œ ๊ณ„์ˆ˜๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

โ‘ข ๋ฏธ๋ถ„ ๋ฐฉ์ •์‹ (ODE)์œผ๋กœ ๊ณ„์ˆ˜์˜ ์ง„ํ™” ๋ชจ๋ธ๋ง

  • ํˆฌ์˜๋œ ํ•จ์ˆ˜์˜ ๊ณ„์ˆ˜ c(t)c(t)c(t)๋Š” ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์ง„ํ™”ํ•˜๋ฉฐ, ์ด ๋ณ€ํ™”๋Š” ์ƒ๋ฏธ๋ถ„ ๋ฐฉ์ •์‹(ODE)์œผ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค:ddtc(t)=A(t)c(t)+B(t)f(t)\frac{d}{dt}c(t) = A(t)c(t) + B(t)f(t)dtdโ€‹c(t)=A(t)c(t)+B(t)f(t)
  • ์ด ๋ฐฉ์ •์‹์€ ๊ณ„์ˆ˜ c(t)c(t)c(t)๊ฐ€ ์‹œ๊ฐ„ ttt์— ๋”ฐ๋ผ ์–ด๋–ป๊ฒŒ ๋ณ€ํ™”ํ•˜๋Š”์ง€๋ฅผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. A(t)A(t)A(t)์™€ B(t)B(t)B(t)๋Š” ๊ฐ๊ฐ ๊ณ„์ˆ˜์™€ ํ•จ์ˆ˜์˜ ๋ณ€ํ™”์œจ์„ ๋‚˜ํƒ€๋‚ด๋Š” ํ–‰๋ ฌ์ž…๋‹ˆ๋‹ค.
  • ์ค‘์š”ํ•œ ์ ์€, HiPPO๊ฐ€ ์ด ODE๋ฅผ ํ†ตํ•ด ํ•จ์ˆ˜๋ฅผ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์˜จ๋ผ์ธ ๋ฐฉ์‹์œผ๋กœ ์••์ถ•ํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ฆ‰, ์‹ค์‹œ๊ฐ„์œผ๋กœ ํ•จ์ˆ˜์˜ ์ •๋ณด๋ฅผ ์ €์žฅํ•˜๊ณ  ์ง„ํ™”์‹œํ‚ต๋‹ˆ๋‹ค.

๐Ÿ’ก High Order Projection: Measure Families and HiPPO ODEs

  • HiPPO ํ”„๋ ˆ์ž„์›Œํฌ์—์„œ ๊ณ ์ฐจ ๋‹คํ•ญ์‹ ํˆฌ์˜(High Order Projection)์„ ํ†ตํ•ด ๊ณผ๊ฑฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹คํ•ญ์‹ ํ˜•ํƒœ๋กœ ํšจ์œจ์ ์œผ๋กœ ์••์ถ•ํ•˜๊ณ  ์ด๋ฅผ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
    • ํŠนํžˆ, HiPPO์—์„œ๋Š” LagT(Translated Laguerre Measure)์™€ LegT(Translated Legendre Measure) ๋‘ ๊ฐ€์ง€ ์ธก์ •(Measure) ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•˜๊ณ , ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ฏธ๋ถ„ ๋ฐฉ์ •์‹(ODE)์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋ฐฉ์‹์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ’ฌ Translated Laguerre Measure (LagT)

  • LagT๋Š” ์ตœ๊ทผ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ๋” ์ค‘์š”ํ•˜๋‹ค๋Š” ๊ฐ€์ •์„ ๋ฐ˜์˜ํ•ฉ๋‹ˆ๋‹ค.
    • ๊ณผ๊ฑฐ๋กœ ๊ฐˆ์ˆ˜๋ก ๋ฐ์ดํ„ฐ์˜ ์ค‘์š”๋„๊ฐ€ ์ง€์ˆ˜์ ์œผ๋กœ ๊ฐ์†Œํ•ฉ๋‹ˆ๋‹ค.
  • Measure ์ •์˜:

    ฮผ(t)(x)=eโˆ’(tโˆ’x)(ifย xโ‰คt)\mu(t)(x) = e^{-(t-x)} \quad \text{(if } x \leq t \text{)}ฮผ(t)(x)=eโˆ’(tโˆ’x)(ifย xโ‰คt)

    • ์ด ์ˆ˜์‹์€ xโ‰คtx \leq txโ‰คt์ผ ๋•Œ๋งŒ ์ •์˜๋˜๋ฉฐ, ๊ณผ๊ฑฐ๋กœ ๊ฐˆ์ˆ˜๋ก eโˆ’(tโˆ’x)e^{-(t-x)}eโˆ’(tโˆ’x)๋ผ๋Š” ํ•จ์ˆ˜๊ฐ€ ์ง€์ˆ˜์ ์œผ๋กœ ๊ฐ์†Œํ•จ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
    • ์ด๋Š” ์ตœ๊ทผ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ๊ณผ๊ฑฐ์˜ ๋ฐ์ดํ„ฐ๋ณด๋‹ค ์ค‘์š”ํ•˜๋‹ค๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค.
  • ODE ํ˜•ํƒœ:

    ddtc(t)=โˆ’Ac(t)+Bf(t)\frac{d}{dt} c(t) = -Ac(t) + Bf(t)dtdโ€‹c(t)=โˆ’Ac(t)+Bf(t)

    • ์—ฌ๊ธฐ์„œ c(t)c(t)c(t)๋Š” ํˆฌ์˜๋œ ๋‹คํ•ญ์‹์˜ ๊ณ„์ˆ˜ ๋ฒกํ„ฐ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
    • ์ด ์‹์—์„œ ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ f(t)f(t)f(t)๋Š” LagT๊ฐ€ ์ตœ๊ทผ ๋ฐ์ดํ„ฐ๋ฅผ ์ค‘์š”ํ•˜๊ฒŒ ๋ฐ˜์˜ํ•˜๋„๋ก ์„ค๊ณ„๋œ ๋ฐฉ์‹์œผ๋กœ ๋‹คํ•ญ์‹ ๊ธฐ์ €์— ํˆฌ์˜๋ฉ๋‹ˆ๋‹ค.
  • ํ–‰๋ ฌ A์™€ B ์ •์˜:

    Ank={1ifย nโ‰ฅk0ifย n<k,Bn=1A_{nk} = \begin{cases} 1 & \text{if } n \geq k \ 0 & \text{if } n < k \end{cases} \quad, \quad B_n = 1Ankโ€‹={10โ€‹ifย nโ‰ฅkifย n<kโ€‹,Bnโ€‹=1

    • ์ด๋Š” ์ง€์ˆ˜์  ๊ฐ์†Œ๋ฅผ ๋ฐ˜์˜ํ•œ ๋ฉ”์ปค๋‹ˆ์ฆ˜์œผ๋กœ, ์ตœ๊ทผ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ๋” ์ค‘์š”ํ•œ ๋ฐฉ์‹์œผ๋กœ ๋‹คํ•ญ์‹์˜ ๊ณ„์ˆ˜๋“ค์„ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ’ฌ Translated Legendre Measure (LegT)

  • LegT๋Š” ๊ณ ์ •๋œ ์‹œ๊ฐ„ ๋ฒ”์œ„ ๋‚ด์˜ ๋ฐ์ดํ„ฐ๋งŒ ์ค‘์š”ํ•˜๋‹ค๊ณ  ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค.
    • ์ฆ‰, ์ผ์ • ๊ธธ์ด์˜ ์Šฌ๋ผ์ด๋”ฉ ์œˆ๋„์šฐ(Sliding Window) ๋ฐฉ์‹์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
  • Measure ์ •์˜:

    ฮผ(t)(x)=1ฮธItโˆ’ฮธ,t\mu(t)(x) = \frac{1}{\theta} I_{[t-\theta, t]}(x)ฮผ(t)(x)=ฮธ1โ€‹I[tโˆ’ฮธ,t]โ€‹(x)

    • ์—ฌ๊ธฐ์„œ I[tโˆ’ฮธ,t]I_{[t-\theta, t]}I[tโˆ’ฮธ,t]โ€‹๋Š” ์Šฌ๋ผ์ด๋”ฉ ์œˆ๋„์šฐ๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ๊ธธ์ด ฮธ\thetaฮธ๋งŒํผ์˜ ์‹œ๊ฐ„ ์ฐฝ์—์„œ ๋ฐ์ดํ„ฐ์— ๊ท ๋“ฑํ•œ ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•ฉ๋‹ˆ๋‹ค.
    • ์ฆ‰, ์‹œ๊ฐ„ ์ฐฝ [tโˆ’ฮธ,t][t-\theta, t][tโˆ’ฮธ,t] ์‚ฌ์ด์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ค‘์š”ํ•˜๊ฒŒ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
  • ODE ํ˜•ํƒœ:

    ddtc(t)=โˆ’1ฮธAc(t)+1ฮธBf(t)\frac{d}{dt} c(t) = -\frac{1}{\theta} Ac(t) + \frac{1}{\theta} Bf(t)dtdโ€‹c(t)=โˆ’ฮธ1โ€‹Ac(t)+ฮธ1โ€‹Bf(t)

    • ์—ฌ๊ธฐ์„œ๋„ ์—ญ์‹œ c(t)c(t)c(t)๋Š” ๋‹คํ•ญ์‹์˜ ๊ณ„์ˆ˜ ๋ฒกํ„ฐ๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
  • ํ–‰๋ ฌ A์™€ B ์ •์˜:

    Ank={(โˆ’1)nโˆ’k(2n+1)ifย nโ‰ฅk2n+1ifย n<k,Bn=(โˆ’1)n(2n+1)A_{nk} = \begin{cases} (-1)^{n-k}(2n + 1) & \text{if } n \geq k \ 2n + 1 & \text{if } n < k \end{cases} \quad, \quad B_n = (-1)^n (2n + 1)Ankโ€‹={(โˆ’1)nโˆ’k(2n+1)2n+1โ€‹ifย nโ‰ฅkifย n<kโ€‹,Bnโ€‹=(โˆ’1)n(2n+1)

    • ์ด๋Š” ์ผ์ •ํ•œ ์‹œ๊ฐ„ ์ฐฝ ๋‚ด์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ํˆฌ์˜ํ•˜์—ฌ ์œ ์ง€ํ•˜๋ฉฐ, ์ผ์ • ์‹œ๊ฐ„ ๋ฒ”์œ„ ๋‚ด์˜ ๋ฐ์ดํ„ฐ์—๋งŒ ์ค‘์š”์„ฑ์„ ๋ถ€์—ฌํ•ฉ๋‹ˆ๋‹ค.

โ‘ฃ Discrete-time HiPPO Recurrence (์ด์‚ฐ ์‹œ๊ฐ„ ์žฌ๊ท€ ๊ด€๊ณ„)

  • HiPPO ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์—ฐ์† ์‹œ๊ฐ„(Continuous Time)์—์„œ ์ด์‚ฐ ์‹œ๊ฐ„(Discrete Time)์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.
  • ์ด๋Š” ์‹ค์งˆ์ ์ธ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋‚˜ ์ด์‚ฐ์ ์ธ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ์— ์ ์šฉํ•˜๊ธฐ ์œ„ํ•ด ODE๋ฅผ ์ด์‚ฐํ™”ํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.

    • ODE๋ฅผ ์ด์‚ฐํ™”ํ•˜์—ฌ ์‹ค์งˆ์ ์œผ๋กœ ๊ณ„์‚ฐ ๊ฐ€๋Šฅํ•œ ํ˜•ํƒœ๋กœ ๋งŒ๋“ค๋ฉด, ์•„๋ž˜์™€ ๊ฐ™์€ ์žฌ๊ท€ ๊ด€๊ณ„๋ฅผ ์–ป๊ฒŒ ๋ฉ๋‹ˆ๋‹ค:ck+1=Akck+Bkfkc_{k+1} = A_k c_k + B_k f_kck+1โ€‹=Akโ€‹ckโ€‹+Bkโ€‹fkโ€‹
    • ์ด ์‹์€ ์ด์ „ ์‹œ๊ฐ„์˜ ๊ณ„์ˆ˜ ckc_kckโ€‹์™€ ์ƒˆ๋กœ์šด ํ•จ์ˆ˜ ๊ฐ’ fkf_kfkโ€‹์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์Œ ์‹œ๊ฐ„ k+1k+1k+1์—์„œ์˜ ๊ณ„์ˆ˜ ck+1c_{k+1}ck+1โ€‹๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ์ด ์‹์€ ํ•จ์ˆ˜์˜ ์ •๋ณด๋ฅผ ์ด์‚ฐ์ ์ธ ์‹œ๊ฐ„ ๋‹จ๊ณ„์—์„œ ์žฌ๊ท€์ ์œผ๋กœ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๊ตฌํ˜„๋ฉ๋‹ˆ๋‹ค.
    • ์ด ๊ณผ์ •์„ ํ†ตํ•ด, HiPPO๋Š” ํ•จ์ˆ˜์˜ ๊ณผ๊ฑฐ ๊ธฐ๋ก์„ ์„ ํ˜• ๊ฒฐํ•ฉ์˜ ํ˜•ํƒœ๋กœ ์••์ถ•ํ•˜์—ฌ ์ €์žฅํ•˜๊ณ , ์‹ค์‹œ๊ฐ„์œผ๋กœ ์—…๋ฐ์ดํŠธํ•˜๋Š” ํšจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ•์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ• HiPPO-LegS: Scaled Measures for Timescale Robustness (HiPPO-LegS: ์‹œ๊ณ„์—ด ๊ฒฌ๊ณ ์„ฑ์„ ์œ„ํ•œ ํ™•์žฅ๋œ ์ธก์ • ๋ฐฉ๋ฒ•)

  • HiPPO-LegS๋Š” ์‹œ๊ฐ„ ์ฒ™๋„์— ๊ฐ•๊ฑดํ•œ ๋ฉ”๋ชจ๋ฆฌ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ œ๊ณตํ•˜๋Š” ์ƒˆ๋กœ์šด ์ ‘๊ทผ ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ด ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ๊ณผ๊ฑฐ ๋ชจ๋“  ์‹œ๊ฐ„์— ๋Œ€ํ•ด ๊ท ๋“ฑํ•œ ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•˜์—ฌ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.

    • ์ „์ฒด ์ด๋ ฅ ๊ณ ๋ ค: LegS๋Š” ์™„์ „ํ•œ ๊ณผ๊ฑฐ ์ด๋ ฅ์„ ๊ณ ๋ คํ•˜์—ฌ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ๊ตฌ์„ฑํ•˜๋ฉฐ, ์ด๋Š” ํŠน์ • ์Šฌ๋ผ์ด๋”ฉ ์œˆ๋„์šฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ธฐ๋ฒ•๊ณผ ๋‹ฌ๋ฆฌ ๋ชจ๋“  ๊ณผ๊ฑฐ ๋ฐ์ดํ„ฐ๋ฅผ ๊ท ๋“ฑํ•˜๊ฒŒ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
      • ๋ฐ˜๋ฉด, LagT์™€ LegT๋Š” ํŠน์ • ์‹œ๊ฐ„ ๋ฒ”์œ„ ๋‚ด์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋ฏ€๋กœ ์žฅ๊ธฐ์  ์˜์กด์„ฑ์„ ํฌ์ฐฉํ•˜๋Š” ๋ฐ ํ•œ๊ณ„๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํ•„์š” ์—†์Œ: LegS๋Š” ๋ฉ”๋ชจ๋ฆฌ ๊ตฌ์„ฑ์— ํ•„์š”ํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์—†์ด ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค.
      • ๋ฐ˜๋ฉด, LagT์™€ LegT๋Š” ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์กฐ์ •ํ•ด์•ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ์‹œ๊ฐ„ ์Šค์ผ€์ผ์— ๋Œ€ํ•œ ๊ฐ•๊ฑด์„ฑ: LegS๋Š” ์ž…๋ ฅ ์‹ ํ˜ธ์˜ ์‹œ๊ฐ„ ์ฒ™๋„๊ฐ€ ๋ฐ”๋€Œ์–ด๋„ ์•ˆ์ •์ ์œผ๋กœ ๋™์ž‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
      • ๋ฐ˜๋ฉด LagT๋‚˜ LegT๋Š” ํŠน์ • ์‹œ๊ฐ„ ์ฒ™๋„์— ๋Œ€ํ•ด ์ตœ์ ํ™”๋œ ๊ฒฐ๊ณผ๋ฅผ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ์ง€๋งŒ, ๋‹ค๋ฅธ ์‹œ๊ฐ„ ์ฒ™๋„์—์„œ๋Š” ์„ฑ๋Šฅ์ด ์ €ํ•˜๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ: LegS๋Š” ๋ฉ”๋ชจ๋ฆฌ ์—…๋ฐ์ดํŠธ ๊ณผ์ •์„ ๊ฐ„์†Œํ™”ํ•˜์—ฌ ๊ฐ ์‹œ๊ฐ„ ๋‹จ๊ณ„์—์„œ ๋” ๋น ๋ฅด๊ฒŒ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
      • LagT๋‚˜ LegT๋Š” ์ƒ๋Œ€์ ์œผ๋กœ ๋ณต์žกํ•œ ์—…๋ฐ์ดํŠธ ๊ทœ์น™์„ ์‚ฌ์šฉํ•ด์•ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • Gradient ๋ฐ ์—ญ์ „ํŒŒ ๋ฌธ์ œ ํ•ด๊ฒฐ: LegS๋Š” ๊ธฐ์šธ๊ธฐ ํฌ๊ธฐ๊ฐ€ ๋ณด์กด๋  ์ˆ˜ ์žˆ๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ œ๊ณตํ•˜์—ฌ, ๊ธด ์‹œํ€€์Šค์— ๊ฑธ์ณ ํ•™์Šต ์•ˆ์ •์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค.
      • LagT์™€ LegT๋Š” ๋•Œ๋•Œ๋กœ ๊ทธ๋ž˜๋””์–ธํŠธ๊ฐ€ ์†Œ์‹ค๋˜๋Š” ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Empirical Validation (์‹ค์ฆ์  ๊ฒ€์ฆ)

  • 4.1 Long-range Memory Benchmark Tasks (์žฅ๊ธฐ ๋ฉ”๋ชจ๋ฆฌ ๋ฒค์น˜๋งˆํฌ ๊ณผ์ œ): ์žฅ๊ธฐ ๋ฉ”๋ชจ๋ฆฌ ์˜์กด์„ฑ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ ๊ณผ์ œ์—์„œ HiPPO-LegS์˜ ์„ฑ๋Šฅ์„ ๊ฒ€์ฆํ•ฉ๋‹ˆ๋‹ค.
  • 4.2 Timescale Robustness of HiPPO-LegS (HiPPO-LegS์˜ ์‹œ๊ณ„์—ด ๊ฒฌ๊ณ ์„ฑ): HiPPO-LegS๊ฐ€ ๋‹ค์–‘ํ•œ ์‹œ๊ฐ„ ์ฒ™๋„์—์„œ ์–ผ๋งˆ๋‚˜ ๊ฒฌ๊ณ ํ•˜๊ฒŒ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๋Š”์ง€ ๊ฒ€์ฆํ•ฉ๋‹ˆ๋‹ค.
  • 4.3 Theoretical Validation and Scalability (์ด๋ก ์  ๊ฒ€์ฆ ๋ฐ ํ™•์žฅ์„ฑ): HiPPO ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ์ด๋ก ์ ์œผ๋กœ ์–ด๋–ป๊ฒŒ ์„ฑ๋Šฅ์ด ๋ณด์žฅ๋˜๋Š”์ง€์™€ ๊ทธ ํ™•์žฅ์„ฑ์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.
  • 4.4 Additional Experiments (์ถ”๊ฐ€ ์‹คํ—˜): ์ถ”๊ฐ€ ์‹คํ—˜์„ ํ†ตํ•ด HiPPO ๋ฉ”๋ชจ๋ฆฌ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์œ ์šฉ์„ฑ์„ ๊ฒ€์ฆํ•ฉ๋‹ˆ๋‹ค.

Conclusion (๊ฒฐ๋ก )

  • HiPPO ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ๋ฉ”๋ชจ๋ฆฌ ๋ฌธ์ œ์— ๋Œ€ํ•œ ๊ทผ๋ณธ์ ์ธ ํ•ด๊ฒฐ์ฑ…์„ ์ œ์‹œํ•˜๋ฉฐ, ๊ธฐ์กด์˜ ๋ฉ”๋ชจ๋ฆฌ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ฉํ•˜๊ณ  ํ™•์žฅํ•˜์—ฌ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ์Œ์„ ๊ฒฐ๋ก ์œผ๋กœ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค

  1. LSSL: Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers (NeurIPS, 2021)

์ด ๋…ผ๋ฌธ์˜ ๋ชฉ์ฐจ์— ๋”ฐ๋ฅธ ๊ฐœ๋…๋“ค์„ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์„ค๋ช…ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค:

Introduction

  • LSSL(Linear State-Space Layer)๋Š” ์ˆœํ™˜(Recurrent), ํ•ฉ์„ฑ๊ณฑ(Convolutional), ์—ฐ์† ์‹œ๊ฐ„ ๋ชจ๋ธ(Continuous-time)์˜ ์žฅ์ ์„ ๊ฒฐํ•ฉํ•œ ์ƒˆ๋กœ์šด ๋ชจ๋ธ ํŒจ๋Ÿฌ๋‹ค์ž„์œผ๋กœ, ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ์ˆœ์ฐจ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ๋ฅผ ๋”์šฑ ํšจ์œจ์ ์œผ๋กœ ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋œ ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค.
  • ๋ฐฐ๊ฒฝ ๋ฐ ๋ฌธ์ œ ์ •์˜:

    • ๋จธ์‹ ๋Ÿฌ๋‹์—์„œ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ(Sequential Data)๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ์ผ๋ฐ˜์ ์ธ ๋ฐฉ์‹์€ RNN(Recurrent Neural Network), CNN(Convolutional Neural Network), NeuralODE(Neural Differential Equation) ๋“ฑ์˜ ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋“ค์€ ๊ฐ๊ฐ ์žฅ๋‹จ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

      • RNN์€ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ƒํƒœ ์ €์žฅ(Stateful) ์„ฑ์งˆ์„ ๊ฐ–๊ณ  ์žˆ์œผ๋‚˜, ๋งค ์Šคํ…๋งˆ๋‹ค ์ €์žฅ๊ณผ ๊ณ„์‚ฐ์ด ํ•„์š”ํ•˜๋ฏ€๋กœ ๋งค์šฐ ๋น„ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค. ๋Œ€ํ‘œ์ ์ธ ๋ฌธ์ œ๋กœ๋Š” Vanishing Gradient Problem์ด ์žˆ์Šต๋‹ˆ๋‹ค.
      • CNN์€ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ์™€ ๋น ๋ฅธ ํ›ˆ๋ จ์ด ๊ฐ€๋Šฅํ•˜๋‚˜, ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ๋กœ์ปฌ ์ •๋ณด์— ๊ตญํ•œ๋˜์–ด ์žˆ์œผ๋ฉฐ ๊ธด ๋ฌธ๋งฅ(long-term dependency)์„ ๊ธฐ์–ตํ•˜๋Š” ๋Šฅ๋ ฅ์ด ๋ถ€์กฑํ•ฉ๋‹ˆ๋‹ค.
      • NeuralODE๋Š” ์—ฐ์†์  ์‹œ๊ฐ„ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ˆ˜ํ•™์ ์œผ๋กœ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜์ง€๋งŒ ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋งŽ์ด ๋“ค๊ณ , ํŠนํžˆ ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ๋งค์šฐ ๋น„ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค.

  • LSSL์˜ ์ œ์•ˆ ๋ฐ ๋ชฉ์ :
    • ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด๋Ÿฌํ•œ RNN, CNN, NeuralODE ๊ฐ๊ฐ์˜ ์žฅ์ ์„ ์‚ด๋ฆฌ๋ฉด์„œ๋„ ๊ฐ ๋ชจ๋ธ์˜ ๋‹จ์ ์„ ๊ทน๋ณตํ•˜๋Š” ์ƒˆ๋กœ์šด ๊ตฌ์กฐ์ธ Linear State-Space Layer(LSSL)๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
    • ์ฃผ์š” ๋ชฉํ‘œ๋Š” CNN์˜ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ์žฅ์ , RNN์˜ ์ƒํƒœ ์ถ”๋ก  ๋Šฅ๋ ฅ, NeuralODE์˜ ์‹œ๊ฐ„ ์ฒ™๋„(Time-scale) ์ ์‘๋ ฅ์„ ๋™์‹œ์— ์ œ๊ณตํ•˜๋Š” ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
      • ์žฌ๊ท€์„ฑ(Recurrent): ํŠน์ • ์‹œ๊ฐ„ ๊ฐ„๊ฒฉ ฮ”t\Delta tฮ”t๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์„ ๋ถˆ์—ฐ์†ํ™”(Discretization)ํ•˜๋ฉด, ์žฌ๊ท€์ ์ธ ๋ฐฉ์‹์œผ๋กœ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด RNN์ฒ˜๋Ÿผ ์ƒํƒœ๋ฅผ ์ถ”์ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
      • ํ•ฉ์„ฑ๊ณฑ์„ฑ(Convolutional): ์„ ํ˜• ์‹œ๊ฐ„ ๋ถˆ๋ณ€ ์‹œ์Šคํ…œ(Linear Time-Invariant System, LTI)์œผ๋กœ์„œ, ์—ฐ์†์ ์ธ ํ•ฉ์„ฑ๊ณฑ์œผ๋กœ ํ‘œํ˜„์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด CNN๊ณผ ๊ฐ™์ด ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ๋ฐ ํšจ์œจ์ ์ธ ํ›ˆ๋ จ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
      • ์—ฐ์† ์‹œ๊ฐ„ ๋ชจ๋ธ(Continuous-time): LSSL์€ ๋ฏธ๋ถ„ ๋ฐฉ์ •์‹์œผ๋กœ ํ‘œํ˜„๋˜๋ฏ€๋กœ ์—ฐ์† ์‹œ๊ฐ„ ๋ชจ๋ธ๋กœ์„œ์˜ ์žฅ์ ์„ ๊ฐ€์ง€๋ฉฐ, ๋‹ค์–‘ํ•œ ์‹œ๊ฐ„ ์ฒ™๋„์— ์ ์‘ํ•  ์ˆ˜ ์žˆ๋Š” ์œ ์—ฐ์„ฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

์•„๋ž˜ ๊ทธ๋ฆผ์€ ๋…ผ๋ฌธ์—์„œ ๋‚˜์˜จ Figure1๋กœ ์œ„์—์„œ ์„ค๋ช…ํ•˜๋Š” LSSL์˜ 3๊ฐ€์ง€ View๋ฅผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.

  • View 1. Continuous-time ๊ด€์ :

    • ์ด ๋ชจ๋“œ์—์„œ๋Š” ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์ด ์—ฐ์†์  ์‹œ๊ฐ„ ttt์— ๋”ฐ๋ผ ๋ณ€ํ•˜๋ฉฐ, ๋ถˆ๊ทœ์น™ํ•œ ์ƒ˜ํ”Œ๋ง ๋ฐ์ดํ„ฐ๋„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. (๋ฏธ๋ถ„ ๋ฐฉ์ •์‹ ํ˜•ํƒœ)
    • ์‹ xห™(t)=Ax(t)+Bu(t)\dot{x}(t) = A x(t) + B u(t)xห™(t)=Ax(t)+Bu(t)๋Š” ์ƒํƒœ๊ฐ€ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์–ด๋–ป๊ฒŒ ๋ณ€ํ™”ํ•˜๋Š”์ง€ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ์ถœ๋ ฅ์€ y(t)=Cx(t)+Du(t)y(t) = C x(t) + D u(t)y(t)=Cx(t)+Du(t)๋กœ ์ •์˜๋ฉ๋‹ˆ๋‹ค.
  • View 2. Recurrent ๊ด€์ :

    • ์ด์‚ฐํ™”(Discretization)๋ฅผ ํ†ตํ•ด RNN๊ณผ ๊ฐ™์€ ํ˜•ํƒœ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ ์‹œ๊ฐ„ ๊ฐ„๊ฒฉ ฮ”t\Delta tฮ”t์— ๋”ฐ๋ผ ์ƒํƒœ๊ฐ€ ๋ณ€ํ™”ํ•˜๊ณ , ์ด์ „ ์ƒํƒœ ์ •๋ณด xkโˆ’1x_{k-1}xkโˆ’1โ€‹๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ˜„์žฌ ์ƒํƒœ xkx_kxkโ€‹์™€ ์ถœ๋ ฅ์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.
    • ์ด๋ฅผ ํ†ตํ•ด ๋ฌดํ•œํ•œ ๋ฌธ๋งฅ(Unbounded Context)์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํšจ์œจ์ ์ธ ์ถ”๋ก ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
  • View 3. Convolutional ๊ด€์ :

    • ํ•ฉ์„ฑ๊ณฑ์  ๋ฐฉ์‹์œผ๋กœ๋„ ํ‘œํ˜„์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ํ•ฉ์„ฑ๊ณฑ ์ปค๋„ KKK๋Š” ์„ ํ˜• ์‹œ์Šคํ…œ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ณ„์‚ฐ๋˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ์ž…๋ ฅ ์‹œํ€€์Šค์— ๋Œ€ํ•ด ๋ณ‘๋ ฌ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • CNN๊ณผ ๊ฐ™์ด ๋กœ์ปฌ ์ •๋ณด(Local Information)๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด์„œ๋„, ๋ณ‘๋ ฌํ™”๋œ ํ›ˆ๋ จ์ด ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

Linear State-Space Layers (LSSL)

  • 3.1 LSSL์˜ ๋‹ค์–‘ํ•œ ๋ทฐ (Different Views of the LSSL)

    • LSSL์˜ ๊ธฐ๋ณธ ์ˆ˜์‹์€ ์ƒํƒœ ๊ณต๊ฐ„ ํ‘œํ˜„(state-space representation)์ธ A, B, C, Dํ–‰๋ ฌ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ •์˜๋ฉ๋‹ˆ๋‹ค. ์ˆ˜์‹์œผ๋กœ๋Š” ์•„๋ž˜์™€ ๊ฐ™์ด ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค.xห™(t)=Ax(t)+Bu(t)\dot{x}(t) = A x(t) + B u(t)xห™(t)=Ax(t)+Bu(t) y(t)=Cx(t)+Du(t)y(t) = C x(t) + D u(t)y(t)=Cx(t)+Du(t)
    • LSSL์€ ์ด ๋ชจ๋ธ์„ ์ด์‚ฐํ™”(discretization)ํ•˜์—ฌ ฮ”t\Delta tฮ”t๋ผ๋Š” ํƒ€์ž„์Šคํ…์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ž…๋ ฅ ์‹œํ€€์Šค u(t)u(t)u(t)๋ฅผ ์ถœ๋ ฅ ์‹œํ€€์Šค y(t)y(t)y(t)๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์‹œํ€€์Šค ํˆฌ ์‹œํ€€์Šค ๋งตํ•‘์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ, ๊ฐ ํƒ€์ž„์Šคํ…์˜ H-dim feature ๋ฒกํ„ฐ๋ฅผ ํฌํ•จํ•œ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
    • LSSL์€ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๋ฐฉ์‹์œผ๋กœ ๊ณ„์‚ฐ๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๊ทธ ๋ฐฉ์‹๋“ค์€ ํฌ๊ฒŒ ์žฌ๊ท€์  ๋ชจ๋ธ(Recurrent Model), ํ•ฉ์„ฑ๊ณฑ ๋ชจ๋ธ(Convolutional Model), ์—ฐ์† ์‹œ๊ฐ„ ๋ชจ๋ธ(Continuous-Time Model)๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์€ ํ•ด๋‹น ํŒŒํŠธ์—์„œ ์ด๋ฅผ ๋„์‹์ ์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด์„œ ๊ฐ ๋ฐฉ์‹์ด ์–ด๋–ป๊ฒŒ ๋‹ค๋ฅด๊ฒŒ ์ž‘๋™ํ•˜๋Š”์ง€๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. (์ด๋Š” ์•ž์—์˜ 3. State Space Model(SSM) ์†Œ๊ฐœ์—์„œ๋„ ๋‹ค๋ค˜์œผ๋‹ˆ ๋„ˆ๋ฌด ๊นŠ๊ฒŒ ๊ฐ€์ง€๋Š” ์•Š๊ฒ ์Šต๋‹ˆ๋‹ค)

โ‘  Recurrent View (์žฌ๊ท€์  ๊ด€์ )

  • ์žฌ๊ท€์  ๊ด€์ ์—์„œ๋Š” ์ƒํƒœ ๋ฒกํ„ฐ xtโˆ’1x_{t-1}xtโˆ’1โ€‹์ด ์ด์ „ ์ž…๋ ฅ ์ •๋ณด์™€ ํ˜„์žฌ ์ž…๋ ฅ ์ •๋ณด ๊ฐ„์˜ ๋ฌธ๋งฅ์„ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค.

    • ์ด๋ฅผ ํ†ตํ•ด ํšจ์œจ์ ์ธ ์ƒํƒœ ์ถ”๋ก ์„ ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง(RNN)์ฒ˜๋Ÿผ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.

โ‘ก Convolutional View (ํ•ฉ์„ฑ๊ณฑ ๊ด€์ )

  • ํ•ฉ์„ฑ๊ณฑ ๊ด€์ ์—์„œ, LSSL์€ state ๋ฒกํ„ฐ๋ฅผ ํ†ตํ•ด ํ•„ํ„ฐ๋ง๋œ ์ถœ๋ ฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

    • ํ•ฉ์„ฑ๊ณฑ ๊ด€์ ์—์„œ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด FFT(๋น ๋ฅธ ํ‘ธ๋ฆฌ์— ๋ณ€ํ™˜)๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • 3.2 LSSL์˜ ํ‘œํ˜„๋ ฅ (Expressivity of LSSLs)

    • ์ด ์ ˆ์—์„œ๋Š” LSSL์ด ์‹ค์ œ๋กœ ์–ด๋А ์ •๋„๊นŒ์ง€ ๋‹ค์–‘ํ•œ ์žฌ๊ท€์  ํŠน์„ฑ๊ณผ ํ•ฉ์„ฑ๊ณฑ์  ํŠน์„ฑ ํ‘œํ˜„์„ ์–ผ๋งˆ๋‚˜ ์ž˜ ํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.

    โ‘  ํ•ฉ์„ฑ๊ณฑ์ด ๊ฐ€๋Šฅํ•œ LSSL

    • ์ƒํƒœ ๊ณต๊ฐ„ ์‹œ์Šคํ…œ๊ณผ ์ž„ํŽ„์Šค ์‘๋‹ต(Impulse Response) : ์ƒํƒœ ๊ณต๊ฐ„ ์‹œ์Šคํ…œ์€ ๊ธฐ๋ณธ์ ์œผ๋กœ ์—ฐ์† ์‹œ๊ฐ„ ๋˜๋Š” ๋ถˆ์—ฐ์† ์‹œ๊ฐ„ ์‹œ์Šคํ…œ์˜ ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์„ ์ƒํƒœ ๋ณ€์ˆ˜๋กœ ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. LSSL๋„ ์ด๋Ÿฌํ•œ ์ƒํƒœ ๊ณต๊ฐ„ ์‹œ์Šคํ…œ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜์—ฌ ์ž…๋ ฅ u(t)u(t)u(t)๋ฅผ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์ƒํƒœ x(t)x(t)x(t)์™€ ์ถœ๋ ฅ y(t)y(t)y(t)๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์ˆ˜ํ•™์ ์œผ๋กœ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ˜•ํƒœ์ž…๋‹ˆ๋‹ค:xห™(t)=Ax(t)+Bu(t)\dot{x}(t) = A x(t) + B u(t)xห™(t)=Ax(t)+Bu(t) y(t)=Cx(t)+Du(t)y(t) = C x(t) + D u(t)y(t)=Cx(t)+Du(t)
    • ์—ฌ๊ธฐ์„œ ์ž…๋ ฅ u(t)u(t)u(t)๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ ์‹œ์Šคํ…œ์ด ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์–ด๋–ป๊ฒŒ ๋ณ€ํ•˜๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ํ•จ์ˆ˜๊ฐ€ ์ž„ํŽ„์Šค ์‘๋‹ต ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค. ์ž„ํŽ„์Šค ์‘๋‹ต ํ•จ์ˆ˜๋Š” ์‹œ์Šคํ…œ์ด ํŠน์ • ์ž…๋ ฅ(์ฆ‰, ์ž„ํŽ„์Šค)์— ๋Œ€ํ•ด ์–ด๋–ป๊ฒŒ ๋ฐ˜์‘ํ•˜๋Š”์ง€๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

      ๐Ÿ’ฌ ์ž„ํŽ„์Šค ์‘๋‹ต ํ•จ์ˆ˜(Impulse Response Function, IRF)๋ž€ ?

      • ์ž„ํŽ„์Šค ์‘๋‹ต ํ•จ์ˆ˜(IRF)๋Š” ์‹œ์Šคํ…œ์ด๋‚˜ ์‹ ํ˜ธ ์ฒ˜๋ฆฌ์—์„œ ์ค‘์š”ํ•œ ๊ฐœ๋…์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์‹œ์Šคํ…œ์ด ๋‹จ์œ„ ์ž„ํŽ„์Šค ์ž…๋ ฅ์— ๋Œ€ํ•ด ์–ด๋–ป๊ฒŒ ๋ฐ˜์‘ํ•˜๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค.
      • ์ž„ํŽ„์Šค(impulse)๋Š” ๋ฌผ๋ฆฌํ•™์—์„œ ๋ฌผ์ฒด์— ์ž‘์šฉํ•˜๋Š” ํž˜์ด ์‹œ๊ฐ„์— ๊ฑธ์ณ ๋ณ€ํ™”ํ•˜๋Š” ๊ณผ์ •์„ ์„ค๋ช…ํ•˜๋Š” ๊ฐœ๋…์ž…๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ์ž„ํŽ„์Šค๋Š” ํž˜๊ณผ ์‹œ๊ฐ„์˜ ๊ณฑ์œผ๋กœ ์ •์˜๋˜๋ฉฐ, ๋ฌผ์ฒด์˜ ์šด๋™๋Ÿ‰ ๋ณ€ํ™”์™€ ๊ด€๋ จ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค: J=Fโ‹…ฮ”tJ = F \cdot \Delta tJ=Fโ‹…ฮ”t
  • ์ž„ํŽ„์Šค ์‘๋‹ต๊ณผ ํ•ฉ์„ฑ๊ณฑ ์—ฐ์‚ฐ : ์ž„ํŽ„์Šค ์‘๋‹ต ํ•จ์ˆ˜ h(t)h(t)h(t)๋Š” ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์—์„œ ์ถœ๋ ฅ์„ ๊ณ„์‚ฐํ•˜๋Š”๋ฐ ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ์ž„ํŽ„์Šค ์‘๋‹ต์„ ์•Œ๋ฉด ์ž…๋ ฅ ์‹ ํ˜ธ u(t)u(t)u(t)๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ ์‹œ์Šคํ…œ์˜ ์ถœ๋ ฅ์„ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ•ฉ์„ฑ๊ณฑ ์—ฐ์‚ฐ์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

    y(t)=(hโˆ—u)(t)=โˆซh(ฯ„)u(tโˆ’ฯ„)dฯ„y(t) = (h * u)(t) = \int h(\tau) u(t - \tau) d\tauy(t)=(hโˆ—u)(t)=โˆซh(ฯ„)u(tโˆ’ฯ„)dฯ„

  • ์ฆ‰, ์‹œ์Šคํ…œ์˜ ์ถœ๋ ฅ์€ ์ž…๋ ฅ ์‹ ํ˜ธ u(t)u(t)u(t)์™€ ์‹œ์Šคํ…œ์˜ ์ž„ํŽ„์Šค ์‘๋‹ต h(t)h(t)h(t)์˜ ํ•ฉ์„ฑ๊ณฑ์œผ๋กœ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ํ•ฉ์„ฑ๊ณฑ ์—ฐ์‚ฐ์ด ์ค‘์š”ํ•œ ์ด์œ ๋Š”, ์ž„ํŽ„์Šค ์‘๋‹ต ํ•จ์ˆ˜๊ฐ€ ์‹œ์Šคํ…œ์˜ ์‹œ๊ฐ„์  ํŠน์„ฑ์„ ๊ฒฐ์ •ํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๊ณผ๊ฑฐ์˜ ์ž…๋ ฅ๋“ค์ด ํ˜„์žฌ์˜ ์ถœ๋ ฅ์„ ์–ด๋–ป๊ฒŒ ๊ฒฐ์ •ํ•˜๋Š”์ง€๋ฅผ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.
  • LSSL์—์„œ ํ•ฉ์„ฑ๊ณฑ์˜ ์—ญํ•  : LSSL์€ ์ƒํƒœ ๊ณต๊ฐ„ ์‹œ์Šคํ…œ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜์ง€๋งŒ, ์ด๋ฅผ ์ด์‚ฐํ™”(Discretization)ํ•˜์—ฌ ํ•ฉ์„ฑ๊ณฑ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

    • ์ด์‚ฐํ™”๋œ ์‹œ์Šคํ…œ์€ ์‹ค์ œ๋กœ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์ž…๋ ฅ์ด ์–ด๋–ป๊ฒŒ ๋ณ€ํ•˜๋Š”์ง€๋ฅผ ๊ณ„์‚ฐํ•  ๋•Œ, ์ž„ํŽ„์Šค ์‘๋‹ต ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•ฉ์„ฑ๊ณฑ ํ•„ํ„ฐ๋กœ ๋ณ€ํ™˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ์ฆ‰, ์ƒํƒœ ๊ณต๊ฐ„ ์‹œ์Šคํ…œ์„ ํ†ตํ•ด ์ •์˜๋œ ์‹œ์Šคํ…œ์˜ ์‘๋‹ต์„ ํ•ฉ์„ฑ๊ณฑ ํ•„ํ„ฐ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค.

โ‘ก LSSL์˜ RNN๊ณผ์˜ ๊ด€๊ณ„

  • RNN์€ ์ž…๋ ฅ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ, ์ด์ „ ์‹œ๊ฐ„์˜ ์ƒํƒœ htโˆ’1h_{t-1}htโˆ’1โ€‹๋ฅผ ํ˜„์žฌ ์ƒํƒœ hth_thtโ€‹์— ์ „๋‹ฌํ•จ์œผ๋กœ์จ ์‹œ๊ฐ„์  ์ข…์†์„ฑ์„ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค.

    • ์ฆ‰, RNN์€ ์ด์ „ ํƒ€์ž„์Šคํ…์˜ ์ •๋ณด๋ฅผ ๋‹ค์Œ ํƒ€์ž„์Šคํ…์œผ๋กœ ์ „๋‹ฌํ•˜๋ฉด์„œ ์ƒํƒœ๋ฅผ ๊ฐฑ์‹ ํ•˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด ๊ธด ์‹œํ€€์Šค์˜ ์ •๋ณด๋ฅผ ์ถ”์ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ˆ˜ํ•™์ ์œผ๋กœ RNN์˜ ์ƒํƒœ ๊ฐฑ์‹  ๋ฐฉ์ •์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค:ht=ฯƒ(Whhtโˆ’1+Wxxt)h_t = \sigma(W_h h_{t-1} + W_x x_t)htโ€‹=ฯƒ(Whโ€‹htโˆ’1โ€‹+Wxโ€‹xtโ€‹)
    • LSSL๋„ RNN์ฒ˜๋Ÿผ ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ์ƒํƒœ ๊ฐฑ์‹ ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. LSSL์˜ ์ƒํƒœ ๊ฐฑ์‹  ๋ฐฉ์ •์‹์€ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์— ๊ธฐ๋ฐ˜ํ•œ ๋ฏธ๋ถ„ ๋ฐฉ์ •์‹์œผ๋กœ ์ •์˜๋˜๋Š”๋ฐ, ์ด๋ฅผ ์ด์‚ฐํ™”ํ•˜๋ฉด RNN๊ณผ ์œ ์‚ฌํ•œ ๊ตฌ์กฐ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.

    hโ€ฒ(t)=Ah(t)+Bx(t)hโ€™(t) = Ah(t) + Bx(t)hโ€ฒ(t)=Ah(t)+Bx(t)

    y(t)=Ch(t)+Dx(t)y(t) = Ch(t) + Dx(t)y(t)=Ch(t)+Dx(t)

    โ†“ ์ด์‚ฐํ™” ์ˆ˜ํ–‰

    hk+1=Aห‰hk+Bห‰xkh_{k+1} = \bar{A}h_k + \bar{B}x_khk+1โ€‹=Aห‰hkโ€‹+Bห‰xkโ€‹

    yk=Chk+Dxky_k = Ch_k + Dx_kykโ€‹=Chkโ€‹+Dxkโ€‹

    • ๋˜ํ•œ, RNN์€ ์œ„์™€ ๊ฐ™์€ ์ƒํƒœ ๊ฐฑ์‹  ๊ณผ์ •์—์„œ ๊ฒŒ์ดํŒ… ๋ฉ”์ปค๋‹ˆ์ฆ˜(Gating Mechanism)์„ ํ†ตํ•ด ๊ฐ ํƒ€์ž„์Šคํ…์—์„œ ์ •๋ณด๋ฅผ ์–ผ๋งˆ๋‚˜ ์ „๋‹ฌํ• ์ง€ ์กฐ์ ˆํ•ฉ๋‹ˆ๋‹ค. LSTM์ด๋‚˜ GRU์—์„œ์˜ ๊ฒŒ์ดํŒ… ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ RNN์ด ๊ฐ ํƒ€์ž„์Šคํ…์—์„œ ์ •๋ณด์˜ ํ๋ฆ„์„ ์กฐ์ ˆํ•˜๋Š” ์ค‘์š”ํ•œ ์š”์†Œ์ž…๋‹ˆ๋‹ค.
    • ์ด ๊ฒŒ์ดํŒ… ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ์‚ฌ์‹ค์ƒ ์‹œ๊ฐ„ ์ฒ™๋„(Time-scale)๋ฅผ ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ํ•˜์—ฌ ๊ฐ ์Šคํ…์—์„œ์˜ ์ƒํƒœ ๋ณ€ํ™”๊ฐ€ ๋„ˆ๋ฌด ๊ธ‰๊ฒฉํ•˜์ง€ ์•Š๊ฒŒ ๋งŒ๋“œ๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, LSTM์˜ Forget Gate๋Š” ์ด์ „ ์ƒํƒœ๋ฅผ ์–ผ๋งˆ๋‚˜ ๊ธฐ์–ตํ• ์ง€ ์กฐ์ ˆํ•˜๋Š”๋ฐ, ์ด๋Š” ์ผ์ •ํ•œ ์‹œ๊ฐ„ ์ฒ™๋„์—์„œ์˜ ๋ณ€ํ™”๋ฅผ ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

    • LSSL์—์„œ๋„ ฮ”t\Delta tฮ”t๋ผ๋Š” ์‹œ๊ฐ„ ๊ฐ„๊ฒฉ(Time-step)์ด ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ์ด ์‹œ๊ฐ„ ๊ฐ„๊ฒฉ์€ ๊ฐ ํƒ€์ž„์Šคํ… ๊ฐ„์˜ ์ƒํƒœ ๋ณ€ํ™”๋ฅผ ๊ฒฐ์ •ํ•˜๋ฉฐ, ์ด๋Š” RNN์—์„œ ๊ฒŒ์ดํŒ… ๋ฉ”์ปค๋‹ˆ์ฆ˜๊ณผ ๋งค์šฐ ์œ ์‚ฌํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

      • ์ฆ‰, LSSL์˜ ์‹œ๊ฐ„ ์ฒ™๋„๋Š” RNN์˜ ๊ฒŒ์ดํŒ… ๋ฉ”์ปค๋‹ˆ์ฆ˜๊ณผ ๋ณธ์งˆ์ ์œผ๋กœ ๊ฐ™์€ ๊ฐœ๋…์œผ๋กœ, ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ๋ณ€ํ™”๋Ÿ‰์„ ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ์กฐ์ ˆํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

โ‘ข Deep LSSL

  • LSSL์„ ํ•˜๋‚˜์˜ ๋ ˆ์ด์–ด๋กœ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ  ์—ฌ๋Ÿฌ ๋ ˆ์ด์–ด๋กœ ์Œ“์•„์„œ ๋ณด๋‹ค ๊นŠ์€ ๋„คํŠธ์›Œํฌ๋กœ ํ™•์žฅํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ตฌ์กฐ๋Š” ํŠนํžˆ ๋น„์„ ํ˜• ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.

    • ๊ธฐ๋ณธ LSSL ๊ตฌ์กฐ : LSSL์€ RLโ†’RL\mathbb{R}^L \to \mathbb{R}^LRLโ†’RL seq-to-seq ๋งคํ•‘์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, ๊ฐ๊ฐ์˜ LSSL ๋ ˆ์ด์–ด๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ A,B,C,DA, B, C, DA,B,C,D์™€ ์‹œ๊ฐ„ ๊ฐ„๊ฒฉ ฮ”t\Delta tฮ”t๋กœ ์ •์˜๋ฉ๋‹ˆ๋‹ค. ์ž…๋ ฅ ์‹œํ€€์Šค๋Š” H ์ฐจ์›์˜ ํ”ผ์ฒ˜๋กœ ์ฒ˜๋ฆฌ๋˜๋ฉฐ, ๊ฐ ํ”ผ์ฒ˜๊ฐ€ ๋…๋ฆฝ์ ์œผ๋กœ ํ•™์Šต๋ฉ๋‹ˆ๋‹ค.
    • Layer Stacking : Deep LSSL์€ ์—ฌ๋Ÿฌ LSSL ๋ ˆ์ด์–ด๋ฅผ ์Œ“์•„์„œ ๋” ๋ณต์žกํ•œ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ๋ ˆ์ด์–ด๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ์ƒํƒœ ๊ณต๊ฐ„ ํŒŒ๋ผ๋ฏธํ„ฐ์™€ ์‹œ๊ฐ„ ๊ฐ„๊ฒฉ์„ ํ•™์Šตํ•˜์—ฌ, ๋‹ค์ฐจ์›์ ์ธ ์‹œ๊ฐ„ ์ฒ™๋„์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
    • Residual Connections : ResNet๊ณผ ๊ฐ™์€ Residual Connections์„ ์‚ฌ์šฉํ•˜์—ฌ ๋”ฅ๋Ÿฌ๋‹ ๋„คํŠธ์›Œํฌ์—์„œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ๋ ˆ์ด์–ด์˜ ์ถœ๋ ฅ์„ ๋‹ค์Œ ๋ ˆ์ด์–ด๋กœ ์ง์ ‘ ์ „๋‹ฌํ•จ์œผ๋กœ์จ ์ •๋ณด๊ฐ€ ์‚ฌ๋ผ์ง€์ง€ ์•Š๊ฒŒ ์œ ์ง€ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
    • Normalization : LSSL์˜ ๋ ˆ์ด์–ด๊ฐ€ ๊นŠ์–ด์งˆ์ˆ˜๋ก Layer Normalization์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋ ˆ์ด์–ด๊ฐ€ ์Œ“์ผ ๋•Œ ๋ฐœ์ƒํ•˜๋Š” ๋‚ด๋ถ€ ๊ณต๋ณ€๋Ÿ‰ ๋ณ€ํ™”(Internal Covariate Shift)๋ฅผ ์ค„์—ฌ์ฃผ์–ด, ํ•™์Šต ์†๋„๋ฅผ ๋†’์ด๊ณ  ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค.

Appendix B.1 (M) LSSL Computation

  • LSSL์˜ ๊ณ„์‚ฐ์€ ์‹œ๊ฐ„์ด ๋งŽ์ด ๊ฑธ๋ฆด ์ˆ˜ ์žˆ์ง€๋งŒ, ์ผ๋ถ€ ๊ณ„์‚ฐ์„ ์บ์‹ฑํ•จ์œผ๋กœ์จ ํšจ์œจ์„ฑ์„ ๋†’์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, ํ›ˆ๋ จ๋˜์ง€ ์•Š์€ AAA์™€ ฮ”t\Delta tฮ”t ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ณ ์ •ํ•  ๊ฒฝ์šฐ ์บ์‹ฑ์„ ํ†ตํ•ด ๊ณ„์‚ฐ ํšจ์œจ์„ ๊ทน๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ์ „์ด ํ–‰๋ ฌ(Transition Matrix): ์ƒํƒœ ์ „์ด ํ–‰๋ ฌ Aห‰\bar{A}Aห‰๋Š” ๋ธ”๋ž™๋ฐ•์Šค ๋งคํŠธ๋ฆญ์Šค-๋ฒกํ„ฐ ๊ณฑ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ณ„์‚ฐ๋˜๋ฉฐ, ์ด๋ฅผ ์บ์‹ฑํ•ด ๋‘ ์œผ๋กœ์จ ์—ฐ์‚ฐ์„ ๋ฐ˜๋ณตํ•˜์ง€ ์•Š์•„๋„ ๋ฉ๋‹ˆ๋‹ค.
    • ํฌ๋ฆด๋กœํ”„ ํ–‰๋ ฌ(Krylov Matrix): ํฌ๋ฆด๋กœํ”„ ํ–‰๋ ฌ์€ ์ž…๋ ฅ๊ณผ ์ƒํƒœ ์ „์ด ํ–‰๋ ฌ AAA, ๊ทธ๋ฆฌ๊ณ  BBB ํ–‰๋ ฌ์„ ํ†ตํ•ด ๊ณ„์‚ฐ๋˜๋ฉฐ, ์ด ๊ณ„์‚ฐ์€ ๋ณ‘๋ ฌํ™”๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ œ๊ณฑ ์—ฐ์‚ฐ ๋ฐ ์ง€์ˆ˜ํ™”๋ฅผ ํ†ตํ•ด ํšจ์œจ์ ์œผ๋กœ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ตœ์ข…์ ์œผ๋กœ ์ด ํฌ๋ฆด๋กœํ”„ ํ–‰๋ ฌ์€ (AkB)(A^k B)(AkB)์˜ ํ˜•ํƒœ๋กœ ์บ์‹ฑ๋˜์–ด ํ•ฉ์„ฑ๊ณฑ ์—ฐ์‚ฐ ์ „์— ์ €์žฅ๋ฉ๋‹ˆ๋‹ค.
    • ๋ณต์žก๋„: ์บ์‹ฑ์„ ์‚ฌ์šฉํ•œ ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๊ณ„์‚ฐ ๋ณต์žก๋„๊ฐ€ O(NL)O(NL)O(NL)๋กœ ์ค„์–ด๋“ค์ง€๋งŒ, ์ด๋ฅผ ์บ์‹ฑํ•˜๊ธฐ ์œ„ํ•œ ์ถ”๊ฐ€์ ์ธ ๋ฉ”๋ชจ๋ฆฌ ๊ณต๊ฐ„์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ถ€๋ถ„์€ ํ›ˆ๋ จ ์‹œ ๋ชจ๋ธ์˜ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, inference ์‹œ์—๋Š” ๋” ๋งŽ์€ ๊ณ„์‚ฐ์ด ์š”๊ตฌ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Appendix B.2 Initialization of AAA

  • ํŒŒ๋ผ๋ฏธํ„ฐ AAA๋Š” HiPPO-LegS ์—ฐ์‚ฐ์ž๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ดˆ๊ธฐํ™”๋ฉ๋‹ˆ๋‹ค. HiPPO-LegS๋Š” ์—ฐ์† ์‹œ๊ฐ„ ๋ฉ”๋ชจ๋ฆฌํ™” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์„ค๊ณ„๋œ ์—ฐ์‚ฐ์ž๋กœ, ์ƒํƒœ ๊ณต๊ฐ„ ์‹œ์Šคํ…œ์—์„œ ๊ธด ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ค๋‹ˆ๋‹ค.
  • AAA๋Š” ํŠน์ • ๊ทœ์น™์— ๋”ฐ๋ผ ๋Œ€๊ฐ ํ–‰๋ ฌ์„ ๊ตฌ์„ฑํ•˜๋Š”๋ฐ, AAA์˜ ์ดˆ๊ธฐ๊ฐ’์€ ์•„๋ž˜์™€ ๊ฐ™์ด ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค:

    Ank={(2n+1)1/2/(2k+1)1/2ifย nโ‰ฅkn+1ifย n=k0ifย n<kA_{nk} = \begin{cases} (2n + 1)^{1/2}/(2k + 1)^{1/2} & \text{if } n \geq k \ n + 1 & \text{if } n = k \ 0 & \text{if } n < k \end{cases}Ankโ€‹=โŽฉโŽชโŽชโŽจโŽชโŽชโŽงโ€‹(2n+1)1/2/(2k+1)1/2n+10โ€‹ifย nโ‰ฅkifย n=kifย n<kโ€‹

  • ์ด ์ดˆ๊ธฐํ™” ๋ฐฉ์‹์€ LSSL์˜ ์ƒํƒœ ์ „์ด๊ฐ€ HiPPO ์—ฐ์‚ฐ์— ๋งž์ถ”์–ด ์ตœ์ ํ™”๋˜๋„๋ก ํ•˜๋ฉฐ, ๊ธด ์‹œํ€€์Šค ๋ฉ”๋ชจ๋ฆฌํ™” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ค๋‹ˆ๋‹ค.

Appendix B.3 Initialization of ฮ”t\Delta tฮ”t

  • LSSL์—์„œ ฮ”t\Delta tฮ”t๋Š” ๊ฐ ๋ ˆ์ด์–ด์—์„œ ์ƒํƒœ ๊ณต๊ฐ„ ์‹œ์Šคํ…œ์˜ ์‹œ๊ฐ„ ๊ฐ„๊ฒฉ(Time-step)์„ ์กฐ์ ˆํ•˜๋Š” ์ค‘์š”ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ์ž…๋‹ˆ๋‹ค. ฮ”t\Delta tฮ”t๋Š” ๋กœ๊ทธ ๊ท ๋“ฑ ๋ถ„ํฌ(log-uniform distribution)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ดˆ๊ธฐํ™”๋˜๋ฉฐ, ์ด๋Š” ์‹œ๊ฐ„ ์ฒ™๋„ ฮ”t\Delta tฮ”t๋ฅผ ๋‹ค์–‘ํ•˜๊ฒŒ ์„ค์ •ํ•จ์œผ๋กœ์จ ์—ฌ๋Ÿฌ ์‹œ๊ฐ„ ์ฒ™๋„๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.
    • ์ตœ์†Œ ์‹œ๊ฐ„ ๊ฐ„๊ฒฉ ฮ”tmin\Delta t_{min}ฮ”tminโ€‹์™€ ์ตœ๋Œ€ ์‹œ๊ฐ„ ๊ฐ„๊ฒฉ ฮ”tmax\Delta t_{max}ฮ”tmaxโ€‹๋ฅผ ์„ค์ •ํ•˜์—ฌ, ๋ฐ์ดํ„ฐ์˜ ์‹œํ€€์Šค ๊ธธ์ด์— ๋งž๊ฒŒ ์‹œ๊ฐ„ ๊ฐ„๊ฒฉ์„ ์ดˆ๊ธฐํ™”ํ•ฉ๋‹ˆ๋‹ค.
    • ์ด ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ์˜ ๊ธธ์ด์™€ ๋ฐ์ดํ„ฐ์…‹๋งˆ๋‹ค ๋‹ค๋ฅด๊ฒŒ ์„ค์ •๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ์‹œ๊ฐ„ ์ฒ™๋„์— ๋Œ€ํ•ด ๋ชจ๋ธ์ด ์ ์‘ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

Combining LSSLs with Continuous-time Memorization

๊ธฐ๋ณธ LSSL์€ ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ์žˆ์–ด ๋‘ ๊ฐ€์ง€ ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค: (1) ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ์™€ (2) ์—ฐ์‚ฐ ๋ณต์žก๋„ ๋ฌธ์ œ

  • 4.1 Incorporating Long Dependencies into LSSLs (๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ):
    • ๋ฌธ์ œ: ์ƒํƒœ ์ „์ด ํ–‰๋ ฌ AAA๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์„ค์ •ํ•˜๊ฑฐ๋‚˜ ์ ์ ˆํ•˜๊ฒŒ ์„ค๊ณ„ํ•˜์ง€ ์•Š์œผ๋ฉด, ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋„คํŠธ์›Œํฌ๊ฐ€ ๊ธด ์‹œ๊ฐ„ ๋™์•ˆ ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ์œ ์ง€ํ•˜์ง€ ๋ชปํ•˜๋Š” ๋ฌธ์ œ๋กœ, ํŠนํžˆ LSSL์ด RNN๊ณผ ๊ฐ™์€ ์ˆœํ™˜ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
      • LSSL์€ ๊ธด ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๊ตฌ์กฐ๋ฅผ ๊ฐ–์ถ”๊ณ  ์žˆ์ง€๋งŒ, ๋ฌด์ž‘์œ„(random initialized) ์ƒํƒœ ํ–‰๋ ฌ AAA๋ฅผ ์‚ฌ์šฉํ•  ๊ฒฝ์šฐ ํšจ๊ณผ๊ฐ€ ํฌ์ง€ ์•Š์Œ์„ ๊ฒฝํ—˜์ ์œผ๋กœ ํ™•์ธํ•˜์˜€์Šต๋‹ˆ๋‹ค. (์‹คํ—˜์ ์œผ๋กœ ํ™•์ธํ•จ)
    • ํ•ด๊ฒฐ์ฑ…: ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด HiPPO ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ ์šฉํ•˜์—ฌ, ์ ์ ˆํ•œ ์ƒํƒœ ์ „์ด ํ–‰๋ ฌ AAA๋ฅผ ์„ค๊ณ„ํ•ฉ๋‹ˆ๋‹ค. HiPPO๋Š” ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ์ž˜ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์„ ์ตœ์ ํ™”ํ•˜์—ฌ ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•ฉ๋‹ˆ๋‹ค.
  • 4.2 Theoretically Efficient Algorithms for the LSSL (์—ฐ์‚ฐ ๋ณต์žก๋„ ๋ฌธ์ œ):
    • ๋ฌธ์ œ: LSSL์€ ์ƒํƒœ ์ „์ด ํ–‰๋ ฌ AAA์™€ ๋ฒกํ„ฐ์˜ ๊ณฑ์…ˆ(Matrix-Vector Multiplication, MVM)์ด๋‚˜ Krylov ๊ณต๊ฐ„์—์„œ์˜ ํ•ฉ์„ฑ๊ณฑ ์—ฐ์‚ฐ์ด ํฌํ•จ๋˜๋Š”๋ฐ, ์ด ์—ฐ์‚ฐ๋“ค์ด ๋งค์šฐ ๋ณต์žกํ•˜๊ณ  ์‹œ๊ฐ„์ด ๋งŽ์ด ๊ฑธ๋ฆด ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ์—ฐ์‚ฐ ๋ณต์žก๋„๊ฐ€ ์ปค์ง€๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ํ•ด๊ฒฐ์ฑ…: ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Quasiseparable ํ–‰๋ ฌ์„ ์‚ฌ์šฉํ•˜์—ฌ, ์ƒํƒœ ์ „์ด ํ–‰๋ ฌ์˜ ํŠน์„ฑ์„ ํ™œ์šฉํ•œ ํšจ์œจ์ ์ธ ๊ณ„์‚ฐ ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. Quasiseparable ํ–‰๋ ฌ์€ ์„ ํ˜• ์‹œ๊ฐ„ ๋ณต์žก๋„๋กœ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, Krylov ๊ณต๊ฐ„์—์„œ์˜ ์—ฐ์‚ฐ์„ ๋” ๋น ๋ฅด๊ณ  ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค.

Empirical Evaluation

  • 5.1 Image and Time Series Benchmarks: ์‹œ๊ณ„์—ด ์ด๋ฏธ์ง€์™€ ๊ฐ™์€ ๋ฐ์ดํ„ฐ์…‹์—์„œ LSSL์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•œ ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์—๋Š” sMNIST, pMNIST, sCIFAR์™€ ๊ฐ™์€ ์œ ๋ช…ํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ์˜ ์„ฑ๋Šฅ ๋น„๊ต๊ฐ€ ํฌํ•จ๋ฉ๋‹ˆ๋‹ค.
  • 5.2 Speech and Image Classification for Very Long Time Series: ๋งค์šฐ ๊ธด ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ์Œ์„ฑ ๋ฐ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ๋ฌธ์ œ์—์„œ LSSL์ด ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋‹ค ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค๋Š” ์ ์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.
  • 5.3 Advantages of Recurrent, Convolutional, and Continuous-time Models: ์žฌ๊ท€์ , ์ปจ๋ณผ๋ฃจ์…˜, ์—ฐ์†-์‹œ๊ฐ„ ๋ชจ๋ธ์˜ ์žฅ์ ์„ ๋ชจ๋‘ ๊ฐ–์ถ˜ LSSL์˜ ์žฅ์ ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.
  • 5.4 LSSL Ablations: Learning the Memory Dynamics and Timescale: LSSL์ด ์‹œํ€€์Šค์˜ ์‹œ๊ฐ„ ์Šค์ผ€์ผ์„ ์ž๋™์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ๋ถ„์„ํ•˜๊ณ , ๋ฉ”๋ชจ๋ฆฌ ๋™๋ ฅํ•™์„ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•œ ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.


  1. S4: Efficiently Modeling Long Sequences with Structured State Spaces (ICLR, 2022)

Introduction

  • ์ด ์„น์…˜์—์„œ๋Š” ์ˆœ์ฐจ ๋ฐ์ดํ„ฐ(sequence data) ๋ชจ๋ธ๋ง์˜ ์ฃผ์š” ๊ณผ์ œ์ธ ์žฅ๊ธฐ ์ข…์†์„ฑ(long-range dependencies) ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋ฉฐ ๊ธฐ์กด์˜ ๋ชจ๋ธ(RNN, CNN, Transformer ๋“ฑ)์ด ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ์žˆ์–ด ๊ฒช๋Š” ๋ฌธ์ œ์ ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

    • RNNs (Recurrent Neural Networks): RNN ๊ณ„์—ด ๋ชจ๋ธ์€ ๋ณธ๋ž˜ ์ˆœ์ฐจ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•ด ๊ฐœ๋ฐœ๋˜์—ˆ์œผ๋‚˜, vanishing gradient(๊ธฐ์šธ๊ธฐ ์†Œ์‹ค) ๋ฌธ์ œ๋กœ ์ธํ•ด ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
    • CNNs (Convolutional Neural Networks): CNN์€ ์‹œํ€€์Šค ๊ธธ์ด๋ฅผ ํ™•์žฅํ•˜๊ธฐ ์œ„ํ•ด dilated convolutions(ํ™•์žฅ๋œ ์ปจ๋ณผ๋ฃจ์…˜) ๋“ฑ์„ ๋„์ž…ํ–ˆ์œผ๋‚˜ ์—ฌ์ „ํžˆ ๊ธด ์‹œํ€€์Šค ์ฒ˜๋ฆฌ์—์„œ ์„ฑ๋Šฅ์ด ์ €ํ•˜๋ฉ๋‹ˆ๋‹ค.
    • Transformers: Transformers ๋ชจ๋ธ์€ ๋Œ€๊ทœ๋ชจ ์‹œํ€€์Šค ์ฒ˜๋ฆฌ์— ๋„๋ฆฌ ์‚ฌ์šฉ๋˜์ง€๋งŒ, quadratic scaling(์‹œํ€€์Šค ๊ธธ์ด์— ๋”ฐ๋ฅธ ์—ฐ์‚ฐ ๋ณต์žก๋„๊ฐ€ ์ œ๊ณฑ์— ๋น„๋ก€) ๋ฌธ์ œ๋กœ ์ธํ•ด ๋งค์šฐ ๊ธด ์‹œํ€€์Šค์—์„œ๋Š” ๋น„ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค.
  • ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์œผ๋กœ ์ตœ๊ทผ ์—ฐ๊ตฌ์—์„œ๋Š” ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(SSM)์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ์ ‘๊ทผ๋ฒ•์ด ์ œ์•ˆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. SSM์€ ์ œ์–ด ์ด๋ก  ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ์˜ค๋ž˜์ „๋ถ€ํ„ฐ ์‚ฌ์šฉ๋˜์–ด ์˜จ ๋ชจ๋ธ๋กœ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋ณ€ํ™”ํ•˜๋Š” ์ƒํƒœ๋ฅผ ํ‘œํ˜„ํ•˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด ์žฅ๊ธฐ์ ์ธ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ธฐ์กด SSM์„ ๋”ฅ๋Ÿฌ๋‹์— ์ ์šฉํ•˜๋Š” ๋ฐ๋Š” ๊ณ„์‚ฐ ๋น„์šฉ๊ณผ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์ด ๋งค์šฐ ํฌ๋‹ค๋Š” ํ•œ๊ณ„์— ๋ด‰์ฐฉํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด S4(Structured State Spaces) ๋ชจ๋ธ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์˜ ์ˆ˜ํ•™์  ๊ฐ•์ ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„, ์ด๋ฅผ ๋” ํšจ์œจ์ ์œผ๋กœ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

    • S4๋Š” ์ƒํƒœ ํ–‰๋ ฌ A๋ฅผ ์ €๋žญํฌ(low-rank)์™€ ์ •๊ทœ ํ–‰๋ ฌ(normal matrix)๋กœ ๋ถ„ํ•ดํ•˜์—ฌ ๊ณ„์‚ฐ์˜ ์•ˆ์ •์„ฑ๊ณผ ํšจ์œจ์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค.
    • ํŠนํžˆ S4๋Š” Cauchy kernel์„ ์‚ฌ์šฉํ•˜์—ฌ ํšจ์œจ์ ์ธ ๊ณ„์‚ฐ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋ฉฐ, ์ด๋กœ ์ธํ•ด ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ์—ฐ์‚ฐ๋Ÿ‰๊ณผ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ํฌ๊ฒŒ ์ค„์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • Figure 1 ์„ค๋ช…

    1. (์™ผ์ชฝ) ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ: ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์€ ์ž…๋ ฅ ์‹ ํ˜ธ u(t)u(t)u(t)๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ์ด๋ฅผ ์€๋‹‰ ์ƒํƒœ x(t)x(t)x(t)๋กœ ๋ณ€ํ™˜ํ•œ ๋’ค, ์ตœ์ข…์ ์œผ๋กœ ์ถœ๋ ฅ y(t)y(t)y(t)๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค.

      • ์ƒํƒœ ๋ณ€ํ™˜์€ ์ƒํƒœ ํ–‰๋ ฌ AAA, ์ž…๋ ฅ ํ–‰๋ ฌ BBB, ์ถœ๋ ฅ ํ–‰๋ ฌ CCC, ๊ทธ๋ฆฌ๊ณ  ์Šคํ‚ต ์—ฐ๊ฒฐ์„ ๋‹ด๋‹นํ•˜๋Š” ํ–‰๋ ฌ DDD์— ์˜ํ•ด ์ •์˜๋ฉ๋‹ˆ๋‹ค.
      • ์ด ๋ชจ๋ธ์€ ์ œ์–ด ์ด๋ก ๊ณผ ๊ณ„์‚ฐ ์‹ ๊ฒฝ๊ณผํ•™์—์„œ ๊ด‘๋ฒ”์œ„ํ•˜๊ฒŒ ์‚ฌ์šฉ๋˜๋ฉฐ, ํŠนํžˆ ์—ฐ์† ์‹œ๊ฐ„ ์‹œ์Šคํ…œ์„ ๋ชจ๋ธ๋งํ•˜๋Š” ๋ฐ ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
    2. (์ค‘์•™) ์—ฐ์† ์‹œ๊ฐ„ ๋ฉ”๋ชจ๋ฆฌ ์ด๋ก : ์ตœ๊ทผ ์—ฐ๊ตฌ์—์„œ๋Š” ํŠน์ • ํ–‰๋ ฌ AAA๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด SSM์ด ์žฅ๊ธฐ ์ข…์†์„ฑ(Long-Range Dependencies, LRDs)์„ ์ˆ˜ํ•™์ ์œผ๋กœ๋‚˜ ์‹คํ—˜์ ์œผ๋กœ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. (์ด์ „ ์—ฐ๊ตฌ)

      • ์ด๋Ÿฌํ•œ ํ–‰๋ ฌ์€ HiPPO๋ผ๋Š” ์ด๋ก ์—์„œ ์œ ๋„๋œ ํŠน๋ณ„ํ•œ ํ–‰๋ ฌ๋กœ, ์ž…๋ ฅ์˜ ๊ธด ์ด๋ ฅ์„ ๊ธฐ์–ตํ•˜๋Š” ๋ฐ ์ตœ์ ํ™”๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.
    3. (์˜ค๋ฅธ์ชฝ) ์žฌ๊ท€ ๋ฐ ์ปจ๋ณผ๋ฃจ์…˜ ํ‘œํ˜„: SSM์€ ๋‘ ๊ฐ€์ง€ ๋ฐฉ์‹์œผ๋กœ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์žฌ๊ท€์  ๋ฐฉ์‹๊ณผ ์ปจ๋ณผ๋ฃจ์…˜ ๋ฐฉ์‹.

      • ์žฌ๊ท€์  ๋ฐฉ์‹์€ RNN์ฒ˜๋Ÿผ ์ˆœ์ฐจ์ ์œผ๋กœ ๊ณ„์‚ฐ๋˜๋ฉฐ, ์ปจ๋ณผ๋ฃจ์…˜ ๋ฐฉ์‹์€ ๋ณ‘๋ ฌํ™”๊ฐ€ ๊ฐ€๋Šฅํ•ด ๋” ๋น ๋ฅธ ์—ฐ์‚ฐ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
      • S4๋Š” ์ด๋Ÿฌํ•œ ์„œ๋กœ ๋‹ค๋ฅธ ํ‘œํ˜„ ๊ฐ„์˜ ๋ณ€ํ™˜์„ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ์ž‘์—…์— ์ ํ•ฉํ•œ ๋ฐฉ์‹์œผ๋กœ ํšจ์œจ์ ์ธ ํ•™์Šต๊ณผ ์ถ”๋ก ์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.

Method: Structured State Spaces (S4)

  • 3.1 ๋™๊ธฐ: ๋Œ€๊ฐํ™” (Motivation: Diagonalization)

    • ๋ฌธ์ œ ์ •์˜ : ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(SSM)์˜ ์ค‘์š”ํ•œ ๋ฌธ์ œ๋Š”, ์ƒํƒœ ๊ณต๊ฐ„์˜ ํฌ๊ธฐ๊ฐ€ ์ปค์ง์— ๋”ฐ๋ผ ์—ฐ์‚ฐ ๋ณต์žก๋„๊ฐ€ ์ฆ๊ฐ€ํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, HiPPO ํ–‰๋ ฌ AAA๋ฅผ ์—ฌ๋Ÿฌ ๋ฒˆ ๊ณฑํ•˜๋Š” ์—ฐ์‚ฐ์ด ๋ณต์žก๋„๋ฅผ ์ฆ๊ฐ€์‹œํ‚ค๋Š” ์ฃผ ์›์ธ์ž…๋‹ˆ๋‹ค. (โˆต์ƒํƒœ ์—…๋ฐ์ดํŠธ๋ฅผ ์œ„ํ•ด์„œ๋Š” A๋ฅผ ์—ฌ๋Ÿฌ๋ฒˆ ๊ณฑํ•ด์•ผํ•จ)
      • ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์—์„œ AAA๋Š” ์ƒํƒœ ๊ฐฑ์‹ ์„ ๋‹ด๋‹นํ•˜๋Š” ํ•ต์‹ฌ ํ–‰๋ ฌ์ด๋ฉฐ, ์ด๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์—ฐ์‚ฐ์€ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ผ์–ด๋‚ฉ๋‹ˆ๋‹ค. AAA๋ฅผ ์ง์ ‘ ๊ณ„์‚ฐํ•˜๋ฉด O(N2L)O(N^2L)O(N2L)์— ๋‹ฌํ•˜๋Š” ์—ฐ์‚ฐ๋Ÿ‰๊ณผ O(NL)O(NL)O(NL)์˜ ๋ฉ”๋ชจ๋ฆฌ ๊ณต๊ฐ„์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ํŠนํžˆ ๋Œ€๊ทœ๋ชจ ์‹œํ€€์Šค ๋ชจ๋ธ๋ง์—์„œ ๋ณ‘๋ชฉ์ด ๋ฉ๋‹ˆ๋‹ค.

        ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์ผค๋ ˆ(conjugation)๋ผ๋Š” ์ˆ˜ํ•™์  ๊ธฐ๋ฒ•์„ ๋„์ž…ํ•˜์—ฌ ์—ฐ์‚ฐ์„ ๋‹จ์ˆœํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • Lemma 3.1: ์ผค๋ ˆ ๊ด€๊ณ„ : ์ด ๋ ˆ๋งˆ์—์„œ๋Š” ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(SSM)์˜ ํ–‰๋ ฌ AAA, BBB, CCC์— ์ผค๋ ˆ ๋ณ€ํ™˜ ์„ ์ ์šฉํ•˜๋ฉด ๋™์ผํ•œ ๋ชจ๋ธ์„ ์–ป์„ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด ๋ง์€, ๋‘ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์ด ์„œ๋กœ ๋™์ผํ•œ ์ •๋ณด๋ฅผ ํ‘œํ˜„ํ•˜๊ณ  ์žˆ์ง€๋งŒ ๋‹ค๋ฅธ ์ขŒํ‘œ๊ณ„์—์„œ ํ‘œํ˜„๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์‹œ์Šคํ…œ์˜ ๋ณต์žกํ•œ ๊ณ„์‚ฐ์„ ๋” ๋‹จ์ˆœํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

    ์ผค๋ ˆ ๋ณ€ํ™˜์ด๋ž€?

    • ์„ ํ˜•๋Œ€์ˆ˜ํ•™์—์„œ ์ผค๋ ˆ ๋ณ€ํ™˜(conjugate transformation)์€ ๋ณต์†Œ์ˆ˜ ํ–‰๋ ฌ์ด๋‚˜ ๋ฒกํ„ฐ์— ์ ์šฉ๋˜๋Š” ์ค‘์š”ํ•œ ์—ฐ์‚ฐ์ž…๋‹ˆ๋‹ค. ์ด ๋ณ€ํ™˜์€ ๋ณต์†Œ์ˆ˜ ํ–‰๋ ฌ์— ๋Œ€ํ•ด ๋‘ ๊ฐ€์ง€ ์—ฐ์‚ฐ์„ ์ˆœ์ฐจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค: โ‘  ํ–‰๋ ฌ์„ ์ „์น˜(transpose)ํ•ฉ๋‹ˆ๋‹ค. โ‘ก ๊ฐ ์›์†Œ๋ฅผ ์ผค๋ ˆ ๋ณต์†Œ์ˆ˜๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค

    ์ผค๋ ˆ ๋ณ€ํ™˜์˜ ์˜์˜

    • ์‹œ์Šคํ…œ ๋ถ„์„: ์ผค๋ ˆ ๋ณ€ํ™˜์„ ํ†ตํ•ด ์‹œ์Šคํ…œ์„ ๋” ์‰ฝ๊ฒŒ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๋Š” ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
      • ์˜ˆ๋ฅผ ๋“ค์–ด, ๋Œ€๊ฐํ™”๋‚˜ ์ •๊ทœํ˜•์œผ๋กœ์˜ ๋ณ€ํ™˜์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
    • ์ œ์–ด ์„ค๊ณ„: ์ƒํƒœ ํ”ผ๋“œ๋ฐฑ ์ œ์–ด๋‚˜ ๊ด€์ธก๊ธฐ ์„ค๊ณ„ ์‹œ, ์ผค๋ ˆ ๋ณ€ํ™˜์„ ํ†ตํ•ด ๋” ๊ฐ„๋‹จํ•œ ํ˜•ํƒœ์˜ ์‹œ์Šคํ…œ์œผ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ์„ค๊ณ„๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๊ณ„์‚ฐ ํšจ์œจ: ํŠน์ • ํ˜•ํƒœ๋กœ์˜ ๋ณ€ํ™˜์„ ํ†ตํ•ด ๊ณ„์‚ฐ ํšจ์œจ์„ ๋†’์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋Œ€๊ฐ ํ–‰๋ ฌ์€ ๊ณ„์‚ฐ์ด ๋งค์šฐ ๊ฐ„๋‹จํ•ฉ๋‹ˆ๋‹ค.

    ์ผค๋ ˆ ๊ด€๊ณ„์˜ ์˜๋ฏธ : ์ผค๋ ˆ ๊ด€๊ณ„๋Š” ์ฃผ๋กœ ๋ณต์†Œ์ˆ˜๋‚˜ ํ–‰๋ ฌ์—์„œ ์‚ฌ์šฉ๋˜๋Š” ๊ฐœ๋…์ž…๋‹ˆ๋‹ค.

    • ๋ณต์†Œ์ˆ˜์—์„œ์˜ ์ผค๋ ˆ : ๋ณต์†Œ์ˆ˜ a + bi์˜ ์ผค๋ ˆ๋Š” a - bi์ž…๋‹ˆ๋‹ค. ์ผค๋ ˆ ๋ณต์†Œ์ˆ˜๋Š” ์‹ค์ˆ˜๋ถ€๋Š” ๊ฐ™๊ณ  ํ—ˆ์ˆ˜๋ถ€์˜ ๋ถ€ํ˜ธ๋งŒ ๋ฐ˜๋Œ€์ž…๋‹ˆ๋‹ค.
    • ํ–‰๋ ฌ์—์„œ์˜ ์ผค๋ ˆ ์ „์น˜ : ํ–‰๋ ฌ A์˜ ์ผค๋ ˆ ์ „์น˜(conjugate transpose)๋Š” A*๋กœ ํ‘œ๊ธฐํ•˜๋ฉฐ, ํ–‰๋ ฌ์„ ์ „์น˜ํ•œ ํ›„ ๊ฐ ์›์†Œ๋ฅผ ์ผค๋ ˆ ๋ณต์†Œ์ˆ˜๋กœ ๋ฐ”๊พผ ๊ฒƒ์ž…๋‹ˆ๋‹ค

    • ๋‘ ๊ฐœ์˜ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์„ ์ƒ๊ฐํ•ด ๋ด…์‹œ๋‹ค. ํ•˜๋‚˜๋Š” ์›๋ž˜์˜ ์ƒํƒœ ๋ฒกํ„ฐ xxx๋ฅผ ์‚ฌ์šฉํ•˜๊ณ , ๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” ๋ณ€ํ™˜๋œ ์ƒํƒœ ๋ฒกํ„ฐ x~=Vx\tilde{x} = Vxx~=Vx๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ VVV๋Š” ๋ณ€ํ™˜์„ ์ˆ˜ํ–‰ํ•˜๋Š” ํ–‰๋ ฌ์ž…๋‹ˆ๋‹ค.

      • ๊ฐ๊ฐ์˜ ์ƒํƒœ ๊ณต๊ฐ„ ๋ฐฉ์ •์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

        1. ์›๋ž˜ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ:

          xโ€ฒ=Ax+Buxโ€™ = Ax + Buxโ€ฒ=Ax+Bu y=Cxy = Cxy=Cx

        2. ๋ณ€ํ™˜๋œ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ:

          x~โ€ฒ=Vโˆ’1AVx~+Vโˆ’1Bu\tilde{x}โ€™ = V^{-1}AV\tilde{x} + V^{-1}Bux~โ€ฒ=Vโˆ’1AVx~+Vโˆ’1Bu y=CVx~y = CV\tilde{x}y=CVx~

    • ์ด ๋‘ ๋ชจ๋ธ์€ ๋™์ผํ•œ ์‹œ์Šคํ…œ์„ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ์ด๋Š” ์ผค๋ ˆ ๋ณ€ํ™˜ ์ด ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์—์„œ ๋™๋“ฑ ๊ด€๊ณ„์ž„์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์šฐ๋ฆฌ๋Š” AAA, BBB, CCC ํ–‰๋ ฌ์„ ๋ณ€ํ™˜ํ•˜์—ฌ ๋™์ผํ•œ ์—ฐ์‚ฐ์„ ๋‹ค๋ฅธ ํ˜•ํƒœ๋กœ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ผค๋ ˆ ๊ด€๊ณ„๋Š” ์•„๋ž˜ ์‹์œผ๋กœ ์ •์˜๋ฉ๋‹ˆ๋‹ค.

      (A,B,C)โˆผ(Vโˆ’1AV,Vโˆ’1B,CV)(A, B, C) \sim (V^{-1} A V, V^{-1} B, C V)(A,B,C)โˆผ(Vโˆ’1AV,Vโˆ’1B,CV)

    • ์ฆ‰, ํ–‰๋ ฌ VVV๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ƒํƒœ ๋ฒกํ„ฐ xxx๋ฅผ ๋ณ€ํ™˜ํ•˜๋ฉด, ์ƒˆ๋กœ์šด ์ƒํƒœ ๋ฒกํ„ฐ x~=Vx\tilde{x} = Vxx~=Vx๋กœ ๋ณ€ํ™˜๋œ ์‹œ์Šคํ…œ์—์„œ ๋” ํšจ์œจ์ ์ธ ์—ฐ์‚ฐ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
    • ํ–‰๋ ฌ AAA๋ฅผ Vโˆ’1AVV^{-1} A VVโˆ’1AV๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ๋Œ€๊ฐํ™”ํ•˜๋ฉด, AAA๊ฐ€ ๋Œ€๊ฐ ํ–‰๋ ฌ์ผ ๋•Œ ๊ณ„์‚ฐ์ด ๋‹จ์ˆœํ•ด์ง‘๋‹ˆ๋‹ค.
  • Lemma 3.2: HiPPO ํ–‰๋ ฌ์˜ ๋Œ€๊ฐํ™”: ์ด ๋ ˆ๋งˆ๋Š” HiPPO ํ–‰๋ ฌ AAA๊ฐ€ ๋Œ€๊ฐํ™”๋  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ๋Œ€๊ฐํ™”๋Š” ๋ณต์žกํ•œ ํ–‰๋ ฌ ์—ฐ์‚ฐ์„ ๋” ๋‹จ์ˆœํ•˜๊ฒŒ ๋งŒ๋“ค์–ด์ฃผ๋Š” ์ค‘์š”ํ•œ ์ˆ˜ํ•™์  ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.

    • HiPPO ํ–‰๋ ฌ์€ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•œ ํŠน์ • ์œ ํ˜•์˜ ํ–‰๋ ฌ์ธ๋ฐ, ์ด ํ–‰๋ ฌ์˜ ๋Œ€๊ฐํ™”๋Š” ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์„ ๋†’์ด๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
    • HiPPO ํ–‰๋ ฌ AAA๋Š” ๋Œ€๊ฐํ™”๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋Œ€๊ฐํ™”์— ์‚ฌ์šฉ๋˜๋Š” ๋ณ€ํ™˜ ํ–‰๋ ฌ VVV์™€ ํ–‰๋ ฌ VVV์˜ ๊ฐ ํ•ญ๋ชฉ V3k,iV_{3k,i}V3k,iโ€‹๋Š” ์•„๋ž˜์™€ ๊ฐ™์ด ์ •์˜๋ฉ๋‹ˆ๋‹ค.

      Vij=((i+jiโˆ’j))V_{ij} = \left( \binom{i+j}{i-j} \right)Vijโ€‹=((iโˆ’ji+jโ€‹)) V3k,i=((ki))2iโˆ’kV_{3k,i} = \left(\binom{k}{i}\right) 2^{i-k}V3k,iโ€‹=((ikโ€‹))2iโˆ’k

    • ์ด ์‹์„ ํ†ตํ•ด, VVV์˜ ํ•ญ๋ชฉ์€ 2iN/32^{iN/3}2iN/3 ์ •๋„์˜ ํฌ๊ธฐ๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ์ด ์ˆ˜์‹์„ ํ†ตํ•ด HiPPO ํ–‰๋ ฌ์„ ๋Œ€๊ฐํ™”ํ•˜์—ฌ ์—ฐ์‚ฐ์„ ๊ฐ„์†Œํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • 3.2 S4 ํŒŒ๋ผ๋ฏธํ„ฐํ™”: Normal Plus Low-Rank Parameterization (NLPR)

    • ๊ธฐ๋ณธ์ ์ธ HiPPO ํ–‰๋ ฌ AAA๋Š” ๋Œ€๊ฐ ํ–‰๋ ฌ์ด ์•„๋‹ˆ๋ฉฐ, ์ผ๋ฐ˜์ ์œผ๋กœ ๊ณ„์‚ฐ์ด ๋ณต์žกํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ๋…ผ๋ฌธ์—์„œ๋Š” ์ •๊ทœ ํ–‰๋ ฌ(normal matrix)๊ณผ ์ €๋žญํฌ ํ–‰๋ ฌ(low-rank matrix)์˜ ํ•ฉ์œผ๋กœ ๋ถ„ํ•ดํ•˜๋Š” ๊ธฐ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

      ์ •๊ทœ ํ–‰๋ ฌ (Normal Matrix) : ์ •๊ทœ ํ–‰๋ ฌ์€ ํŠน๋ณ„ํ•œ ์„ฑ์งˆ์„ ๊ฐ€์ง„ ์ •์‚ฌ๊ฐ ํ–‰๋ ฌ์ž…๋‹ˆ๋‹ค.

      • ์ •์˜: ํ–‰๋ ฌ์„ ๋’ค์ง‘๊ณ  ๋ณต์†Œ์ˆ˜ ๋ถ€๋ถ„์˜ ๋ถ€ํ˜ธ๋ฅผ ๋ฐ”๊พผ ๊ฒƒ(์ผค๋ ˆ ์ „์น˜)๊ณผ ์›๋ž˜ ํ–‰๋ ฌ์„ ๊ณฑํ–ˆ์„ ๋•Œ, ์ˆœ์„œ๋ฅผ ๋ฐ”๊ฟ”๋„ ๊ฐ™์€ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์˜ค๋Š” ํ–‰๋ ฌ์ž…๋‹ˆ๋‹ค.

    ์ €๋žญํฌ ํ–‰๋ ฌ (Low-rank Matrix) : ์ €๋žญํฌ ํ–‰๋ ฌ์€ ๋ณต์žกํ•œ ์ •๋ณด๋ฅผ ๊ฐ„๋‹จํ•˜๊ฒŒ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ํ–‰๋ ฌ์ž…๋‹ˆ๋‹ค.

    • ์ •์˜: ํ–‰๋ ฌ์˜ ๋žญํฌ(๋…๋ฆฝ์ ์ธ ํ–‰ ๋˜๋Š” ์—ด์˜ ์ˆ˜)๊ฐ€ ์ž‘์€ ํ–‰๋ ฌ์„ ๋งํ•ฉ๋‹ˆ๋‹ค.
    • ์ •๊ทœ ํ–‰๋ ฌ์€ ๋Œ€๊ฐํ™”๊ฐ€ ๊ฐ€๋Šฅํ•˜์ง€๋งŒ, HiPPO ํ–‰๋ ฌ ์ž์ฒด๋Š” ์ด ์†์„ฑ์„ ๋งŒ์กฑํ•˜์ง€ ์•Š์œผ๋ฏ€๋กœ ์ด๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค.
    • ๋Œ€์‹ , HiPPO ํ–‰๋ ฌ์€ ์ •๊ทœ ํ–‰๋ ฌ๊ณผ ์ €๋žญํฌ ํ–‰๋ ฌ์˜ ํ•ฉ์œผ๋กœ ๊ทผ์‚ฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, AAA๋Š” ์•„๋ž˜์™€ ๊ฐ™์ด ๋ถ„ํ•ด๋ฉ๋‹ˆ๋‹ค.

      A=Vฮ›Vโˆ’1โˆ’PQTA = V \Lambda V^{-1} - PQ^TA=Vฮ›Vโˆ’1โˆ’PQT

      • ฮ›\Lambdaฮ›: ๋Œ€๊ฐ ํ–‰๋ ฌ
      • PPP, QQQ: ์ €๋žญํฌ ํ–‰๋ ฌ
    • ์ €๋žญํฌ ํ–‰๋ ฌ์˜ ํ•ญ๋ชฉ ์ˆ˜๊ฐ€ ์ ๊ธฐ ๋•Œ๋ฌธ์— ๊ณ„์‚ฐ์ด ํšจ์œจ์ ์œผ๋กœ ์ด๋ฃจ์–ด์งˆ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Ÿฌํ•œ ๋ถ„ํ•ด๋Š” NPLR (Normal Plus Low-Rank) ๊ธฐ๋ฒ•์œผ๋กœ ์•Œ๋ ค์ ธ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋ฉด, AAA๋ฅผ ์—ฌ๋Ÿฌ ๋ฒˆ ๊ณฑํ•˜๋Š” ์—ฐ์‚ฐ์˜ ๋ณต์žก๋„๋ฅผ ๋Œ€ํญ ์ค„์ผ ์ˆ˜ ์žˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค.
    • (Theorem 1) ๋ชจ๋“  HiPPO ํ–‰๋ ฌ์˜ NPLR ํ‘œํ˜„ : ๋ชจ๋“  HiPPO ํ–‰๋ ฌ์ด NPLR ํ‘œํ˜„์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ์Œ์„ ์ฆ๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด, S4 ๋ชจ๋ธ์—์„œ ์‚ฌ์šฉ๋˜๋Š” ํ–‰๋ ฌ AAA๋Š” ์•„๋ž˜์™€ ๊ฐ™์ด ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค.

      A=Vฮ›Vโˆ’1โˆ’PQT=V(ฮ›โˆ’(Vโˆ’1P)(Vโˆ’1Q)T)Vโˆ’1A = V\Lambda V^{-1} - PQ^T = V\left(\Lambda - (V^{-1}P)(V^{-1}Q)^T\right)V^{-1}A=Vฮ›Vโˆ’1โˆ’PQT=V(ฮ›โˆ’(Vโˆ’1P)(Vโˆ’1Q)T)Vโˆ’1

      • ฮ›\Lambdaฮ›๋Š” ๋Œ€๊ฐ ํ–‰๋ ฌ
      • PPP์™€ QQQ๋Š” ์ €๋žญํฌ ํ–‰๋ ฌ
  • 3.3 S4 Algorithms and Computational Complexity : ์ด ์„น์…˜์—์„œ๋Š” S4 ๋ชจ๋ธ์—์„œ ์ œ์•ˆํ•˜๋Š” ์ฃผ์š” ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ๊ทธ ๋ณต์žก๋„์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์ •๋ฆฌ 2 ์™€ ์ •๋ฆฌ 3 ์€ ๊ฐ๊ฐ ์žฌ๊ท€ ์—ฐ์‚ฐ๊ณผ ์ปจ๋ณผ๋ฃจ์…˜ ์—ฐ์‚ฐ์˜ ๋ณต์žก๋„๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค.

    • Theorem 2: S4 Recurrence์—์„œ๋Š” ์žฌ๊ท€ ์—ฐ์‚ฐ์˜ ๋ณต์žก๋„๋ฅผ O(N)O(N)O(N)์œผ๋กœ ์ค„์ผ ์ˆ˜ ์žˆ์Œ์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์žฌ๊ท€ ์—ฐ์‚ฐ์€ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์—์„œ ์ค‘์š”ํ•œ ์—ฐ์‚ฐ์ด๋ฉฐ, ์ด๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
    • Theorem 3: S4 Convolution์—์„œ๋Š” SSM์˜ ์ปจ๋ณผ๋ฃจ์…˜ ํ•„ํ„ฐ KKK๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ์—ฐ์‚ฐ์„ O(N+L)O(N + L)O(N+L)๋กœ ์ค„์ผ ์ˆ˜ ์žˆ์Œ์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์ด ํ•„ํ„ฐ๋Š” ์‹œํ€€์Šค ๋ชจ๋ธ์—์„œ ์ฃผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ํ•ต์‹ฌ ์—ฐ์‚ฐ ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค.

      • ์ปจ๋ณผ๋ฃจ์…˜ ํ•„ํ„ฐ์˜ ๊ณ„์‚ฐ์€ 4๊ฐœ์˜ ์ผ€์šฐ์‹œ ๊ณฑ์…ˆ(Cauchy multiplies)์œผ๋กœ ์ด๋ฃจ์–ด์ง€๋ฉฐ, O(N+L)O(N + L)O(N+L) ์—ฐ์‚ฐ๋งŒ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด S4 ๋ชจ๋ธ์€ ๋Œ€๊ทœ๋ชจ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ๋งค์šฐ ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค.

        ์ผ€์šฐ์‹œ ํ–‰๋ ฌ(Cauchy Matrix): ๋‘ ๋ฒกํ„ฐ์˜ ์›์†Œ ์ฐจ์ด์˜ ์—ญ์ˆ˜๋กœ ์ด๋ฃจ์–ด์ง„ ํŠน์ˆ˜ํ•œ ํ–‰๋ ฌ.

        Cij=1xiโˆ’yjC_{ij} = \frac{1}{x_i - y_j}Cijโ€‹=xiโ€‹โˆ’yjโ€‹1โ€‹

      ์ผ€์šฐ์‹œ ๊ณฑ์…ˆ(Cauchy Multiplication): ํ•จ์ˆ˜๋‚˜ ์ˆ˜์—ด์˜ ๊ณฑ์…ˆ์„ ํšจ์œจ์ ์œผ๋กœ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ, ๋‹คํ•ญ์‹์˜ ๊ณฑ์ด๋‚˜ ์ปจ๋ณผ๋ฃจ์…˜ ์—ฐ์‚ฐ์—์„œ ์‚ฌ์šฉ๋จ.

Algorithm 1: S4 Convolution Kernel

  • ์•Œ๊ณ ๋ฆฌ์ฆ˜ 1์€ S4 ์ปจ๋ณผ๋ฃจ์…˜ ์ปค๋„(S4 Convolution Kernel)์„ ๊ณ„์‚ฐํ•˜๋Š” ์ ˆ์ฐจ๋ฅผ ์„ค๋ช…ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(SSM)์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ์—์„œ ์ปจ๋ณผ๋ฃจ์…˜ ํ•„ํ„ฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์•„๋ž˜ ๊ทธ๋ฆผ์„ ๊ธฐ์ค€์œผ๋กœ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.

์ž…๋ ฅ

  • ฮ›,P,Q,B,C\Lambda, P, Q, B, Cฮ›,P,Q,B,C: ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์—์„œ ์ƒํƒœ ์—…๋ฐ์ดํŠธ, ์ž…๋ ฅ ๋ฐ ์ถœ๋ ฅ์— ๊ด€๋ จ๋œ S4 ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ.
  • ฮ”\Deltaฮ”: ์‹œ๊ฐ„ ๊ฐ„๊ฒฉ ๋˜๋Š” ๋‹จ๊ณ„ ํฌ๊ธฐ(step size).

์ถœ๋ ฅ

  • KKK: S4 ๋ชจ๋ธ์˜ ์ปจ๋ณผ๋ฃจ์…˜ ์ปค๋„ (SSM ์ตœ์ข… ์ปจ๋ณผ๋ฃจ์…˜ ํ•„ํ„ฐ)

๋‹จ๊ณ„๋ณ„ ์„ค๋ช…

  • โ‘  SSM ์ƒ์„ฑ ํ•จ์ˆ˜ C~\tilde{C}C~ ๊ณ„์‚ฐ

    • ์—ฌ๊ธฐ์„œ, SSM ์ƒ์„ฑ ํ•จ์ˆ˜(Generating Function) C~\tilde{C}C~๋Š” ์•„๋ž˜์™€ ๊ฐ™์ด ์ •์˜๋ฉ๋‹ˆ๋‹ค.

      C~โ†(Iโˆ’AL)โˆ’1C\tilde{C} \leftarrow \left( I - A^L \right)^{-1} CC~โ†(Iโˆ’AL)โˆ’1C

    • ALA^LAL๋Š” ํ–‰๋ ฌ AAA๋ฅผ ์‹œ๊ฐ„ ๋‹จ๊ณ„ LLL์— ๋Œ€ํ•ด ์ œ๊ณฑํ•œ ํ–‰๋ ฌ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

      • ์ด ์—ฐ์‚ฐ์€ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์—์„œ ์ƒํƒœ ๊ฐฑ์‹ ์„ ๋‚˜ํƒ€๋‚ด๋ฉฐ, CCC์™€ ๊ฒฐํ•ฉํ•˜์—ฌ ์ƒํƒœ ๊ณต๊ฐ„์˜ ์ถœ๋ ฅ์„ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. (์ฐธ๊ณ ๋กœ, C๋Š” ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(SSM)์˜ ์ถœ๋ ฅ ํ–‰๋ ฌ)
    • Iโˆ’ALI - A^LIโˆ’AL์€ ๋‹จ์œ„ ํ–‰๋ ฌ III์—์„œ ํ–‰๋ ฌ ALA^LAL์„ ๋บ€ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Š” AAA๊ฐ€ ์‹œ์Šคํ…œ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ๋ฐ˜์˜ํ•˜์—ฌ ๋‹จ์œ„ ํ–‰๋ ฌ์—์„œ ์ผ์ • ๋ถ€๋ถ„์„ ์กฐ์ •ํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
    • (Iโˆ’AL)โˆ’1(I - A^L)^{-1}(Iโˆ’AL)โˆ’1์€ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์—์„œ ์—ฌ๋Ÿฌ ์‹œ๊ฐ„ ์Šคํ…์— ๊ฑธ์นœ ์ƒํƒœ ๋ณ€ํ™”๋ฅผ ๊ณ ๋ คํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์‹œ์Šคํ…œ์˜ ํ˜„์žฌ ์ƒํƒœ์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๊ณ , ์‹œ๊ฐ„์ด ์ง€๋‚จ์— ๋”ฐ๋ผ ์ƒํƒœ๊ฐ€ ์–ด๋–ป๊ฒŒ ๋ณ€ํ™”ํ•˜๋Š”์ง€ ๊ณ„์‚ฐํ•œ ํ›„, ๊ทธ ์˜ํ–ฅ์„ ์—ญ์œผ๋กœ ๊ณ„์‚ฐํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
    • ์ด ๋‹จ๊ณ„์—์„œ ์ตœ์ข…์ ์œผ๋กœ C~\tilde{C}C~๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ SSM์„ ๋‚˜ํƒ€๋‚ด๋Š” ๋ฒกํ„ฐ๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ƒ์„ฑ๋œ ์ƒํƒœ ๋ฒกํ„ฐ๋Š” ์ดํ›„์˜ ์ปจ๋ณผ๋ฃจ์…˜ ์ปค๋„ ๊ณ„์‚ฐ์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
  • โ‘ก SSM ์ผ€์šฐ์‹œ ๊ณฑ์…ˆ (Cauchy Multiplication)

    • KKK์˜ ๊ฐ ์„ฑ๋ถ„์„ ์•„๋ž˜์™€ ๊ฐ™์ด ์ผ€์šฐ์‹œ ๊ณฑ์…ˆ์„ ํ†ตํ•ด ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.

      [k00(ฯ‰)k01(ฯ‰)k10(ฯ‰)k11(ฯ‰)]โ†C~โ‹…[(ฮ”1โˆ’ฯ‰1+ฯ‰โˆ’ฮ›)โˆ’1โ‹…BP]\begin{bmatrix} k_{00}(\omega) & k_{01}(\omega) \ k_{10}(\omega) & k_{11}(\omega) \end{bmatrix} \leftarrow \tilde{C} \cdot \left[ \left( \Delta \frac{1 - \omega}{1 + \omega} - \Lambda \right)^{-1} \cdot B P \right][k00โ€‹(ฯ‰)k10โ€‹(ฯ‰)โ€‹k01โ€‹(ฯ‰)k11โ€‹(ฯ‰)โ€‹]โ†C~โ‹…[(ฮ”1+ฯ‰1โˆ’ฯ‰โ€‹โˆ’ฮ›)โˆ’1โ‹…BP]

    • ์—ฌ๊ธฐ์„œ ์ผ€์šฐ์‹œ ๊ณฑ์…ˆ(Cauchy Multiplication)์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ณต์žกํ•œ ํ–‰๋ ฌ ์—ฐ์‚ฐ์„ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. Cauchy ํ–‰๋ ฌ์€ ํŠน์ˆ˜ํ•œ ํ˜•ํƒœ์˜ ํ–‰๋ ฌ๋กœ, ์—ฌ๊ธฐ์—์„œ๋Š” PPP์™€ BBB ํ–‰๋ ฌ์„ ๊ณฑํ•˜์—ฌ ์ตœ์ข… ์ปจ๋ณผ๋ฃจ์…˜ ํ•„ํ„ฐ KKK๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
    • ฮ›\Lambdaฮ›๋Š” ๋Œ€๊ฐ ํ–‰๋ ฌ์ด๊ณ , BBB์™€ PPP๋Š” S4 ๋ชจ๋ธ์—์„œ ์ƒํƒœ์™€ ์ž…๋ ฅ์— ๋Œ€ํ•œ ์ €๋žญํฌ ํ–‰๋ ฌ์ž…๋‹ˆ๋‹ค.
  • โ‘ข Woodbury Identity ์ ์šฉ

    • Woodbury Identity๋Š” ๋Œ€๊ทœ๋ชจ ํ–‰๋ ฌ์˜ ์—ญํ–‰๋ ฌ์„ ๊ณ„์‚ฐํ•  ๋•Œ ์‚ฌ์šฉํ•˜๋Š” ํšจ์œจ์ ์ธ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ์ ์šฉํ•˜์—ฌ ์ปจ๋ณผ๋ฃจ์…˜ ํ•„ํ„ฐ์˜ ๊ณ„์‚ฐ์„ ๋”์šฑ ๊ฐ„์†Œํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • Woodbury Identity๋Š” ์ €๋žญํฌ ํ–‰๋ ฌ์„ ํฌํ•จํ•˜๋Š” ์—ญํ–‰๋ ฌ์„ ๋น ๋ฅด๊ฒŒ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ฃผ๋ฉฐ, A+PQโˆ—A + PQ^*A+PQโˆ— ํ˜•ํƒœ์˜ ํ–‰๋ ฌ์„ Aโˆ’1A^{-1}Aโˆ’1๋กœ ๋ฐ”๊ฟ”์ค๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด ํ–‰๋ ฌ ์—ฐ์‚ฐ์ด ๋Œ€ํญ ๋‹จ์ˆœํ•ด์ง‘๋‹ˆ๋‹ค.
  • โ‘ฃ K~(ฯ‰)\tilde{K}(\omega)K~(ฯ‰) Evaluate(ํ‰๊ฐ€)

    • K(ฯ‰)K(\omega)K(ฯ‰)๋Š” ๋ชจ๋“  ๊ทผ(roots of unity) ฯ‰โˆˆฮฉL\omega \in \Omega_Lฯ‰โˆˆฮฉLโ€‹์—์„œ ํ‰๊ฐ€๋ฉ๋‹ˆ๋‹ค.

      K~(ฯ‰)โ†21+ฯ‰[k00(ฯ‰)โˆ’k01(ฯ‰)(1+k11(ฯ‰))โˆ’1k10(ฯ‰)]\tilde{K}(\omega) \leftarrow \frac{2}{1 + \omega} \left[ k_{00}(\omega) - k_{01}(\omega)(1 + k_{11}(\omega))^{-1}k_{10}(\omega) \right]K~(ฯ‰)โ†1+ฯ‰2โ€‹[k00โ€‹(ฯ‰)โˆ’k01โ€‹(ฯ‰)(1+k11โ€‹(ฯ‰))โˆ’1k10โ€‹(ฯ‰)]

    • ์ด ๋‹จ๊ณ„์—์„œ ๊ฐ ํ•„ํ„ฐ์˜ ์š”์†Œ๊ฐ€ ๊ทผ์„ ํ†ตํ•ด ํ‰๊ฐ€๋˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด ํ•„ํ„ฐ์˜ ๊ฐ ์ฃผํŒŒ์ˆ˜ ์„ฑ๋ถ„์ด ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค. (๊ณ„์‚ฐ๊ณผ์ • ์•„๋ž˜ ์ฐธ๊ณ )

      1. ฯ‰\omegaฯ‰ ์„ค์ •: LLL๊ฐœ์˜ ๋‹จ์œ„ ๊ทผ ฯ‰k\omega_kฯ‰kโ€‹๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.

        ฯ‰k=eโˆ’2ฯ€ik/L,k=0,1,โ€ฆ,Lโˆ’1\omega_k = e^{-2\pi i k / L}, \quad k = 0, 1, \dots, L-1ฯ‰kโ€‹=eโˆ’2ฯ€ik/L,k=0,1,โ€ฆ,Lโˆ’1

      2. K(ฯ‰k)K(\omega_k)K(ฯ‰kโ€‹) ๊ณ„์‚ฐ: ๊ฐ ฯ‰k\omega_kฯ‰kโ€‹์— ๋Œ€ํ•ด K(ฯ‰k)K(\omega_k)K(ฯ‰kโ€‹)๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ํ•„ํ„ฐ์˜ ์ฃผํŒŒ์ˆ˜ ์‘๋‹ต์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

        K~(ฯ‰k)โ†21+ฯ‰k[k00(ฯ‰k)โˆ’k01(ฯ‰k)(1+k11(ฯ‰k))โˆ’1k10(ฯ‰k)]\tilde{K}(\omega_k) \leftarrow \frac{2}{1 + \omega_k} \left[ k_{00}(\omega_k) - k_{01}(\omega_k)(1 + k_{11}(\omega_k))^{-1}k_{10}(\omega_k) \right]K~(ฯ‰kโ€‹)โ†1+ฯ‰kโ€‹2โ€‹[k00โ€‹(ฯ‰kโ€‹)โˆ’k01โ€‹(ฯ‰kโ€‹)(1+k11โ€‹(ฯ‰kโ€‹))โˆ’1k10โ€‹(ฯ‰kโ€‹)]

      3. ์ฃผํŒŒ์ˆ˜ ๋„๋ฉ”์ธ์—์„œ์˜ ์—ฐ์‚ฐ: ๊ณ„์‚ฐ๋œ K(ฯ‰k)K(\omega_k)K(ฯ‰kโ€‹)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ž…๋ ฅ ์‹ ํ˜ธ์˜ ์ฃผํŒŒ์ˆ˜ ์„ฑ๋ถ„๊ณผ ๊ณฑ์…ˆ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

  • โ‘ค ์—ญ FFT(Inverse FFT) ์ ์šฉ

    • ๋งˆ์ง€๋ง‰ ๋‹จ๊ณ„์—์„œ ์—ญ Fourier ๋ณ€ํ™˜(iFFT)์„ ์‚ฌ์šฉํ•˜์—ฌ ํ•„ํ„ฐ์˜ ์ฃผํŒŒ์ˆ˜ ๋„๋ฉ”์ธ ํ‘œํ˜„์„ ์‹œ๊ฐ„ ๋„๋ฉ”์ธ์œผ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ ์ตœ์ข…์ ์ธ ์ปจ๋ณผ๋ฃจ์…˜ ์ปค๋„ KKK๊ฐ€ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.Kโ†IFFT(K~(ฯ‰k))K \leftarrow \text{IFFT}(\tilde{K}(\omega_k))Kโ†IFFT(K~(ฯ‰kโ€‹))

Experiments

  • 4.1 S4 Efficiency Benchmarks : S4๋Š” ๊ธฐ์กด์˜ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ ๋ฐ Transformer ๋ชจ๋ธ์— ๋น„ํ•ด ๋งค์šฐ ๋น ๋ฅธ ํ•™์Šต ์†๋„์™€ ์ ์€ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ์ž๋ž‘ํ•ฉ๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, S4๋Š” ์†๋„์™€ ๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ์„ฑ ๋ชจ๋‘์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
  • 4.2 Learning Long Range Dependencies : Long Range Arena (LRA)** ๋ฒค์น˜๋งˆํฌ์—์„œ S4๋Š” ์žฅ๊ธฐ ์ข…์†์„ฑ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ์žˆ์–ด ํƒ์›”ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ํŠนํžˆ, ๊ธฐ์กด ๋ชจ๋ธ๋“ค์ด ํ•ด๊ฒฐํ•˜์ง€ ๋ชปํ•œ ์–ด๋ ค์šด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐ ์„ฑ๊ณตํ•˜์˜€์Šต๋‹ˆ๋‹ค.
  • 4.3 S4 as a General Sequence Model : S4๋Š” ์ด๋ฏธ์ง€, ํ…์ŠคํŠธ, ์˜ค๋””์˜ค ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์œ ํ˜•์—์„œ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ์ผ๋ฐ˜์ ์ธ ์‹œํ€€์Šค ๋ชจ๋ธ๋กœ ์ œ์•ˆ๋ฉ๋‹ˆ๋‹ค. ์‹คํ—˜์„ ํ†ตํ•ด S4๊ฐ€ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์œ ํ˜•์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • 4.4 SSM Ablations: the Importance of HiPPO : HiPPO ์ดˆ๊ธฐํ™”๋ฅผ ์‚ฌ์šฉํ•œ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์ด ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๋งค์šฐ ์ค‘์š”ํ•˜๋‹ค๋Š” ๊ฒƒ์„ ์‹คํ—˜์ ์œผ๋กœ ํ™•์ธํ•˜์˜€์Šต๋‹ˆ๋‹ค.


Reference

Lectures

  • Efficiently Modeling Long Sequences with Structured State Spaces (๋งํฌ)
  • Structured State Space Models for Deep Sequence Modeling (๋งํฌ)

Blogs

Books

Papers



-->