[TREND] ํŠธ๋ Œ์Šคํฌ๋จธ ์ดํ›„์˜ ์ฐจ์„ธ๋Œ€ ์•„ํ‚คํ…์ณ: MoE, SSM, RetNet, V-JEPA

Posted by Euisuk's Dev Log on November 30, 2024

[TREND] ํŠธ๋ Œ์Šคํฌ๋จธ ์ดํ›„์˜ ์ฐจ์„ธ๋Œ€ ์•„ํ‚คํ…์ณ: MoE, SSM, RetNet, V-JEPA

์›๋ณธ ๊ฒŒ์‹œ๊ธ€: https://velog.io/@euisuk-chung/ํŠธ๋ Œ๋“œ-ํŠธ๋ Œ์Šคํฌ๋จธ-์ดํ›„์˜-์ฐจ์„ธ๋Œ€-์•„ํ‚คํ…์ณ-MoE-SSM-RetNet-V-JEPA

2017๋…„, โ€œAttention is All You Needโ€๋ผ๋Š” ๋…ผ๋ฌธ๊ณผ ํ•จ๊ป˜ ๋“ฑ์žฅํ•œ ํŠธ๋žœ์Šคํฌ๋จธ(Transformer)๋Š” AI ๋ชจ๋ธ์˜ ํ˜์‹ ์ ์ธ ๋ณ€ํ™”๋ฅผ ์ด๋Œ์—ˆ์Šต๋‹ˆ๋‹ค. ํ˜„์žฌ, ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(LLM)๊ณผ ์ƒ์„ฑ AI๋Š” ์–ธ์–ด, ๋น„๋””์˜ค, ์ด๋ฏธ์ง€ ๋“ฑ์˜ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ์—์„œ ์••๋„์ ์ธ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๋ฉฐ ์šฐ๋ฆฌ ์‚ถ์˜ ๋‹ค์–‘ํ•œ ์˜์—ญ์—์„œ ํ™œ์šฉ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์€ ๋†’์€ ์—ฐ์‚ฐ ๋ณต์žก๋„, ๋ง‰๋Œ€ํ•œ ์ž์› ์†Œ๋น„, ๊ธด ์‹œํ€€์Šค ์ฒ˜๋ฆฌ์˜ ํ•œ๊ณ„ ๋“ฑ ๋ณธ์งˆ์ ์ธ ์ œ์•ฝ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋งŽ์€ ๋Œ€์•ˆ์ ์ธ ์•„ํ‚คํ…์ฒ˜๊ฐ€ ์ œ์•ˆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ธฐ์ˆ ์€ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•˜๋ฉด์„œ๋„ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๊ฑฐ๋‚˜ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•˜๋ฉฐ, AI์˜ ์ฐจ์„ธ๋Œ€ ๊ธฐ์ˆ ์„ ์ด๋Œ์–ด๊ฐˆ ์ž ์žฌ๋ ฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ตœ๊ทผ Mixture of Experts(MoE), Mamba, Mamba-2, Jamba-2, RetNet ๋“ฑ ๋งŽ์€ ์—ฐ๊ตฌ๋“ค์ด ์ง„ํ–‰๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ €๋„ ์ด๋Ÿฌํ•œ ์—ฐ๊ตฌ๋“ค์— ๋งŽ์€ ๊ด€์‹ฌ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค๋งŒโ€ฆ ์‹œ๊ฐ„์ด ์—†์–ด์„œ ํ˜„์žฌ Mamba๋งŒ ๊นŠ๊ฒŒ ํŒŒ๊ณ , ๋‹ค๋ฅธ ๊ฒƒ๋“ค์€ ์ œ๋Œ€๋กœ ์‚ดํŽด๋ณด๊ณ  ์žˆ์ง€ ๋ชปํ•˜๊ณ  ์žˆ๋„ค์š”.. ใ… ใ…  ๐Ÿ˜‚

๊ฐ์‚ฌํ•˜๊ฒŒ๋„ ์ œ๊ฐ€ ์• ์ฒญํ•˜๋Š” Youtube ํฌ๋ฆฌ์—์ดํ„ฐ ์•ˆ๋ ๊ณตํ•™๋‹˜๊ป˜์„œ ์ œ๊ฐ€ ๊ด€์‹ฌ์žˆ๋Š” ์ฃผ์ œ๋ฅผ ์ด๋ฒˆ์— ๋‹ค๋ค„์ฃผ์…”์„œ ์ด๋ฅผ ๋ฒ ์ด์Šค๋กœ ํ•œ๋ฒˆ ํŠธ๋ Œ๋“œ๋ฅผ ์ •๋ฆฌํ•ด๋ณด๋Š” ๊ธ€์„ ์ž‘์„ฑํ•ด๋ณด๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

[ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ๋„˜์–ด MoE์™€ SSM๊นŒ์ง€, ๋ฏธ๋ž˜ AI์˜ ๋ฐฉํ–ฅ์€? AGI ๊ตฌํ˜„ ์œ„ํ•œ ์š”๊ตฌ ์ปดํ“จํŒ… ๋Ÿ‰ ๋„ˆ๋ฌด ๋†’์•„](https://youtu.be/NSt259rpsKM) - ์•ˆ๋ ๊ณตํ•™

์ด ๊ธ€์—์„œ๋Š” ์•ˆ๋ ๊ณตํ•™๋‹˜๊ป˜์„œ ๋‹ค๋ค„์ฃผ์‹  ์„œ์‚ฌ์— ๋”ฐ๋ผ์„œ ์ด๋Ÿฌํ•œ ํ˜์‹ ์ ์ธ ๋ชจ๋ธ๋“ค์„ ํ†ตํ•ฉ์ ์œผ๋กœ ์‚ดํŽด๋ณด๋ฉฐ, ํŠธ๋ Œ์Šคํฌ๋จธ ์ดํ›„์˜ ๋ฏธ๋ž˜ AI ๊ธฐ์ˆ ์˜ ๋ฐœ์ „ ๋ฐฉํ–ฅ์„ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค.


1. ํŠธ๋žœ์Šคํฌ๋จธ: ํ˜์‹ ๊ณผ ํ•œ๊ณ„

ํŠธ๋žœ์Šคํฌ๋จธ์˜ ํ•ต์‹ฌ: Attention ๋ฉ”์ปค๋‹ˆ์ฆ˜

ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ์–ดํ…์…˜(Attention) ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋ฉฐ, ํ…์ŠคํŠธ, ์Œ์„ฑ, ๋น„๋””์˜ค ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์œ ํ˜•์—์„œ ๋†€๋ผ์šด ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

  • ๋ชจ๋“  ๋‹จ์–ด์˜ ๊ด€๊ณ„๋ฅผ ๊ณ„์‚ฐํ•ด ๋ฌธ๋งฅ์„ ํŒŒ์•….
  • ๋ฉ€ํ‹ฐํ—ค๋“œ ์–ดํ…์…˜(Multi-head Attention)์„ ํ†ตํ•ด ๋ณ‘๋ ฌ์ ์œผ๋กœ ๋‹จ์–ด ๊ฐ„ ๊ด€๊ณ„๋ฅผ ๊ณ„์‚ฐ.

์ถœ์ฒ˜ : https://www.blossominkyung.com/deeplearning/transformer-mha

์ฃผ์š” ํ•œ๊ณ„

  1. ์—ฐ์‚ฐ ๋ณต์žก๋„: ๋ชจ๋“  ๋‹จ์–ด ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ๊ณ„์‚ฐํ•ด์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— O(n2)O(n^2)O(n2)์˜ ์—ฐ์‚ฐ๋Ÿ‰์„ ์š”๊ตฌํ•˜๋ฉฐ, ๋ฐ์ดํ„ฐ ๊ธธ์ด๊ฐ€ ๊ธธ์–ด์งˆ์ˆ˜๋ก ๊ณ„์‚ฐ ๋ถ€๋‹ด์ด ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ์ฆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
  2. ์ž์› ์†Œ๋ชจ: ๋Œ€๊ทœ๋ชจ GPU ๋ฉ”๋ชจ๋ฆฌ์™€ ์—ฐ์‚ฐ ์ž์›์ด ํ•„์š”ํ•ด ๋†’์€ ์ „๋ ฅ ์†Œ๋ชจ์™€ ๋น„์šฉ์ด ๋’ค๋”ฐ๋ฆ…๋‹ˆ๋‹ค.
  3. ์žฅ๊ฑฐ๋ฆฌ ์˜์กด์„ฑ(Long-range Dependency): ์ดˆ๊ธฐ ์ž…๋ ฅ ์ •๋ณด์™€ ๋’ท๋ถ€๋ถ„ ์ •๋ณด๋ฅผ ์—ฐ๊ฒฐ์ง“๋Š” ๋ฐ ํ•œ๊ณ„๋ฅผ ๋ณด์ด๋ฉฐ, ๊ธด ๋ฌธ๋งฅ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ๋น„ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค.

2. Mixture of Experts(MoE): Sparse ์—ฐ์‚ฐ์œผ๋กœ ํšจ์œจ์„ฑ ํ–ฅ์ƒ

MoE์˜ ๊ฐœ๋…๊ณผ ์ž‘๋™ ์›๋ฆฌ

MoE(Mixture of Experts)๋Š” ์กฐ๊ฑด๋ถ€ ์—ฐ์‚ฐ(Conditional Computation)์„ ํ†ตํ•ด ํ•„์š”ํ•œ ๊ฒฝ์šฐ์—๋งŒ ํŠน์ • ์ „๋ฌธ๊ฐ€ ๋„คํŠธ์›Œํฌ(Experts)๋ฅผ ํ™œ์„ฑํ™”ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.

  • ํŠธ๋žœ์Šคํฌ๋จธ์™€ ๋น„๊ตํ•˜์—ฌ ๋ชจ๋ธ์˜ ์šฉ๋Ÿ‰์„ ํฌ๊ฒŒ ๋Š˜๋ฆฌ๋ฉด์„œ๋„ ์—ฐ์‚ฐ ๋น„์šฉ์€ ์ค„์ž„.
  • ๊ฐ ์ „๋ฌธ๊ฐ€ ๋„คํŠธ์›Œํฌ๋Š” ๊ณ ์œ ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง€๊ณ , ๊ฒŒ์ดํŒ… ๋„คํŠธ์›Œํฌ(Gating Network)๊ฐ€ ํ™œ์„ฑํ™” ์—ฌ๋ถ€๋ฅผ ๊ฒฐ์ •.

๐Ÿ’Œ ์ถ”์ฒœ Reference:

  • MoE์— ๋Œ€ํ•ด์„œ ๋” ์ž์„ธํ•˜๊ฒŒ ์•Œ๊ณ  ์‹ถ์œผ์‹  ๋ถ„๋“ค์€ ์•„๋ž˜ ๋งํฌ์— ๋“ค์–ด๊ฐ€์„œ ์ฝ์–ด๋ณด์‹œ๊ธธ ๋ฐ”๋ž๋‹ˆ๋‹ค:

    https://huggingface.co/blog/moe

MoE ์‚ฌ๋ก€: Switch Transformer

  • ๋งํฌ : https://arxiv.org/pdf/2101.03961
  • ์ œ๋ชฉ : Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

์ถœ์ฒ˜: MoE layer from the Switch Transformers paper

๊ตฌ๊ธ€์˜ Switch Transformer๋Š” MoE์˜ ๋Œ€ํ‘œ ์‚ฌ๋ก€๋กœ, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํŠน์ง•์„ ๋ณด์ž…๋‹ˆ๋‹ค:

  • ๊ธฐ์กด GPT-3 ๋Œ€๋น„ ํ•™์Šต ์‹œ๊ฐ„์„ 17%๋กœ ๋‹จ์ถ•.
  • ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ํ† ํฐ์˜ ์ž…๋ ฅ์„ ๊ท ํ˜• ์žˆ๊ฒŒ ๋ถ„๋ฐฐ.

MoE์˜ ์žฅ์ 

  1. ํšจ์œจ์„ฑ: ๋ชจ๋ธ์˜ ์šฉ๋Ÿ‰์„ ํ™•์žฅํ•˜๋ฉด์„œ๋„ ๊ณ„์‚ฐ ๋น„์šฉ์€ ์ตœ์†Œํ™”.

  2. ํŠนํ™”๋œ ํ•™์Šต: ๊ฐ ์ „๋ฌธ๊ฐ€๊ฐ€ ํŠน์ • ๋ฐ์ดํ„ฐ์— ์ตœ์ ํ™”๋˜์–ด ๋†’์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜.

  3. ์ž์› ์ ˆ์•ฝ: ํ•„์š”ํ•œ ์ „๋ฌธ๊ฐ€๋งŒ ํ™œ์„ฑํ™”ํ•˜์—ฌ ๋ถˆํ•„์š”ํ•œ ๊ณ„์‚ฐ์„ ๋ฐฉ์ง€.


3. State Space Models(SSM): ๊ธด ์‹œํ€€์Šค ์ฒ˜๋ฆฌ์˜ ํ˜์‹ 

SSM์˜ ๊ฐœ๋…๊ณผ ์ž‘๋™ ์›๋ฆฌ

SSM(State Space Models)์€ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ์‹œ๊ฐ„์ ์œผ๋กœ ๋ชจ๋ธ๋งํ•˜์—ฌ, ํ˜„์žฌ ์ƒํƒœ์™€ ๊ณผ๊ฑฐ ์ƒํƒœ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์—ฐ๊ฒฐํ•ฉ๋‹ˆ๋‹ค.

  • ์ƒํƒœ ๊ณต๊ฐ„(State Space)์„ ํ†ตํ•ด ํ˜„์žฌ์™€ ๊ณผ๊ฑฐ ์ •๋ณด๋ฅผ ์—ฐ๊ฒฐ.
  • ํŠธ๋žœ์Šคํฌ๋จธ์˜ O(n2)O(n^2)O(n2) ๋ณต์žก๋„๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ  ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ๊ฐ์†Œ.
  • ๋ชจ๋“  ํ† ํฐ ๊ฐ„ ๊ด€๊ณ„๋ฅผ ๊ณ„์‚ฐํ•˜์ง€ ์•Š์•„๋„ ๋จ.
  • ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ(ํ…์ŠคํŠธ, ์Œ์„ฑ ๋“ฑ)์˜ ์ˆœ์„œ ์ •๋ณด๋ฅผ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ฒ˜๋ฆฌ.

SSM ์‚ฌ๋ก€: Mamba

  • ๋งํฌ : https://arxiv.org/pdf/2312.00752
  • ์ œ๋ชฉ : Mamba: Linear-Time Sequence Modeling with Selective State Spaces
  • SSM(State Space Models) ๊ธฐ๋ฐ˜์œผ๋กœ ๊ธด ๋ฌธ๋งฅ ์ฒ˜๋ฆฌ ๋Šฅ๋ ฅ๊ณผ ๋น ๋ฅธ ํ•™์Šต ์†๋„๋ฅผ ์ œ๊ณต.
  • ๋ถˆํ•„์š”ํ•œ ์ƒํƒœ ์ •๋ณด ์—…๋ฐ์ดํŠธ๋ฅผ ์ค„์—ฌ ํšจ์œจ์„ฑ์„ ํ–ฅ์ƒ.

์ถœ์ฒ˜: SSM Model from the Mamba paper

Mamba ํŠน์ง•

  • ์„ ํƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ์ถ”๊ฐ€

    • ๊ธฐ์กด SSM ๋ชจ๋ธ์ด ์ž…๋ ฅ์— ๋”ฐ๋ผ ํŠน์ • ์ •๋ณด๋ฅผ ์„ ํƒํ•˜๊ฑฐ๋‚˜ ๋ฌด์‹œํ•˜๋Š” ๋Šฅ๋ ฅ์ด ๋ถ€์กฑํ•œ ์ ์„ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด, ์ž…๋ ฅ ์˜์กด์  ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋„์ž…ํ•˜์—ฌ ์„ ํƒ์  ์ •๋ณด ์ฒ˜๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•˜๊ฒŒ ์„ค๊ณ„.
  • ํšจ์œจ์  ํ•˜๋“œ์›จ์–ด ๊ตฌํ˜„

    • ์ƒˆ๋กœ์šด ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ†ตํ•ด GPU ๋ฉ”๋ชจ๋ฆฌ ๊ณ„์ธต์—์„œ ํšจ์œจ์ ์œผ๋กœ ์ž‘๋™ํ•˜๋ฉฐ, ๊ธฐ์กด SSM ๋Œ€๋น„ ์ตœ๋Œ€ 3๋ฐฐ ๋น ๋ฅธ ์†๋„๋ฅผ ์ œ๊ณต.
  • ๋‹จ์ˆœํ™”๋œ ์•„ํ‚คํ…์ฒ˜

    • Mamba๋Š” Attention์ด๋‚˜ MLP ๋ธ”๋ก ์—†์ด๋„ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๋„๋ก ์„ค๊ณ„๋œ ๊ฐ„๋‹จํ•œ ๊ตฌ์กฐ ์ฑ„์šฉ.

SSM + MoE + Transformer ์‚ฌ๋ก€: Jamba

  • ๋งํฌ : https://arxiv.org/pdf/2403.19887
  • ์ œ๋ชฉ : Jamba: A Hybrid Transformer-Mamba Language Model
  • ํŠธ๋žœ์Šคํฌ๋จธ ๋ ˆ์ด์–ด์™€ Mamba ๋ ˆ์ด์–ด๋ฅผ ๋ฒˆ๊ฐˆ์•„ ๋ฐฐ์น˜ํ•œ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ.
  • ๊ธด ๋ฌธ๋งฅ์—์„œ ํŠธ๋žœ์Šคํฌ๋จธ์˜ ๊ฐ•์ ๊ณผ SSM์˜ ํšจ์œจ์„ฑ์„ ๊ฒฐํ•ฉ.
  • ๋Œ€๊ทœ๋ชจ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋ฉฐ ๊ธด ์ž…๋ ฅ์—์„œ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜.

์ถœ์ฒ˜: Jamba block from the Jamba paper

Jamba ํŠน์ง•

  • Transformer์™€ Mamba์˜ ํ•˜์ด๋ธŒ๋ฆฌ๋“œํ™”

    • Transformer๋Š” Attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ์ •ํ™•ํ•œ ๋ฌธ๋งฅ ํ‘œํ˜„ ๊ฐ€๋Šฅ.
    • Mamba๋Š” ๊ธด ๋ฌธ๋งฅ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ์ ํ•ฉํ•˜๋ฉฐ, Transformer์˜ ๋†’์€ ๊ณ„์‚ฐ ๋น„์šฉ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐ.
  • ๊ธด ๋ฌธ๋งฅ ์ง€์›

    • ๊ธฐ์กด Transformer ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์ด ๋ฌธ๋งฅ ๊ธธ์ด์—์„œ ์ œ์•ฝ์ด ์žˆ๋Š” ๋ฐ˜๋ฉด, Jamba๋Š” 256K ํ† ํฐ ์ด์ƒ์„ ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅ.
  • ๋†’์€ ์ฒ˜๋ฆฌ๋Ÿ‰๊ณผ ๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ

    • ๊ธด ๋ฌธ๋งฅ์—์„œ๋„ ์ž‘์€ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰๊ณผ ๋†’์€ ์ฒ˜๋ฆฌ ์†๋„๋ฅผ ์œ ์ง€.

๐Ÿ˜‚ (์‰ฌ์–ด๊ฐ€๋ฉฐ) ์œ ํŠœ๋ธŒ ์˜์ƒ์˜ ๋น„์œ ์—์„œ ์žฌ๋ฐŒ๊ฒŒ ๋А๊ผ‡๋˜ ์ 

  • ์•ˆ๋ ๊ณตํ•™๋‹˜์˜ ๋น„์œ ๋ฒ•์— ํ•ญ์ƒ ๊ฐํƒ„ํ•˜๊ณค ํ•˜๋Š”๋ฐ, ์˜ค๋Š˜ ๋น„์œ ๋Š” ๋”๋”์šฑ ๊ฐํƒ„์— ๋ฐ•์ˆ˜์น˜๊ณ  ๊ฐ‘๋‹ˆ๋‹ค ใ…‹ใ…‹ใ…‹ใ…‹ ๐Ÿ™Œ๐Ÿ˜
  • ๊ฐ๊ฐ ํŠธ๋žœ์Šคํฌ๋จธ์™€ SSM์„ โ€œ๋‚˜๋Š” ์†”๋กœโ€์™€ โ€œํ™˜์Šน ์—ฐ์• โ€ TV ํ”„๋กœ๊ทธ๋žจ์— ๋น„์œ ํ•˜๋Š” ๋ฐโ€ฆ ํฌํ.. ์–ด๋–ป๊ฒŒ ๊ทธ๋Ÿฐ ์ƒ๊ฐ์„ ํ•˜๋Š” ๊ฒƒ์ธ์ง€โ€ฆ
    • "ํŠธ๋žœ์Šคํฌ๋จธ" โ†’ "๋‚˜๋Š” ์†”๋กœ" :
      • โ€œ๋‚˜๋Š” ์†”๋กœโ€์˜ ์ฃผ์ œ์ฒ˜๋Ÿผ, ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ๋ชจ๋“  ๋‹จ์–ด๊ฐ€ ์„œ๋กœ ๊ฐœ๋ณ„์ ์œผ๋กœ ๋Œ€ํ™”(์—ฐ์‚ฐ)ํ•˜๋ฉฐ ๋…๋ฆฝ์ ์œผ๋กœ ๊ด€๊ณ„๋ฅผ ํ˜•์„ฑํ•ฉ๋‹ˆ๋‹ค.
      • ์ด๋Š” ๊ฐ ๋‹จ์–ด๊ฐ€ ๋‹ค๋ฅธ ๋‹จ์–ด๋“ค๊ณผ ์ง์ ‘ ์—ฐ๊ฒฐ๋˜๋ฉฐ ๋ชจ๋“  ๊ด€๊ณ„๋ฅผ ๊ณ„์‚ฐํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
    • "SSM" โ†’ "ํ™˜์Šน์—ฐ์• " :
      • โ€œํ™˜์Šน์—ฐ์• โ€๋Š” ๊ณผ๊ฑฐ์˜ ๊ด€๊ณ„(์ƒํƒœ)๋ฅผ ์ด์–ด๋ฐ›์•„ ์ƒˆ๋กœ์šด ๊ด€๊ณ„๋ฅผ ํ˜•์„ฑํ•ด ๋‚˜๊ฐ€๋Š” ๊ณผ์ •์„ ๋ฌ˜์‚ฌํ•ฉ๋‹ˆ๋‹ค.
      • SSM์€ ๊ณผ๊ฑฐ ์ •๋ณด๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ํ˜„์žฌ์™€ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์—ฐ๊ฒฐํ•˜๋ฉฐ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š”๋ฐ, ์ด๋Š” ์‹œ๊ฐ„์  ์ˆœ์„œ์™€ ์ƒํƒœ ๋ณ€ํ™”๋ฅผ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋ฐ˜์˜ํ•ฉ๋‹ˆ๋‹ค.


4. ๊ธฐํƒ€ ์•„ํ‚คํ…์ณ ๋ฐ ์—ฐ๊ตฌ

RetNet: Retentive Network

RetNet์€ ๊ธฐ์กด Transformer์˜ ๋‹จ์ ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์„ค๊ณ„๋œ ์ƒˆ๋กœ์šด ์–ธ์–ด ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์ž…๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ๋ณ‘๋ ฌ ํ›ˆ๋ จ, ์ €๋น„์šฉ ์ถ”๋ก , ์„ฑ๋Šฅ ํ™•์žฅ์„ ๋™์‹œ์— ๋‹ฌ์„ฑํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ์ƒˆ๋กœ์šด ํ‘œ์ค€์ด ๋  ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

RetNet์˜ ๋ฐฐ๊ฒฝ

  • Transformer๋Š” ์–ธ์–ด ๋ชจ๋ธ์˜ ํ‘œ์ค€ ์•„ํ‚คํ…์ฒ˜๋กœ ์ž๋ฆฌ ์žก์•˜์œผ๋‚˜, ์ถ”๋ก  ํšจ์œจ์„ฑ ๋ฐ ๊ธด ์‹œํ€€์Šค ์ฒ˜๋ฆฌ์—์„œ ํ•œ๊ณ„๊ฐ€ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค.
  • RetNet์€ Transformer์˜ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ O(1) ๋ณต์žก๋„๋กœ ํšจ์œจ์ ์ธ ์ถ”๋ก  ๋ฐ ๊ธด ์‹œํ€€์Šค ์ฒ˜๋ฆฌ ํšจ์œจ์„ฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

์ถœ์ฒ˜: Dual form of RetNet from the RetNet paper

RetNet์˜ ์ฃผ์š” ํŠน์ง•

  • Retention ๋ฉ”์ปค๋‹ˆ์ฆ˜

    • ์‹œํ€€์Šค๋ฅผ ๋ณ‘๋ ฌ์ ์œผ๋กœ ํ•™์Šตํ•˜๊ณ , ์ถ”๋ก  ์ค‘์—๋Š” ์ˆœ์ฐจ์ ์œผ๋กœ ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ฐฉ์‹์„ ์ฑ„ํƒ.
    • ๋ณ‘๋ ฌ ํ‘œํ˜„: Transformer์™€ ์œ ์‚ฌํ•œ ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต ๋ณ‘๋ ฌํ™” ์ง€์›.
    • ์ˆœ์ฐจ ํ‘œํ˜„: ์ถ”๋ก  ์‹œ ํšจ์œจ์„ฑ์„ ์œ„ํ•ด ์ˆœ์ฐจ์  ์ƒํƒœ ๊ฐฑ์‹ ์„ ์‚ฌ์šฉ.
    • ์ฒญํฌ ๋ณ‘๋ ฌ ํ‘œํ˜„: ๊ธด ์‹œํ€€์Šค์—์„œ ์ฒญํฌ ๋‹จ์œ„ ๋ณ‘๋ ฌํ™”๋ฅผ ํ†ตํ•ด ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰ ๊ฐ์†Œ.
  • Multi-Scale Retention (MSR)

    • ๊ฐ ํ—ค๋“œ(head)๋งˆ๋‹ค ์„œ๋กœ ๋‹ค๋ฅธ ๊ฐ์‡ ์œจ(Decay Rate)์„ ์ ์šฉํ•ด ๋‹ค์–‘ํ•œ ์Šค์ผ€์ผ๋กœ ์‹œํ€€์Šค๋ฅผ ๋ชจ๋ธ๋ง.
    • Swish ํ™œ์„ฑํ™” ํ•จ์ˆ˜์™€ Group Normalization์„ ์‚ฌ์šฉํ•ด ๋น„์„ ํ˜•์„ฑ์„ ๊ฐ•ํ™”ํ•˜๊ณ  ํ•™์Šต ์•ˆ์ •์„ฑ์„ ๊ฐœ์„ .
  • ํ•™์Šต ๋ฐ ์ถ”๋ก 

    • ํ•™์Šต: ๋ณ‘๋ ฌ ํ‘œํ˜„ ๋ฐ ์ฒญํฌ ๋ณ‘๋ ฌ ํ‘œํ˜„์„ ํ™œ์šฉํ•ด ๊ธด ์‹œํ€€์Šค ํ•™์Šต ์†๋„ ํ–ฅ์ƒ.
    • ์ถ”๋ก : O(1) ๋ณต์žก๋„๋กœ ํšจ์œจ์ ์ด๋ฉฐ, ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰๊ณผ ๋Œ€๊ธฐ ์‹œ๊ฐ„์„ ํฌ๊ฒŒ ๊ฐ์†Œ.

V-JEPA: Learning Visual Representations from Video

V-JEPA๋Š” ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•œ ํŠน์ง• ์˜ˆ์ธก(feature prediction)์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๋น„์ง€๋„ ํ•™์Šต ์ ‘๊ทผ๋ฒ•์„ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด V-JEPA๋ผ๋Š” ๋น„๋””์˜ค ํ•™์Šต ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ œ์•ˆํ•˜๋ฉฐ, ์ด๋Š” ํ”ฝ์…€ ๋ณต์›(pixel reconstruction) ๋Œ€์‹  ํŠน์ง• ์˜ˆ์ธก์„ ์‚ฌ์šฉํ•˜์—ฌ ๋น„๋””์˜ค์™€ ์ด๋ฏธ์ง€ ์ž‘์—…์—์„œ ํšจ์œจ์ ์ด๊ณ  ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

V-JEPA์˜ ๋ฐฐ๊ฒฝ

  • ๊ธฐ์กด ๋น„๋””์˜ค ๋ชจ๋ธ์€ ํ”ฝ์…€ ์ˆ˜์ค€์˜ ๋ณต์›์ด๋‚˜ ์ด๋ฏธ์ง€ ์‚ฌ์ „ ํ•™์Šต ์ธ์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•˜๋Š”๋ฐ, ์ด๋Š” ๋†’์€ ๊ณ„์‚ฐ ๋น„์šฉ๊ณผ ๋ฐ์ดํ„ฐ ์ข…์†์„ฑ์„ ์ดˆ๋ž˜ํ•ฉ๋‹ˆ๋‹ค.
  • V-JEPA๋Š” ํŠน์ง• ์˜ˆ์ธก์„ ๋‹จ๋… ๋ชฉํ‘œ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ๋” ๊ฐ„๋‹จํ•˜๊ณ  ํšจ์œจ์ ์ธ ๋น„์ง€๋„ ํ•™์Šต ๋ฐฉ๋ฒ•์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

์ถœ์ฒ˜: V-JEPA trains a visual encoder by predicting masked spatio-temporal regions in a learned latent space.

V-JEPA์˜ ์ฃผ์š” ํŠน์ง•

  • ํŠน์ง• ์˜ˆ์ธก ๊ธฐ๋ฐ˜ ํ•™์Šต

    • ํ”ฝ์…€ ๋ณต์›์ด ์•„๋‹Œ ํŠน์ง• ์˜ˆ์ธก์„ ํ†ตํ•ด ๋” ๊ฐ„๊ฒฐํ•˜๊ณ  ํšจ์œจ์ ์ธ ํ•™์Šต.
  • Self-supervised learning

    • ๋ ˆ์ด๋ธ” ์—†๋Š” ๋ฐ์ดํ„ฐ์—์„œ ๋น„์ง€๋„ ํ•™์Šต ์ˆ˜ํ–‰.
  • ๋ฉ€ํ‹ฐ๋ธ”๋ก ๋งˆ์Šคํ‚น(Multi-block masking)

    • ๊ณต๊ฐ„์  ๋ฐ ์‹œ๊ฐ„์  ์—ฐ์† ๋ธ”๋ก์„ ๋žœ๋ค์œผ๋กœ ์ œ๊ฑฐํ•˜์—ฌ ํ•™์Šต ๊ฐ•ํ™”๋ฅผ ์œ„ํ•œ ์–ด๋ ค์šด ์˜ˆ์ธก ์ž‘์—…์„ ์ƒ์„ฑ.
  • ์œ ์—ฐํ•œ ๋„คํŠธ์›Œํฌ ์„ค๊ณ„

    • ๋น„๋””์˜ค ์ „์šฉ ์•„ํ‚คํ…์ฒ˜๋กœ Vision Transformer(ViT)๋ฅผ ํ™œ์šฉ.

5. ์ƒˆ๋กœ์šด ๊ธฐ์ˆ ์˜ ํ†ตํ•ฉ๊ณผ ํ–ฅํ›„ ์ „๋ง

  1. ํšจ์œจ์„ฑ:

    MoE์™€ SSM์€ ์—ฐ์‚ฐ๋Ÿ‰ ๊ฐ์†Œ์™€ ์ž์› ํšจ์œจ์„ฑ์„, RetNet๊ณผ V-JEPA๋Š” ๊ธด ์‹œํ€€์Šค ๋ฐ ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ๊ฐ•์ ์„ ๋ณด์ž…๋‹ˆ๋‹ค.

  2. ๋ฒ”์šฉ์„ฑ:

    ์ด ๊ธฐ์ˆ ๋“ค์€ ์–ธ์–ด, ์ด๋ฏธ์ง€, ๋น„๋””์˜ค ๋“ฑ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์—์„œ ํ™œ์šฉ ๊ฐ€๋Šฅํ•˜๋ฉฐ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ AI๋กœ์˜ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ํ˜„๋Œ€ AI ๊ธฐ์ˆ ์˜ ์ƒ์ง•์ ์ธ ๋ชจ๋ธ์ด์ง€๋งŒ, ์—ฐ์‚ฐ ๋ณต์žก๋„์™€ ์ž์› ์†Œ๋น„๋ผ๋Š” ํ•œ๊ณ„๋กœ ์ธํ•ด ๋Œ€์ฒด ๊ธฐ์ˆ ์ด ํ•„์š”ํ•ด์กŒ์Šต๋‹ˆ๋‹ค. MoE, SSM, RetNet, V-JEPA์™€ ๊ฐ™์€ ํ˜์‹ ์ ์ธ ์•„ํ‚คํ…์ฒ˜๋Š” ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋ฉฐ, ํšจ์œจ์„ฑ๊ณผ ์„ฑ๋Šฅ ๋ชจ๋‘๋ฅผ ๊ฐ•ํ™”ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์˜ค๋Š˜์€ ๊ฐœ๋žต์ ์œผ๋กœ ํ•ด๋‹น ๋ชจ๋ธ๋“ค์— ๋Œ€ํ•ด์„œ ์‚ดํŽด๋ณด์•˜๋Š”๋ฐ์š”! ์ด ๋ชจ๋ธ๋“ค์€ ์ฐจ์„ธ๋Œ€ AI ๊ธฐ์ˆ ์˜ ๊ธฐ๋ฐ˜์„ ํ˜•์„ฑํ•˜๋ฉฐ, ์–ธ์–ด, ๋น„๋””์˜ค, ์ด๋ฏธ์ง€ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ์—์„œ ์ƒˆ๋กœ์šด ํ‘œ์ค€์ด ๋  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

์ฝ์–ด์ฃผ์…”์„œ ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค๐Ÿ™‡โ€โ™‚๏ธ



-->