[κ°λ ] μμ± AIμ νμ΅ λ°©μ: μ λ‘μ·Β·μμ·Β·ν¨μ· λ¬λ
μλ³Έ κ²μκΈ: https://velog.io/@euisuk-chung/μμ±-AIμ-νμ΅-λ°©μ-μ λ‘μ·μμ·ν¨μ·-λ¬λ
μ΅κ·Ό μ±GPTλ‘ μΈν΄ λΆμν μ λ‘μ·(zero-shot), μμ·(one-shot), ν¨μ·(few-shot) λ¬λ κΈ°λ²μ λ°μ΄ν°λ₯Ό μΌμΌμ΄ λΌλ²¨λ§νμ§ μκ³ λ λ¨Έμ λ¬λ λͺ¨λΈμ νμ΅μν¬ μ μλλ‘ ν΄μ€λλ€. ν΄λΉ ν¬μ€νΈλ CV(Computer Vision)
λ° NLP(Natural Language Processing)
μ κ΄μ μμ N-shot learningμ μ μνλ κ²μ λͺ©μ μΌλ‘ ν©λλ€.
ν΄λΉ κΈμ κ°μΈμ μΌλ‘ λ€μν μμ€μ κΈκ³Ό μμμ ν΅ν΄ 곡λΆνκ³ μμ±ν λ΄μ©μ λλ€. νλ¦° λ΄μ©μ΄ μλ€λ©΄ νΈνκ² λκΈλ‘ λ§μν΄μ£ΌμΈμ π€
μ λ‘μ·Β·μμ·Β·ν¨μ·μ΄λ?
-
Zero-shot learning (ZSL)μ λͺ¨λΈμ΄ νμ΅ κ³Όμ μμ
λ³Έ μ μλ
μλ‘μ΄ ν΄λμ€λ₯Ό μΈμν μ μλλ‘ νλ νμ΅ λ°©λ²μ λλ€. μ΄λ λͺ¨λΈμ΄ ν΄λμ€ κ°μ κ΄κ³λ μμ±μ ν΅ν΄ μΌλ°ννλ λ₯λ ₯μ νμ©ν©λλ€.β‘οΈ EX) μλ‘μ΄ ν΄λμ€μ λν μ€λͺ μ 보λ₯Ό μ λ ₯μΌλ‘ μ 곡ν΄μΌ ν©λλ€. μ΄λ―Έμ§ μΈμμμλ μ΄λ―Έμ§μ νΉμ§μ μ€λͺ νλ ν μ€νΈ μ 보λ₯Ό μ¬μ©νμ¬ μ΄μ μ λ³Έ μ μ΄ μλ μ΄λ―Έμ§λλΌλ ν΄μμ΄ κ°λ₯νκ² λ©λλ€.
-
One-shot learning (OSL)μ κ° ν΄λμ€μ λν΄
λ¨ νλμ μμ
λ§ μ 곡λ λ λͺ¨λΈμ΄ κ·Έ ν΄λμ€λ₯Ό μΈμν μ μλλ‘ νλ νμ΅ λ°©λ²μ λλ€. μ΄λ μ μ¬λ νμ΅μ΄λ λ©ν νμ΅ λ±μ κΈ°λ²μ νμ©νμ¬ κ΅¬νλ©λλ€.β‘οΈ EX) κ³ μμ΄λ₯Ό μΈμνλ λ₯λ¬λ λͺ¨λΈμκ² βμ€νν¬μ€βλΌλ μλ‘μ΄ μ’ λ₯μ κ³ μμ΄λ₯Ό μΈμνλλ‘ μμ²νλ€λ©΄, λͺ¨λΈμ μ΄μ μ λ³Έ μ μ΄ μλ μ€νν¬μ€ κ³ μμ΄ μ¬μ§ νλλ§μΌλ‘λ μΈμμ μνν μ μμ΄μΌ ν©λλ€. μ΄κ²μ νμ΅ λ°μ΄ν°κ° λ§€μ° μ νμ μΈ κ²½μ°μ μ μ©ν©λλ€.
-
Few-shot learning (FSL)μ ,
κ·Ήμλμ λ°μ΄ν°
λ§μ μ΄μ©νμ¬ μλ‘μ΄ μμ μ΄λ ν΄λμ€λ₯Ό λΉ λ₯΄κ² νμ΅νλλ‘ μ€κ³λ μκ³ λ¦¬μ¦μ λ§ν©λλ€. μ΄ λ°©λ²μ λ©ν λ¬λ(meta-learning)μ΄λ νμ΅ μ λ΅μ μ΅μ ν λ±μ ν΅ν΄ μ μ λ°μ΄ν°λ‘λ ν¨κ³Όμ μΈ μΌλ°ν(generalization) λ₯λ ₯μ κ°μΆλλ‘ ν©λλ€.β‘οΈ EX) μ°κ΅¬μλ€μ΄ μμ£Ό λλ¬Έ μ’ λ₯μ μλ¬Ό μ¬μ§ λͺ μ₯μ ν보νλ€κ³ ν λ, μ ν΅μ μΈ μ§λνμ΅ λͺ¨λΈμ μ΄ μλ¬Όμ νμ΅νκΈ°μ μΆ©λΆν λ°μ΄ν°κ° μλ€λ λ¬Έμ μ μ§λ©΄ν©λλ€. νμ§λ§ Few-shot learningμ μ¬μ©νλ©΄, μμμ μ΄λ―Έμ§λ§μΌλ‘λ λͺ¨λΈμ μλ‘μ΄ μλ¬Ό μ’ μ μΈμνκ³ λΆλ₯νλ λ°©λ²μ νμ΅ν μ μμ΅λλ€. μ΄λ¬ν μν©μμλ λ€μν μ¬μ νλ ¨λ λͺ¨λΈκ³Ό μ‘°ν©νμ¬ μ μ λ°μ΄ν°λ‘λ λμ μ νλλ₯Ό λ¬μ±ν μ μλ μ λ΅μ΄ μ€μνκ² μμ©ν©λλ€.
π‘ λ μμΈνκ² μ€λͺ
λ리기 μ μ λ¨Όμ λ³΅μ΅ μ°¨μμμ μ¬μ νμ΅
κ³Ό νμΈνλ
μ λν΄μ μ΄ν΄λ³ΌκΉμ?
Source: AIML.com Research
- μ¬μ νμ΅ λ¨κ³μμλ λͺ¨λΈμ΄ λκ·λͺ¨ λ°μ΄ν°μ μ μ¬μ©νμ¬ κ΄λ²μν μ§μμ νμ΅ν©λλ€. μ΄ κ³Όμ μ λͺ¨λΈμκ² μΌλ°μ μΈ ν¨ν΄, ꡬ쑰, μΈμ΄μ νΉμ± λ±μ μ΄ν΄νκ² νλ κΈ°λ°μ λ§λ ¨ν©λλ€. LLM λͺ¨λΈμ κ²½μ°, μ κ·Έλ¦Όμ²λΌ Large Text Corpus(λμ©λ ν μ€νΈ λ°μ΄ν°)λ₯Ό κΈ°λ°μΌλ‘ λ€μν Taskμ λνμ¬ μ¬μ νμ΅μ μννκ² λ©λλ€.
- νμΈνλ λ¨κ³μμλ μ¬μ νμ΅λ λͺ¨λΈμ μ’ λ νΉμ νμ€ν¬λ μ μ μμ λ°μ΄ν°μ μ ν©νλλ‘ μ‘°μ ν©λλ€. μλ₯Ό λ€μ΄, κΈμ΅ λλ©μΈ νΉν λͺ¨λΈ, λ²λ₯ λλ©μΈ νΉν λͺ¨λΈκ³Ό κ°μ νΉμ λλ©μΈμ μ΄μ μ λ λͺ¨λΈμ΄λΌλ©΄ ν΄λΉ λ°μ΄ν°λ‘ λͺ¨λΈ νμΈνλμ μνν΄μ£Όλ©΄ μ±λ₯μ΄ ν₯μλ©λλ€.
- μΈνΌλ°μ€ λ¨κ³μμλ νμ΅λ λͺ¨λΈμ μλ‘μ΄ λ°μ΄ν°μ μ μ©νμ¬ μμΈ‘μ μνν©λλ€.
μ’ λ μμΈν κ·Έλ¦ΌμΌλ‘ νλ² λ€μ μ 리ν΄λ³΄λλ‘ νκ² μ΅λλ€. λ€μν λλ©μΈκ³Ό TASKμ λνμ¬ μ¬μ νμ΅μ μννκ³ λ λ€μ, νΉμ λλ©μΈ/Taskμ λν΄μ νμΈνλμ ν΅ν΄ λͺ¨λΈ μ±λ₯μ ν₯μμν¬ μ μμ΅λλ€.
Source: https://www.saltlux.com/
π‘ κ·ΈλΌ μΈμ Few-shotμ΄ μ°μ΄λ κ±°μ§?π€
ZSL(Zero-shot Learning)
, OSL(One-shot Learning)
, FSL(Few-shot Learning)
μ λ₯λ¬λ λͺ¨λΈμ μΌλ°μ μΈ νμ΅ λ° μ μ© λ¨κ³μΈ μ¬μ νμ΅(pretraining) -> νμΈνλ(finetuning) -> μΈνΌλ°μ€(inference) κ³Όμ μμ μ£Όλ‘ νμΈνλ λ¨κ³μ μΈνΌλ°μ€ λ¨κ³μμ μ€μν μν μ ν©λλ€. μ΄λ€ λ°©λ²μ μ μ©κ³Ό λͺ©μ μ κ° λ¨κ³λ³λ‘ μ΄ν΄λ³΄κ² μ΅λλ€.
μ¬μ νμ΅ (Pretraining)
- ZSL, OSL, FSL μ체λ μ΄ λ¨κ³μμ μ§μ μ μΌλ‘ μνλμ§ μμ§λ§, μ¬μ νμ΅λ λͺ¨λΈμ μ΄νμ ZSL, OSL, FSL μ μ©μ μν κΈ°λ°μ μ 곡ν©λλ€. νΉν, μ¬μ νμ΅μ΄ μ λ λͺ¨λΈμ ZSLμμ λ μ’μ μ±λ₯μ λ³΄μΌ κ°λ₯μ±μ΄ λμ΅λλ€.
- μ΄λ μ¬μ νμ΅ κ³Όμ μμ λͺ¨λΈμ΄ λ€μν λ°μ΄ν°μ μν©μ κ²½ννλ©°, κ·Έ κ³Όμ μμ μΌλ°ν λ₯λ ₯μ κ°λ°νκΈ° λλ¬Έμ λλ€. κ·Έ κ²°κ³Ό, λͺ¨λΈμ νμ΅ κ³Όμ μμ μ§μ μ μΌλ‘ λ³΄μ§ λͺ»ν μλ‘μ΄ ν΄λμ€μ λν΄μλ μ μλ―Έν μΆλ‘ μ ν μ μλ λ₯λ ₯μ κ°μΆκ² λ©λλ€.
νμΈνλ (Finetuning)
- ZSLμ νΉλ³ν κ²½μ°λ‘, μ¬μ μ λ³Έ μ μλ ν΄λμ€μ λν μΈμμ λͺ©νλ‘ νκΈ° λλ¬Έμ, μ ν΅μ μΈ νμΈνλ보λ€λ μΈνΌλ°μ€ λ¨κ³μμ λͺ¨λΈμ΄ μ΄λ»κ² μλ‘μ΄ ν΄λμ€λ₯Ό μ²λ¦¬ν μ μλμ§μ λ μ€μ μ λ‘λλ€.
- OSLκ³Ό FSLμ μ΄ λ¨κ³μμ ν° μν μ ν©λλ€. μ μ μμ λ°μ΄ν°λ‘ λͺ¨λΈμ μ‘°μ νμ¬ νΉμ νμ€ν¬μ λν λͺ¨λΈμ μ±λ₯μ μ΅μ νν μ μμ΅λλ€. μ΄λ νΉν μμμ μμλ§μ μ¬μ©νμ¬ λͺ¨λΈμ΄ νΉμ ν΄λμ€λ₯Ό μΈμνλλ‘ νλ λ° μ€μν©λλ€.
μΈνΌλ°μ€ (Inference)
- ZSL, OSL, FSLμ μ΄ λ¨κ³μμ ν΅μ¬μ μΈ μν μ ν©λλ€. λͺ¨λΈμ΄ λ³Έ μ μλ λ°μ΄ν°λ μμμ μμλ₯Ό κΈ°λ°μΌλ‘ λΆλ₯, μΈμ, μμΈ‘ λ±μ νμ€ν¬λ₯Ό μννλ λ₯λ ₯μ΄ μ΄ λ¨κ³μμ νκ°λ©λλ€.
π μμ½νμλ©΄, ZSLμ μ£Όλ‘ μΈνΌλ°μ€ λ¨κ³μμ λ³Έ μ μλ ν΄λμ€λ₯Ό μ²λ¦¬νλ λͺ¨λΈμ λ₯λ ₯μ λνλ΄λ©°, OSLκ³Ό FSLμ νμΈνλ λ¨κ³μμ λͺ¨λΈμ νΉμ νμ€ν¬μ μ΅μ ννλ λ° μ€μν μν μ νκ³ , μΈνΌλ°μ€ λ¨κ³μμλ κ·Έ μ±λ₯μ΄ νκ°λ©λλ€. μ΄λ¬ν λ°©λ²λ€μ λͺ¨λΈμ΄ μ νλ μ 보λ‘λΆν° νμ΅νκ³ , μ μνλ©°, μμΈ‘νλ λ₯λ ₯μ κ·Ήλννλ λ° λμμ μ€λλ€.
Supervised vs Few-shot Learning
μ§κΈκΉμ§ ZSL, OSL, FSLμ κ°λ κ³Ό μ΄λ λ¨κ³(step)μμ μ¬μ©λλμ§ μ΄ν΄λ΄€λλ°μ. μ΄μ―€ λλ©΄ μ΄λ° κΆκΈμ¦μ΄ μκΈ°μ€ κ² κ°μ΅λλ€.
π€κ·Έλ λ€λ©΄ μΌλ°μ μΈ Supervised Learning(μ§λνμ΅)κ³Ό Few-shot Learning(ν¨μ·λ¬λ)μ νμ΅ λ©΄μμ μ΄λ€ μ°¨μ΄κ° μμκΉ?
μ§λ νμ΅(Supervised Learning)
μ λ μ΄λΈμ΄ μ§μ λ λκ·λͺ¨μ νλ ¨ λ°μ΄ν°λ₯Ό μ¬μ©νμ¬ λͺ¨λΈμ νλ ¨μν€λ κΈ°κ³ νμ΅μ ν ννμ
λλ€. μ΄ κ³Όμ μμ λͺ¨λΈμ μ
λ ₯ λ°μ΄ν°μμ μΆλ ₯ λ μ΄λΈμ μμΈ‘νλ λ°©λ²μ νμ΅ν©λλ€. νλ ¨ λ°μ΄ν°λ λ€μν νΉμ§(feature)μ ν¬ν¨νκ³ μμΌλ©°, κ° μνμ νΉμ λ μ΄λΈκ³Ό μ°κ΄λμ΄ μμ΅λλ€. μΌλ¨ λͺ¨λΈμ΄ μΆ©λΆν λ°μ΄ν°λ‘ νλ ¨λκ³ λλ©΄, μλ‘μ΄, μ μ λ³Έ μ μλ λ°μ΄ν°μ λν μμΈ‘μ ν μ μκ² λ©λλ€. (νμ§λ§, μ΄λ¬ν μμΈ‘μ νλ ¨ μ€μ λͺ¨λΈμ΄ νμ΅ν ν΄λμ€ λ΄μμ μ΄λ£¨μ΄μ§λλ€.)
λ°λ©΄μ, Few-shot Learning
μ μ§λ νμ΅μ ν ννμ΄μ§λ§, λ§€μ° μ μ μμ νλ ¨ μνλ‘λΆν° νμ΅(λλ κ²μ¦)νλ λ° μ€μ μ λ‘λλ€. μ΄ λ°©λ²λ‘ μ λͺ¨λΈμ΄ μλ‘κ³ μλ €μ§μ§ μμ ν΄λμ€μ λ°μ΄ν°μ λν΄ μμΈ‘μ μνν μ μκ² νκΈ° μν΄ μ€κ³λμμ΅λλ€. Few-shot Learning μλ리μ€μμλ μ§μ μΈνΈ(Support Set)κ° μ 곡λλ©°, μ΄λ κ° ν΄λμ€μ λͺ κ°μ§ μμλ§μ ν¬ν¨ν©λλ€. κ·Έ ν, 쿼리 μν(Query Sample)μ΄ μ£Όμ΄μ§λ©΄ λͺ¨λΈμ μ§μ μΈνΈλ₯Ό κΈ°λ°μΌλ‘ μ΄ μνμ΄ μ΄λ€ ν΄λμ€μ μνλμ§ μμΈ‘ν΄μΌ ν©λλ€. μ¬κΈ°μ μ€μν μ μ 쿼리 μνμ΄ νλ ¨ κ³Όμ μμ λ³Έ μ μλ μλ‘μ΄ ν΄λμ€μμ μ¨ κ²μΌ μ μλ€λ κ²μ
λλ€.
μ΄λ μλ κ·Έλ¦ΌμΌλ‘ μ§κ΄μ μΌλ‘ μ€λͺ
μ΄ κ°λ₯ν κ² κ°μ΅λλ€. μ’μΈ‘μ κ·Έλ¦Ό(Supervised Learning)μμλ μ€μ νμ΅ λ°μ΄ν°μ
μ μλ ν΄λμ€μΈ Husky
λ₯Ό λΆλ₯νκ³ μλ κ²μ λ³Ό μ μμ΅λλ€. λ°λ©΄μ μ°μΈ‘μ κ·Έλ¦Ό(Few-Shot Learning)μμλ μ€μ νμ΅ λ°μ΄ν°μ
μλ Rabbitμ΄ μκ³ μ΄λ₯Ό λΆλ₯νκ³ μ νλ κ²μ λ³Ό μ μμ΅λλ€.
Source: Youtube Lecture Slide(Shusen Wang)
μ»΄ν¨ν° λΉμ (CV)μμμ ν¨μ·λ¬λ
μ μ
μ»΄ν¨ν° λΉμ μμ ZSL, OSL, FSLμ μ΄λ―Έμ§ λΆλ₯
, κ°μ²΄ μΈμ
λ±μ νμ€ν¬μμ νμ©λλ©°, λͺ¨λΈμ΄ μ μ μμλ λ³Έ μ μλ μμλ₯Ό κΈ°λ°μΌλ‘ κ°μ²΄λ₯Ό μΈμνκ±°λ λΆλ₯ν μ μκ² ν©λλ€.
μμ
- ZSL: λͺ¨λΈμ΄ μ¬μ μ μ μλ μμ±μ ν΅ν΄ μλ‘μ΄ κ°μ²΄λ₯Ό μΈμνλ κ²½μ°, μλ₯Ό λ€μ΄, βμ λͺ¨μ°¨βλ₯Ό βλ°ν΄κ° λ€ κ° μκ³ μκΈ°λ₯Ό νμΈ μ μλβ μμ±μ ν΅ν΄ μΈμν©λλ€.
- OSL: νΉμ λλ¬Όμ ν μ₯μ μ¬μ§μ νμ΅νμ¬, λ€λ₯Έ μ¬μ§ μ κ°μ λλ¬Όμ μΈμν©λλ€.
- FSL: μ μ’ λ₯λ₯Ό λͺ μ₯μ μ¬μ§λ§ λ³΄κ³ λΆλ₯νλ κ²½μ°μ λλ€.
νμ΅ λ°©λ² λ° λ°μ΄ν°μ ꡬμ±
λ°μ΄ν°μ κ΅¬μ± μμ:
- Zero-Shot Learning: λ°μ΄ν°μ μ μ΄λ―Έμ§μ κ·Έ μ΄λ―Έμ§κ° μν ν΄λμ€μ μ€λͺ (μ: μμ±, κ΄κ³)μ ν¬ν¨ν©λλ€. μλ₯Ό λ€μ΄, βμ λͺ¨μ°¨β ν΄λμ€μλ βλ°ν΄κ° 4κ°β, βμκΈ°λ₯Ό νμΈ μ μλβ κ°μ μμ±μ΄ λ μ΄λΈλ‘ λ¬λ¦΄ μ μμ΅λλ€.
- One-Shot Learning: κ° ν΄λμ€μμ νλμ μ΄λ―Έμ§λ§ μ 곡λ©λλ€. μλ₯Ό λ€μ΄, βκ³ μμ΄β ν΄λμ€μ λν΄ νλμ κ³ μμ΄ μ΄λ―Έμ§λ₯Ό νμ΅ λ°μ΄ν°λ‘ μ¬μ©ν©λλ€.
- Few-Shot Learning: μμμ μ΄λ―Έμ§(λ³΄ν΅ 2~5κ°)λ₯Ό κ° ν΄λμ€λ³λ‘ μ 곡ν©λλ€. βκ°μμ§β ν΄λμ€μ λν΄ 5κ°μ λ€μν κ°μμ§ μ΄λ―Έμ§κ° νμ΅ λ°μ΄ν°μ μ ν¬ν¨λ©λλ€.
νμ΅ λ°©λ²:
- ZSLμμλ λͺ¨λΈμ΄ μ΄λ―Έμ§ μμ±κ³Ό ν΄λμ€ κ°μ κ΄κ³λ₯Ό νμ΅νμ¬, λ³Έ μ μλ ν΄λμ€μ μ΄λ―Έμ§λ₯Ό μΈμν μ μμ΅λλ€.
- OSLκ³Ό FSLμμλ μ μ¬λ μΈ‘μ , λ©ν νμ΅, λ°μ΄ν° μ¦κ° λ±μ νμ©ν΄ μ νλ μμλ‘λΆν° ν΄λμ€λ₯Ό νμ΅ν©λλ€.
κ²μ¦ λ°©λ²
κ²μ¦μ νμ΅ λ°μ΄ν°μ μμ λ³Έ μ μλ μλ‘μ΄ μ΄λ―Έμ§λ ν΄λμ€λ₯Ό μΌλ§λ μ λΆλ₯νλμ§λ₯Ό νκ°ν©λλ€. κ²μ¦ λ°μ΄ν°μ μ λ€μν μμ€μμ κ°μ Έμ¨ μλ‘μ΄ μ΄λ―Έμ§λ‘ ꡬμ±λ©λλ€.
μμ°μ΄μ²λ¦¬(NLP)μμμ ν¨μ·λ¬λ
μ μ
NLPμμ μ΄λ¬ν νμ΅ λ°©μμ ν
μ€νΈ λΆλ₯
, κΈ°κ³ λ²μ
, μ§μ μλ΅
λ±μ μ μ©λ©λλ€. λͺ¨λΈμ μ¬μ νμ΅λ μ§μμ νμ©νκ±°λ μ νλ λ°μ΄ν°λ‘λΆν° νΉμ νμ€ν¬λ₯Ό μνν©λλ€.
μμ
- ZSL: λͺ¨λΈμ΄ νΉμ μ£Όμ μ λν μ§λ¬Έμ λλ΅νλ κ²½μ°, μλ₯Ό λ€μ΄, μ¬μ μ νμ΅λμ§ μμ μλ‘μ΄ μ£Όμ μ λν μ§λ¬Έμ λλ€.
- OSL: ν κ°μ§ μ€νμΌμ ν μ€νΈ μμλ₯Ό λ³΄κ³ κ·Έ μ€νμΌλ‘ κΈμ μ°λ κ²½μ°μ λλ€.
- FSL: λͺ κ°μ§ μμ λ¬Έμ₯μ ν΅ν΄ μλ‘μ΄ μ£Όμ μ λν΄ κΈμ μ°λ κ²½μ°μ λλ€.
νμ΅ λ°©λ² λ° λ°μ΄ν°μ ꡬμ±
λ°μ΄ν°μ κ΅¬μ± μμ:
- Zero-Shot Learning: νμ΅ λ°μ΄ν°μ μ λ€μν μ£Όμ μ ν μ€νΈλ₯Ό ν¬ν¨νλ©°, λͺ¨λΈμ μ΄λ₯Ό ν΅ν΄ μΌλ°νλ μΈμ΄ μ΄ν΄λ₯Ό νμ΅ν©λλ€. μλ₯Ό λ€μ΄, μ£Όμ μ λν κΈ°μ¬λ λΈλ‘κ·Έ ν¬μ€νΈκ° μ¬μ©λ μ μμ΅λλ€.
- One-Shot Learning: κ° ν΄λμ€μ λν΄ νλμ ν μ€νΈ μμλ§ μ 곡λ©λλ€. μλ₯Ό λ€μ΄, βκΈμ μ μΈ λ¦¬λ·°β ν΄λμ€μ λν νλμ κΈμ 리뷰 μμκ° μ 곡λ©λλ€.
- Few-Shot Learning: κ° ν΄λμ€λ³λ‘ μμμ ν μ€νΈ μμλ₯Ό μ 곡ν©λλ€. βλΆμ μ μΈ λ¦¬λ·°β ν΄λμ€μ λν΄ 5κ°μ λ€μν λΆμ λ¦¬λ·°κ° νμ΅ λ°μ΄ν°λ‘ μ¬μ©λ©λλ€.
νμ΅ λ°©λ²:
- ZSLμμλ λͺ¨λΈμ΄ ν μ€νΈμ μ£Όμ λ κ°μ λ±μ μ΄ν΄νκ³ , λ³Έ μ μλ μλ‘μ΄ νμ€ν¬μ μ΄λ₯Ό μ μ©ν μ μμ΄μΌ ν©λλ€.
- OSLκ³Ό FSLμμλ ν둬νν , λ°μ΄ν° μ¦κ°, λ©ν νμ΅μ ν΅ν΄ μ νλ λ°μ΄ν°λ‘λΆν° νμ€ν¬λ₯Ό νμ΅ν©λλ€.
κ²μ¦ λ°©λ²
κ²μ¦μ λͺ¨λΈμ΄ νμ΅ κ³Όμ μμ λ³Έ μ μλ μλ‘μ΄ λ¬Έμ μ μΌλ§λ μ λμνλμ§λ₯Ό νκ°ν©λλ€. κ²μ¦ λ°μ΄ν°μ μ λ€μν μ£Όμ λ μ€νμΌμ ν μ€νΈλ‘ ꡬμ±λ©λλ€.
CV vs LLM Few-shot Learning
곡ν΅μ
λ λΆμΌ λͺ¨λ ZSL, OSL, FSLμ μ¬μ©νμ¬ μ νλ λ°μ΄ν°λ‘λΆν° λͺ¨λΈμ μΌλ°ν λ° μ μ λ₯λ ₯μ κ°μ ν©λλ€. λν, μ¬μ νμ΅λ λͺ¨λΈκ³Ό λ©ν νμ΅ κΈ°λ²μ΄ μ€μν μν μ ν©λλ€.
π‘ λ©ν νμ΅ κΈ°λ²μ΄λ?
λ©ν νμ΅(Meta-learning)
κΈ°λ²μ βνμ΅μ νμ΅νλβ λ°©μμΌλ‘, λͺ¨λΈμ΄ λ€μν νμ€ν¬μμ λΉ λ₯΄κ² νμ΅νκ³ μ μνλ λ°©λ²μ λ°°μ°λ νμ΅ μ κ·Ό λ°©μμ λλ€. μ΄ κΈ°λ²μ ν΅μ¬ μμ΄λμ΄λ λͺ¨λΈμ΄ μλ‘μ΄ μμ μ΄λ μλμ λ°μ΄ν°λ‘λΆν° ν¨μ¨μ μΌλ‘ νμ΅νλ λ²μ νμ΅ν¨μΌλ‘μ¨, λ³Έ μ μλ νμ€ν¬μ λν΄ λΉ λ₯΄κ² μ μνκ³ μμΈ‘μ μνν μ μλλ‘ νλ κ²μ λλ€. λ©ν νμ΅μ νΉν Zero-shot Learning (ZSL), One-shot Learning (OSL), κ·Έλ¦¬κ³ Few-shot Learning (FSL)κ³Ό κ°μ΄ λ°μ΄ν°κ° μ νμ μΈ μν©μμ λͺ¨λΈμ μ±λ₯μ κ°μ νλ λ° μ μ©ν©λλ€.
μ°¨μ΄μ
CVμ NLPλ λ€λ£¨λ λ°μ΄ν°μ νν(μ΄λ―Έμ§ vs. ν μ€νΈ)μ κ΄λ ¨ νμ€ν¬μμ μ°¨μ΄λ₯Ό 보μ λλ€. NLPλ ν둬νν μ΄ μμ£Ό μ¬μ©λλ©°, μ΄λ μ¬μ νμ΅λ μΈμ΄ λͺ¨λΈμ νμ©ν΄ μλ‘μ΄ νμ€ν¬μ μ μνλ λ°©λ²μ λλ€. λ°λ©΄, CVμμλ μ΄λ―Έμ§μ μμ±μ΄λ μ μ¬λλ₯Ό κΈ°λ°μΌλ‘ νμ΅νλ κ²½μ°κ° λ§μ΅λλ€.
μμ) CV μ μ¬λ κΈ°λ° Training
πΊ μ»΄ν¨ν° λΉμ (CV)μμ μ μ¬λ κΈ°λ° νμ΅μ μ£Όλ‘ μ΄λ―Έμ§ κ°μ μκ°μ μ μ¬μ±μ νκ°νλ λ° μ¬μ©λ©λλ€. μλ₯Ό λ€μ΄, Siamese λ€νΈμν¬λ λ μ΄λ―Έμ§κ° κ°μ ν΄λμ€μ μνλμ§ μ¬λΆλ₯Ό νλ³νκΈ° μν΄ νλ ¨λ©λλ€. μ΄ κ³Όμ μμ, λ€νΈμν¬λ λ μ΄λ―Έμ§μ νΉμ§μ μΆμΆνκ³ , μ΄ νΉμ§ λ²‘ν° κ°μ 거리 λλ μ μ¬λλ₯Ό κ³μ°ν©λλ€.
μμ: μλ κ·Έλ¦Όμμ, λͺ¨λΈμ μ¬λ¬Ό μ¬μ§ λ μ₯μ μ λ ₯μΌλ‘ λ°μ΅λλ€. Siamese λ€νΈμν¬λ λ μ¬λ¬Όμμ νΉμ§ 벑ν°λ₯Ό μΆμΆνκ³ , μ΄ λ μ¬λ¬Όμ΄ κ°μκ°μ μ¬λΆλ₯Ό νλ³νκΈ° μν΄ νΉμ§ λ²‘ν° κ°μ μ μ¬λλ₯Ό κ³μ°ν©λλ€. νμ΅ κ³Όμ μμ λ€νΈμν¬λ λ€μν μ¬λ¬Ό μ΄λ―Έμ§ μμ μ¬μ©νμ¬, μ μ¬λλ₯Ό μ ννκ² μΈ‘μ νλ λ°©λ²μ λ°°μλλ€.
Source: Siamese Neural Networks for One-shot Image Recognition (λ Όλ¬Έ)
μμ) NLP ν둬νν κΈ°λ° Inference
π£οΈ μμ°μ΄ μ²λ¦¬(NLP)μμ ν둬νν μ μ¬μ νμ΅λ μΈμ΄ λͺ¨λΈμ μλ‘μ΄ νμ€ν¬μ μ μμν€λ κ°λ ₯ν λ°©λ²μΌλ‘ μ¬μ©λ©λλ€. ν둬ννΈλ λͺ¨λΈμκ² νΉμ μμ μ μννλλ‘ μ§μνλ ν μ€νΈ μ‘°κ°μ λλ€.
μμ: GPT-3μ κ°μ λκ·λͺ¨ μΈμ΄ λͺ¨λΈμ μ¬μ©νλ μ§λ¬Έ-λ΅λ³ μμ€ν μμ, μμ€ν μ βλ² λ₯Όλ¦°μ μ΄λ λλΌμ μλμ λκΉ?βμ κ°μ μ§λ¬Έμ λν λ΅λ³μ μμ±νκΈ° μν΄ ν둬ννΈλ₯Ό μ¬μ©ν©λλ€. ν둬ννΈλ μ§λ¬Έ νμμΌλ‘ ꡬμ±λλ©°, λͺ¨λΈμ μ΄λ₯Ό λ°νμΌλ‘ κ΄λ ¨ μ§μμ νμ©νμ¬ βλ² λ₯Όλ¦°μ λ μΌμ μλμ λλ€.βμ κ°μ λ΅λ³μ μμ±ν©λλ€.
μ΄λ ν둬νν λ°©μμΌλ‘ Zero-shot, One-shot, Few-shot κΈ°λ²μ ν΅ν΄ λͺ¨λΈμ΄ μ§μ μ μΌλ‘ νμ΅νμ§ μμ νμ€ν¬μ λν΄μλ μ μ©ν λ΅λ³μ μμ±ν μ μλλ‘ ν©λλ€. μ΄λ κΈ°μ‘΄μ Transfer Learningκ³Ό λ€λ₯Έ λ°©μμ λλ€.
Source: Language Models are Few-Shot Learners (λ Όλ¬Έ)
μ΄κ²μΌλ‘ μ λ‘μ·(zero-shot), μμ·(one-shot), ν¨μ·(few-shot)μ κ°λ μ λν΄μ μ΄ν΄λ³΄κ³ , κ°κ° μ»΄ν¨ν° λΉμ (CV), μμ°μ΄ μ²λ¦¬(NLP) κ΄μ μμ λΉκ΅ν΄λ³΄λ μκ°μ κ°μ‘μ΅λλ€.
μ¬λ¬λΆμ μ견μ μ΄λ€κ°μ? μ»΄ν¨ν° λΉμ (CV)κ³Ό μμ°μ΄ μ²λ¦¬(NLP)μμμ Few-shot Learningμ΄ λμΌνλ€κ³ λκ»΄μ§μλμ? μ견μ μλ λκΈλ‘ λ¨κ²¨μ£ΌμΈμ π€