[κ°œλ…] 생성 AI의 ν•™μŠ΅ 방식: μ œλ‘œμƒ·Β·μ›μƒ·Β·ν“¨μƒ· λŸ¬λ‹

Posted by Euisuk's Dev Log on March 11, 2024

[κ°œλ…] 생성 AI의 ν•™μŠ΅ 방식: μ œλ‘œμƒ·Β·μ›μƒ·Β·ν“¨μƒ· λŸ¬λ‹

원본 κ²Œμ‹œκΈ€: https://velog.io/@euisuk-chung/생성-AI의-ν•™μŠ΅-방식-μ œλ‘œμƒ·μ›μƒ·ν“¨μƒ·-λŸ¬λ‹

졜근 μ±—GPT둜 인해 λΆ€μƒν•œ μ œλ‘œμƒ·(zero-shot), 원샷(one-shot), 퓨샷(few-shot) λŸ¬λ‹ 기법은 데이터λ₯Ό 일일이 λΌλ²¨λ§ν•˜μ§€ μ•Šκ³ λ„ λ¨Έμ‹ λŸ¬λ‹ λͺ¨λΈμ„ ν•™μŠ΅μ‹œν‚¬ 수 μžˆλ„λ‘ ν•΄μ€λ‹ˆλ‹€. ν•΄λ‹Ή ν¬μŠ€νŠΈλŠ” CV(Computer Vision) 및 NLP(Natural Language Processing)의 κ΄€μ μ—μ„œ N-shot learning을 μ •μ˜ν•˜λŠ” 것을 λͺ©μ μœΌλ‘œ ν•©λ‹ˆλ‹€.

ν•΄λ‹Ή 글은 개인적으둜 λ‹€μ–‘ν•œ μ†ŒμŠ€μ˜ κΈ€κ³Ό μ˜μƒμ„ 톡해 κ³΅λΆ€ν•˜κ³  μž‘μ„±ν•œ λ‚΄μš©μž…λ‹ˆλ‹€. ν‹€λ¦° λ‚΄μš©μ΄ μžˆλ‹€λ©΄ νŽΈν•˜κ²Œ λŒ“κΈ€λ‘œ λ§μ”€ν•΄μ£Όμ„Έμš” πŸ€—

μ œλ‘œμƒ·Β·μ›μƒ·Β·ν“¨μƒ·μ΄λž€?

  • Zero-shot learning (ZSL)은 λͺ¨λΈμ΄ ν•™μŠ΅ κ³Όμ •μ—μ„œ λ³Έ 적 μ—†λŠ” μƒˆλ‘œμš΄ 클래슀λ₯Ό 인식할 수 μžˆλ„λ‘ ν•˜λŠ” ν•™μŠ΅ λ°©λ²•μž…λ‹ˆλ‹€. μ΄λŠ” λͺ¨λΈμ΄ 클래슀 κ°„μ˜ κ΄€κ³„λ‚˜ 속성을 톡해 μΌλ°˜ν™”ν•˜λŠ” λŠ₯λ ₯을 ν™œμš©ν•©λ‹ˆλ‹€.

    ➑️ EX) μƒˆλ‘œμš΄ ν΄λž˜μŠ€μ— λŒ€ν•œ μ„€λͺ… 정보λ₯Ό μž…λ ₯으둜 μ œκ³΅ν•΄μ•Ό ν•©λ‹ˆλ‹€. 이미지 μΈμ‹μ—μ„œλŠ” μ΄λ―Έμ§€μ˜ νŠΉμ§•μ„ μ„€λͺ…ν•˜λŠ” ν…μŠ€νŠΈ 정보λ₯Ό μ‚¬μš©ν•˜μ—¬ 이전에 λ³Έ 적이 μ—†λ˜ 이미지더라도 해석이 κ°€λŠ₯ν•˜κ²Œ λ©λ‹ˆλ‹€.

  • One-shot learning (OSL)은 각 ν΄λž˜μŠ€μ— λŒ€ν•΄ 단 ν•˜λ‚˜μ˜ μ˜ˆμ‹œλ§Œ 제곡될 λ•Œ λͺ¨λΈμ΄ κ·Έ 클래슀λ₯Ό 인식할 수 μžˆλ„λ‘ ν•˜λŠ” ν•™μŠ΅ λ°©λ²•μž…λ‹ˆλ‹€. μ΄λŠ” μœ μ‚¬λ„ ν•™μŠ΅μ΄λ‚˜ 메타 ν•™μŠ΅ λ“±μ˜ 기법을 ν™œμš©ν•˜μ—¬ κ΅¬ν˜„λ©λ‹ˆλ‹€.

    ➑️ EX) 고양이λ₯Ό μΈμ‹ν•˜λŠ” λ”₯λŸ¬λ‹ λͺ¨λΈμ—κ²Œ β€œμŠ€ν•‘ν¬μŠ€β€λΌλŠ” μƒˆλ‘œμš΄ μ’…λ₯˜μ˜ 고양이λ₯Ό μΈμ‹ν•˜λ„λ‘ μš”μ²­ν•œλ‹€λ©΄, λͺ¨λΈμ€ 이전에 λ³Έ 적이 μ—†λŠ” μŠ€ν•‘ν¬μŠ€ 고양이 사진 ν•˜λ‚˜λ§ŒμœΌλ‘œλ„ 인식을 μˆ˜ν–‰ν•  수 μžˆμ–΄μ•Ό ν•©λ‹ˆλ‹€. 이것은 ν•™μŠ΅ 데이터가 맀우 μ œν•œμ μΈ κ²½μš°μ— μœ μš©ν•©λ‹ˆλ‹€.

  • Few-shot learning (FSL)은 , κ·Ήμ†ŒλŸ‰μ˜ λ°μ΄ν„°λ§Œμ„ μ΄μš©ν•˜μ—¬ μƒˆλ‘œμš΄ μž‘μ—…μ΄λ‚˜ 클래슀λ₯Ό λΉ λ₯΄κ²Œ ν•™μŠ΅ν•˜λ„λ‘ μ„€κ³„λœ μ•Œκ³ λ¦¬μ¦˜μ„ λ§ν•©λ‹ˆλ‹€. 이 방법은 메타 λŸ¬λ‹(meta-learning)μ΄λ‚˜ ν•™μŠ΅ μ „λž΅μ˜ μ΅œμ ν™” 등을 톡해 적은 λ°μ΄ν„°λ‘œλ„ 효과적인 μΌλ°˜ν™”(generalization) λŠ₯λ ₯을 갖좔도둝 ν•©λ‹ˆλ‹€.

    ➑️ EX) μ—°κ΅¬μžλ“€μ΄ μ•„μ£Ό λ“œλ¬Έ μ’…λ₯˜μ˜ 식물 사진 λͺ‡ μž₯을 ν™•λ³΄ν–ˆλ‹€κ³  ν•  λ•Œ, 전톡적인 μ§€λ„ν•™μŠ΅ λͺ¨λΈμ€ 이 식물을 ν•™μŠ΅ν•˜κΈ°μ— μΆ©λΆ„ν•œ 데이터가 μ—†λ‹€λŠ” λ¬Έμ œμ— μ§λ©΄ν•©λ‹ˆλ‹€. ν•˜μ§€λ§Œ Few-shot learning을 μ‚¬μš©ν•˜λ©΄, μ†Œμˆ˜μ˜ μ΄λ―Έμ§€λ§ŒμœΌλ‘œλ„ λͺ¨λΈμ€ μƒˆλ‘œμš΄ 식물 쒅을 μΈμ‹ν•˜κ³  λΆ„λ₯˜ν•˜λŠ” 방법을 ν•™μŠ΅ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ μƒν™©μ—μ„œλŠ” λ‹€μ–‘ν•œ 사전 ν›ˆλ ¨λœ λͺ¨λΈκ³Ό μ‘°ν•©ν•˜μ—¬ 적은 λ°μ΄ν„°λ‘œλ„ 높은 정확도λ₯Ό 달성할 수 μžˆλŠ” μ „λž΅μ΄ μ€‘μš”ν•˜κ²Œ μž‘μš©ν•©λ‹ˆλ‹€.

πŸ’‘ 더 μžμ„Έν•˜κ²Œ μ„€λͺ…λ“œλ¦¬κΈ° 전에 λ¨Όμ € 볡슡 μ°¨μ›μ—μ„œ μ‚¬μ „ν•™μŠ΅κ³Ό νŒŒμΈνŠœλ‹μ— λŒ€ν•΄μ„œ μ‚΄νŽ΄λ³ΌκΉŒμš”?

Few-shot

Source: AIML.com Research

  • μ‚¬μ „ν•™μŠ΅ λ‹¨κ³„μ—μ„œλŠ” λͺ¨λΈμ΄ λŒ€κ·œλͺ¨ 데이터셋을 μ‚¬μš©ν•˜μ—¬ κ΄‘λ²”μœ„ν•œ 지식을 ν•™μŠ΅ν•©λ‹ˆλ‹€. 이 과정은 λͺ¨λΈμ—κ²Œ 일반적인 νŒ¨ν„΄, ꡬ쑰, 언어적 νŠΉμ„± 등을 μ΄ν•΄ν•˜κ²Œ ν•˜λŠ” κΈ°λ°˜μ„ λ§ˆλ ¨ν•©λ‹ˆλ‹€. LLM λͺ¨λΈμ˜ 경우, μœ„ 그림처럼 Large Text Corpus(λŒ€μš©λŸ‰ ν…μŠ€νŠΈ 데이터)λ₯Ό 기반으둜 λ‹€μ–‘ν•œ Task에 λŒ€ν•˜μ—¬ μ‚¬μ „ν•™μŠ΅μ„ μˆ˜ν–‰ν•˜κ²Œ λ©λ‹ˆλ‹€.
  • νŒŒμΈνŠœλ‹ λ‹¨κ³„μ—μ„œλŠ” μ‚¬μ „ν•™μŠ΅λœ λͺ¨λΈμ„ μ’€ 더 νŠΉμ • νƒœμŠ€ν¬λ‚˜ 적은 μ–‘μ˜ 데이터에 μ ν•©ν•˜λ„λ‘ μ‘°μ •ν•©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, 금육 도메인 νŠΉν™” λͺ¨λΈ, 법λ₯  도메인 νŠΉν™” λͺ¨λΈκ³Ό 같은 νŠΉμ • 도메인에 μ΄ˆμ μ„ λ‘” λͺ¨λΈμ΄λΌλ©΄ ν•΄λ‹Ή λ°μ΄ν„°λ‘œ λͺ¨λΈ νŒŒμΈνŠœλ‹μ„ μˆ˜ν–‰ν•΄μ£Όλ©΄ μ„±λŠ₯이 ν–₯μƒλ©λ‹ˆλ‹€.
  • 인퍼런슀 λ‹¨κ³„μ—μ„œλŠ” ν•™μŠ΅λœ λͺ¨λΈμ„ μƒˆλ‘œμš΄ 데이터에 μ μš©ν•˜μ—¬ μ˜ˆμΈ‘μ„ μˆ˜ν–‰ν•©λ‹ˆλ‹€.

μ’€ 더 μžμ„Έν•œ 그림으둜 ν•œλ²ˆ λ‹€μ‹œ 정리해보도둝 ν•˜κ² μŠ΅λ‹ˆλ‹€. λ‹€μ–‘ν•œ 도메인과 TASK에 λŒ€ν•˜μ—¬ μ‚¬μ „ν•™μŠ΅μ„ μˆ˜ν–‰ν•˜κ³  λ‚œ 뒀에, νŠΉμ • 도메인/Task에 λŒ€ν•΄μ„œ νŒŒμΈνŠœλ‹μ„ 톡해 λͺ¨λΈ μ„±λŠ₯을 ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.

Few-shot

Source: https://www.saltlux.com/

πŸ’‘ 그럼 μ–Έμ œ Few-shot이 μ“°μ΄λŠ” κ±°μ§€?πŸ€”

ZSL(Zero-shot Learning), OSL(One-shot Learning), FSL(Few-shot Learning)은 λ”₯λŸ¬λ‹ λͺ¨λΈμ˜ 일반적인 ν•™μŠ΅ 및 적용 단계인 μ‚¬μ „ν•™μŠ΅(pretraining) -> νŒŒμΈνŠœλ‹(finetuning) -> 인퍼런슀(inference) κ³Όμ •μ—μ„œ 주둜 νŒŒμΈνŠœλ‹ 단계와 인퍼런슀 λ‹¨κ³„μ—μ„œ μ€‘μš”ν•œ 역할을 ν•©λ‹ˆλ‹€. 이듀 λ°©λ²•μ˜ 적용과 λͺ©μ μ„ 각 λ‹¨κ³„λ³„λ‘œ μ‚΄νŽ΄λ³΄κ² μŠ΅λ‹ˆλ‹€.

μ‚¬μ „ν•™μŠ΅ (Pretraining)

  • ZSL, OSL, FSL μžμ²΄λŠ” 이 λ‹¨κ³„μ—μ„œ μ§μ ‘μ μœΌλ‘œ μˆ˜ν–‰λ˜μ§€ μ•Šμ§€λ§Œ, μ‚¬μ „ν•™μŠ΅λœ λͺ¨λΈμ€ μ΄ν›„μ˜ ZSL, OSL, FSL μ μš©μ„ μœ„ν•œ κΈ°λ°˜μ„ μ œκ³΅ν•©λ‹ˆλ‹€. 특히, μ‚¬μ „ν•™μŠ΅μ΄ 잘 된 λͺ¨λΈμ€ ZSLμ—μ„œ 더 쒋은 μ„±λŠ₯을 보일 κ°€λŠ₯성이 λ†’μŠ΅λ‹ˆλ‹€.
  • μ΄λŠ” μ‚¬μ „ν•™μŠ΅ κ³Όμ •μ—μ„œ λͺ¨λΈμ΄ λ‹€μ–‘ν•œ 데이터와 상황을 κ²½ν—˜ν•˜λ©°, κ·Έ κ³Όμ •μ—μ„œ μΌλ°˜ν™” λŠ₯λ ₯을 κ°œλ°œν•˜κΈ° λ•Œλ¬Έμž…λ‹ˆλ‹€. κ·Έ κ²°κ³Ό, λͺ¨λΈμ€ ν•™μŠ΅ κ³Όμ •μ—μ„œ μ§μ ‘μ μœΌλ‘œ 보지 λͺ»ν•œ μƒˆλ‘œμš΄ ν΄λž˜μŠ€μ— λŒ€ν•΄μ„œλ„ μœ μ˜λ―Έν•œ 좔둠을 ν•  수 μžˆλŠ” λŠ₯λ ₯을 κ°–μΆ”κ²Œ λ©λ‹ˆλ‹€.

νŒŒμΈνŠœλ‹ (Finetuning)

  • ZSL은 νŠΉλ³„ν•œ 경우둜, 사전에 λ³Έ 적 μ—†λŠ” ν΄λž˜μŠ€μ— λŒ€ν•œ 인식을 λͺ©ν‘œλ‘œ ν•˜κΈ° λ•Œλ¬Έμ—, 전톡적인 νŒŒμΈνŠœλ‹λ³΄λ‹€λŠ” 인퍼런슀 λ‹¨κ³„μ—μ„œ λͺ¨λΈμ΄ μ–΄λ–»κ²Œ μƒˆλ‘œμš΄ 클래슀λ₯Ό μ²˜λ¦¬ν•  수 μžˆλŠ”μ§€μ— 더 쀑점을 λ‘‘λ‹ˆλ‹€.
  • OSLκ³Ό FSL은 이 λ‹¨κ³„μ—μ„œ 큰 역할을 ν•©λ‹ˆλ‹€. 적은 μ–‘μ˜ λ°μ΄ν„°λ‘œ λͺ¨λΈμ„ μ‘°μ •ν•˜μ—¬ νŠΉμ • νƒœμŠ€ν¬μ— λŒ€ν•œ λͺ¨λΈμ˜ μ„±λŠ₯을 μ΅œμ ν™”ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” 특히 μ†Œμˆ˜μ˜ μ˜ˆμ‹œλ§Œμ„ μ‚¬μš©ν•˜μ—¬ λͺ¨λΈμ΄ νŠΉμ • 클래슀λ₯Ό μΈμ‹ν•˜λ„λ‘ ν•˜λŠ” 데 μ€‘μš”ν•©λ‹ˆλ‹€.

인퍼런슀 (Inference)

  • ZSL, OSL, FSL은 이 λ‹¨κ³„μ—μ„œ 핡심적인 역할을 ν•©λ‹ˆλ‹€. λͺ¨λΈμ΄ λ³Έ 적 μ—†λŠ” λ°μ΄ν„°λ‚˜ μ†Œμˆ˜μ˜ μ˜ˆμ‹œλ₯Ό 기반으둜 λΆ„λ₯˜, 인식, 예츑 λ“±μ˜ νƒœμŠ€ν¬λ₯Ό μˆ˜ν–‰ν•˜λŠ” λŠ₯λ ₯이 이 λ‹¨κ³„μ—μ„œ ν‰κ°€λ©λ‹ˆλ‹€.

πŸ“– μš”μ•½ν•˜μžλ©΄, ZSL은 주둜 인퍼런슀 λ‹¨κ³„μ—μ„œ λ³Έ 적 μ—†λŠ” 클래슀λ₯Ό μ²˜λ¦¬ν•˜λŠ” λͺ¨λΈμ˜ λŠ₯λ ₯을 λ‚˜νƒ€λ‚΄λ©°, OSLκ³Ό FSL은 νŒŒμΈνŠœλ‹ λ‹¨κ³„μ—μ„œ λͺ¨λΈμ„ νŠΉμ • νƒœμŠ€ν¬μ— μ΅œμ ν™”ν•˜λŠ” 데 μ€‘μš”ν•œ 역할을 ν•˜κ³ , 인퍼런슀 λ‹¨κ³„μ—μ„œλ„ κ·Έ μ„±λŠ₯이 ν‰κ°€λ©λ‹ˆλ‹€. μ΄λŸ¬ν•œ 방법듀은 λͺ¨λΈμ΄ μ œν•œλœ μ •λ³΄λ‘œλΆ€ν„° ν•™μŠ΅ν•˜κ³ , μ μ‘ν•˜λ©°, μ˜ˆμΈ‘ν•˜λŠ” λŠ₯λ ₯을 κ·ΉλŒ€ν™”ν•˜λŠ” 데 도움을 μ€λ‹ˆλ‹€.

Supervised vs Few-shot Learning

μ§€κΈˆκΉŒμ§€ ZSL, OSL, FSL의 κ°œλ…κ³Ό μ–΄λŠ 단계(step)μ—μ„œ μ‚¬μš©λ˜λŠ”μ§€ μ‚΄νŽ΄λ΄€λŠ”λ°μš”. 이쯀 되면 이런 ꢁ금증이 생기싀 것 κ°™μŠ΅λ‹ˆλ‹€.

πŸ€”κ·Έλ ‡λ‹€λ©΄ 일반적인 Supervised Learning(μ§€λ„ν•™μŠ΅)κ³Ό Few-shot Learning(ν“¨μƒ·λŸ¬λ‹)은 ν•™μŠ΅ λ©΄μ—μ„œ μ–΄λ–€ 차이가 μžˆμ„κΉŒ?

지도 ν•™μŠ΅(Supervised Learning)은 λ ˆμ΄λΈ”μ΄ μ§€μ •λœ λŒ€κ·œλͺ¨μ˜ ν›ˆλ ¨ 데이터λ₯Ό μ‚¬μš©ν•˜μ—¬ λͺ¨λΈμ„ ν›ˆλ ¨μ‹œν‚€λŠ” 기계 ν•™μŠ΅μ˜ ν•œ ν˜•νƒœμž…λ‹ˆλ‹€. 이 κ³Όμ •μ—μ„œ λͺ¨λΈμ€ μž…λ ₯ λ°μ΄ν„°μ—μ„œ 좜λ ₯ λ ˆμ΄λΈ”μ„ μ˜ˆμΈ‘ν•˜λŠ” 방법을 ν•™μŠ΅ν•©λ‹ˆλ‹€. ν›ˆλ ¨ λ°μ΄ν„°λŠ” λ‹€μ–‘ν•œ νŠΉμ§•(feature)을 ν¬ν•¨ν•˜κ³  있으며, 각 μƒ˜ν”Œμ€ νŠΉμ • λ ˆμ΄λΈ”κ³Ό μ—°κ΄€λ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€. 일단 λͺ¨λΈμ΄ μΆ©λΆ„ν•œ λ°μ΄ν„°λ‘œ ν›ˆλ ¨λ˜κ³  λ‚˜λ©΄, μƒˆλ‘œμš΄, 전에 λ³Έ 적 μ—†λŠ” 데이터에 λŒ€ν•œ μ˜ˆμΈ‘μ„ ν•  수 있게 λ©λ‹ˆλ‹€. (ν•˜μ§€λ§Œ, μ΄λŸ¬ν•œ μ˜ˆμΈ‘μ€ ν›ˆλ ¨ 쀑에 λͺ¨λΈμ΄ ν•™μŠ΅ν•œ 클래슀 λ‚΄μ—μ„œ μ΄λ£¨μ–΄μ§‘λ‹ˆλ‹€.)

λ°˜λ©΄μ—, Few-shot Learning은 지도 ν•™μŠ΅μ˜ ν•œ ν˜•νƒœμ΄μ§€λ§Œ, 맀우 적은 수의 ν›ˆλ ¨ μƒ˜ν”Œλ‘œλΆ€ν„° ν•™μŠ΅(λ˜λŠ” 검증)ν•˜λŠ” 데 쀑점을 λ‘‘λ‹ˆλ‹€. 이 방법둠은 λͺ¨λΈμ΄ μƒˆλ‘­κ³  μ•Œλ €μ§€μ§€ μ•Šμ€ 클래슀의 데이터에 λŒ€ν•΄ μ˜ˆμΈ‘μ„ μˆ˜ν–‰ν•  수 있게 ν•˜κΈ° μœ„ν•΄ μ„€κ³„λ˜μ—ˆμŠ΅λ‹ˆλ‹€. Few-shot Learning μ‹œλ‚˜λ¦¬μ˜€μ—μ„œλŠ” 지원 μ„ΈνŠΈ(Support Set)κ°€ 제곡되며, μ΄λŠ” 각 클래슀의 λͺ‡ κ°€μ§€ μ˜ˆμ‹œλ§Œμ„ ν¬ν•¨ν•©λ‹ˆλ‹€. κ·Έ ν›„, 쿼리 μƒ˜ν”Œ(Query Sample)이 μ£Όμ–΄μ§€λ©΄ λͺ¨λΈμ€ 지원 μ„ΈνŠΈλ₯Ό 기반으둜 이 μƒ˜ν”Œμ΄ μ–΄λ–€ ν΄λž˜μŠ€μ— μ†ν•˜λŠ”μ§€ μ˜ˆμΈ‘ν•΄μ•Ό ν•©λ‹ˆλ‹€. μ—¬κΈ°μ„œ μ€‘μš”ν•œ 점은 쿼리 μƒ˜ν”Œμ΄ ν›ˆλ ¨ κ³Όμ •μ—μ„œ λ³Έ 적 μ—†λŠ” μƒˆλ‘œμš΄ ν΄λž˜μŠ€μ—μ„œ 온 것일 수 μžˆλ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€.

μ΄λŠ” μ•„λž˜ 그림으둜 μ§κ΄€μ μœΌλ‘œ μ„€λͺ…이 κ°€λŠ₯ν•  것 κ°™μŠ΅λ‹ˆλ‹€. 쒌츑의 κ·Έλ¦Ό(Supervised Learning)μ—μ„œλŠ” μ‹€μ œ ν•™μŠ΅ 데이터셋에 있던 클래슀인 Huskyλ₯Ό λΆ„λ₯˜ν•˜κ³  μžˆλŠ” 것을 λ³Ό 수 μžˆμŠ΅λ‹ˆλ‹€. λ°˜λ©΄μ— 우츑의 κ·Έλ¦Ό(Few-Shot Learning)μ—μ„œλŠ” μ‹€μ œ ν•™μŠ΅ λ°μ΄ν„°μ…‹μ—λŠ” Rabbit이 μ—†κ³  이λ₯Ό λΆ„λ₯˜ν•˜κ³ μž ν•˜λŠ” 것을 λ³Ό 수 μžˆμŠ΅λ‹ˆλ‹€.

Few-shot

Source: Youtube Lecture Slide(Shusen Wang)

컴퓨터 λΉ„μ „(CV)μ—μ„œμ˜ ν“¨μƒ·λŸ¬λ‹

μ •μ˜

컴퓨터 λΉ„μ „μ—μ„œ ZSL, OSL, FSL은 이미지 λΆ„λ₯˜, 객체 인식 λ“±μ˜ νƒœμŠ€ν¬μ—μ„œ ν™œμš©λ˜λ©°, λͺ¨λΈμ΄ 적은 μ˜ˆμ‹œλ‚˜ λ³Έ 적 μ—†λŠ” μ˜ˆμ‹œλ₯Ό 기반으둜 객체λ₯Ό μΈμ‹ν•˜κ±°λ‚˜ λΆ„λ₯˜ν•  수 있게 ν•©λ‹ˆλ‹€.

μ˜ˆμ‹œ

  • ZSL: λͺ¨λΈμ΄ 사전에 μ •μ˜λœ 속성을 톡해 μƒˆλ‘œμš΄ 객체λ₯Ό μΈμ‹ν•˜λŠ” 경우, 예λ₯Ό λ“€μ–΄, β€˜μœ λͺ¨μ°¨β€™λ₯Ό β€˜λ°”ν€΄κ°€ λ„€ 개 있고 μ•„κΈ°λ₯Ό νƒœμšΈ 수 μžˆλŠ”β€™ 속성을 톡해 μΈμ‹ν•©λ‹ˆλ‹€.
  • OSL: νŠΉμ • λ™λ¬Όμ˜ ν•œ μž₯의 사진을 ν•™μŠ΅ν•˜μ—¬, λ‹€λ₯Έ 사진 속 같은 동물을 μΈμ‹ν•©λ‹ˆλ‹€.
  • FSL: μƒˆ μ’…λ₯˜λ₯Ό λͺ‡ μž₯의 μ‚¬μ§„λ§Œ 보고 λΆ„λ₯˜ν•˜λŠ” κ²½μš°μž…λ‹ˆλ‹€.

ν•™μŠ΅ 방법 및 데이터셋 ꡬ성

데이터셋 ꡬ성 μ˜ˆμ‹œ:

  • Zero-Shot Learning: 데이터셋은 이미지와 κ·Έ 이미지가 μ†ν•œ 클래슀의 μ„€λͺ…(예: 속성, 관계)을 ν¬ν•¨ν•©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, β€˜μœ λͺ¨μ°¨β€™ ν΄λž˜μŠ€μ—λŠ” β€˜λ°”ν€΄κ°€ 4κ°œβ€™, β€˜μ•„κΈ°λ₯Ό νƒœμšΈ 수 μžˆλŠ”β€™ 같은 속성이 λ ˆμ΄λΈ”λ‘œ 달릴 수 μžˆμŠ΅λ‹ˆλ‹€.
  • One-Shot Learning: 각 ν΄λž˜μŠ€μ—μ„œ ν•˜λ‚˜μ˜ μ΄λ―Έμ§€λ§Œ μ œκ³΅λ©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, β€˜κ³ μ–‘μ΄β€™ ν΄λž˜μŠ€μ— λŒ€ν•΄ ν•˜λ‚˜μ˜ 고양이 이미지λ₯Ό ν•™μŠ΅ λ°μ΄ν„°λ‘œ μ‚¬μš©ν•©λ‹ˆλ‹€.
  • Few-Shot Learning: μ†Œμˆ˜μ˜ 이미지(보톡 2~5개)λ₯Ό 각 ν΄λž˜μŠ€λ³„λ‘œ μ œκ³΅ν•©λ‹ˆλ‹€. β€˜κ°•μ•„μ§€β€™ ν΄λž˜μŠ€μ— λŒ€ν•΄ 5개의 λ‹€μ–‘ν•œ κ°•μ•„μ§€ 이미지가 ν•™μŠ΅ 데이터셋에 ν¬ν•¨λ©λ‹ˆλ‹€.

ν•™μŠ΅ 방법:

  • ZSLμ—μ„œλŠ” λͺ¨λΈμ΄ 이미지 속성과 클래슀 κ°„μ˜ 관계λ₯Ό ν•™μŠ΅ν•˜μ—¬, λ³Έ 적 μ—†λŠ” 클래슀의 이미지λ₯Ό 인식할 수 μžˆμŠ΅λ‹ˆλ‹€.
  • OSLκ³Ό FSLμ—μ„œλŠ” μœ μ‚¬λ„ μΈ‘μ •, 메타 ν•™μŠ΅, 데이터 증강 등을 ν™œμš©ν•΄ μ œν•œλœ μ˜ˆμ‹œλ‘œλΆ€ν„° 클래슀λ₯Ό ν•™μŠ΅ν•©λ‹ˆλ‹€.

검증 방법

검증은 ν•™μŠ΅ λ°μ΄ν„°μ…‹μ—μ„œ λ³Έ 적 μ—†λŠ” μƒˆλ‘œμš΄ μ΄λ―Έμ§€λ‚˜ 클래슀λ₯Ό μ–Όλ§ˆλ‚˜ 잘 λΆ„λ₯˜ν•˜λŠ”μ§€λ₯Ό ν‰κ°€ν•©λ‹ˆλ‹€. 검증 데이터셋은 λ‹€μ–‘ν•œ μ†ŒμŠ€μ—μ„œ κ°€μ Έμ˜¨ μƒˆλ‘œμš΄ μ΄λ―Έμ§€λ‘œ κ΅¬μ„±λ©λ‹ˆλ‹€.

μžμ—°μ–΄μ²˜λ¦¬(NLP)μ—μ„œμ˜ ν“¨μƒ·λŸ¬λ‹

μ •μ˜

NLPμ—μ„œ μ΄λŸ¬ν•œ ν•™μŠ΅ 방식은 ν…μŠ€νŠΈ λΆ„λ₯˜, 기계 λ²ˆμ—­, 질의 응닡 등에 μ μš©λ©λ‹ˆλ‹€. λͺ¨λΈμ€ 사전 ν•™μŠ΅λœ 지식을 ν™œμš©ν•˜κ±°λ‚˜ μ œν•œλœ λ°μ΄ν„°λ‘œλΆ€ν„° νŠΉμ • νƒœμŠ€ν¬λ₯Ό μˆ˜ν–‰ν•©λ‹ˆλ‹€.

μ˜ˆμ‹œ

  • ZSL: λͺ¨λΈμ΄ νŠΉμ • μ£Όμ œμ— λŒ€ν•œ μ§ˆλ¬Έμ— λŒ€λ‹΅ν•˜λŠ” 경우, 예λ₯Ό λ“€μ–΄, 사전에 ν•™μŠ΅λ˜μ§€ μ•Šμ€ μƒˆλ‘œμš΄ μ£Όμ œμ— λŒ€ν•œ μ§ˆλ¬Έμž…λ‹ˆλ‹€.
  • OSL: ν•œ κ°€μ§€ μŠ€νƒ€μΌμ˜ ν…μŠ€νŠΈ μ˜ˆμ‹œλ₯Ό 보고 κ·Έ μŠ€νƒ€μΌλ‘œ 글을 μ“°λŠ” κ²½μš°μž…λ‹ˆλ‹€.
  • FSL: λͺ‡ κ°€μ§€ μ˜ˆμ‹œ λ¬Έμž₯을 톡해 μƒˆλ‘œμš΄ μ£Όμ œμ— λŒ€ν•΄ 글을 μ“°λŠ” κ²½μš°μž…λ‹ˆλ‹€.

ν•™μŠ΅ 방법 및 데이터셋 ꡬ성

데이터셋 ꡬ성 μ˜ˆμ‹œ:

  • Zero-Shot Learning: ν•™μŠ΅ 데이터셋은 λ‹€μ–‘ν•œ 주제의 ν…μŠ€νŠΈλ₯Ό ν¬ν•¨ν•˜λ©°, λͺ¨λΈμ€ 이λ₯Ό 톡해 μΌλ°˜ν™”λœ μ–Έμ–΄ 이해λ₯Ό ν•™μŠ΅ν•©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, μ£Όμ œμ— λŒ€ν•œ κΈ°μ‚¬λ‚˜ λΈ”λ‘œκ·Έ ν¬μŠ€νŠΈκ°€ μ‚¬μš©λ  수 μžˆμŠ΅λ‹ˆλ‹€.
  • One-Shot Learning: 각 ν΄λž˜μŠ€μ— λŒ€ν•΄ ν•˜λ‚˜μ˜ ν…μŠ€νŠΈ μ˜ˆμ‹œλ§Œ μ œκ³΅λ©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, β€˜κΈμ •μ μΈ 리뷰’ ν΄λž˜μŠ€μ— λŒ€ν•œ ν•˜λ‚˜μ˜ 긍정 리뷰 μ˜ˆμ‹œκ°€ μ œκ³΅λ©λ‹ˆλ‹€.
  • Few-Shot Learning: 각 ν΄λž˜μŠ€λ³„λ‘œ μ†Œμˆ˜μ˜ ν…μŠ€νŠΈ μ˜ˆμ‹œλ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€. β€˜λΆ€μ •μ μΈ 리뷰’ ν΄λž˜μŠ€μ— λŒ€ν•΄ 5개의 λ‹€μ–‘ν•œ λΆ€μ • 리뷰가 ν•™μŠ΅ λ°μ΄ν„°λ‘œ μ‚¬μš©λ©λ‹ˆλ‹€.

ν•™μŠ΅ 방법:

  • ZSLμ—μ„œλŠ” λͺ¨λΈμ΄ ν…μŠ€νŠΈμ˜ μ£Όμ œλ‚˜ 감정 등을 μ΄ν•΄ν•˜κ³ , λ³Έ 적 μ—†λŠ” μƒˆλ‘œμš΄ νƒœμŠ€ν¬μ— 이λ₯Ό μ μš©ν•  수 μžˆμ–΄μ•Ό ν•©λ‹ˆλ‹€.
  • OSLκ³Ό FSLμ—μ„œλŠ” ν”„λ‘¬ν”„νŒ…, 데이터 증강, 메타 ν•™μŠ΅μ„ 톡해 μ œν•œλœ λ°μ΄ν„°λ‘œλΆ€ν„° νƒœμŠ€ν¬λ₯Ό ν•™μŠ΅ν•©λ‹ˆλ‹€.

검증 방법

검증은 λͺ¨λΈμ΄ ν•™μŠ΅ κ³Όμ •μ—μ„œ λ³Έ 적 μ—†λŠ” μƒˆλ‘œμš΄ λ¬Έμ œμ— μ–Όλ§ˆλ‚˜ 잘 λŒ€μ‘ν•˜λŠ”μ§€λ₯Ό ν‰κ°€ν•©λ‹ˆλ‹€. 검증 데이터셋은 λ‹€μ–‘ν•œ μ£Όμ œλ‚˜ μŠ€νƒ€μΌμ˜ ν…μŠ€νŠΈλ‘œ κ΅¬μ„±λ©λ‹ˆλ‹€.

CV vs LLM Few-shot Learning

곡톡점

두 λΆ„μ•Ό λͺ¨λ‘ ZSL, OSL, FSL을 μ‚¬μš©ν•˜μ—¬ μ œν•œλœ λ°μ΄ν„°λ‘œλΆ€ν„° λͺ¨λΈμ˜ μΌλ°˜ν™” 및 적응 λŠ₯λ ₯을 κ°œμ„ ν•©λ‹ˆλ‹€. λ˜ν•œ, 사전 ν•™μŠ΅λœ λͺ¨λΈκ³Ό 메타 ν•™μŠ΅ 기법이 μ€‘μš”ν•œ 역할을 ν•©λ‹ˆλ‹€.

πŸ’‘ 메타 ν•™μŠ΅ κΈ°λ²•μ΄λž€?

메타 ν•™μŠ΅(Meta-learning) 기법은 β€œν•™μŠ΅μ„ ν•™μŠ΅ν•˜λŠ”β€ λ°©μ‹μœΌλ‘œ, λͺ¨λΈμ΄ λ‹€μ–‘ν•œ νƒœμŠ€ν¬μ—μ„œ λΉ λ₯΄κ²Œ ν•™μŠ΅ν•˜κ³  μ μ‘ν•˜λŠ” 방법을 λ°°μš°λŠ” ν•™μŠ΅ μ ‘κ·Ό λ°©μ‹μž…λ‹ˆλ‹€. 이 κΈ°λ²•μ˜ 핡심 μ•„μ΄λ””μ–΄λŠ” λͺ¨λΈμ΄ μƒˆλ‘œμš΄ μž‘μ—…μ΄λ‚˜ μ†ŒλŸ‰μ˜ λ°μ΄ν„°λ‘œλΆ€ν„° 효율적으둜 ν•™μŠ΅ν•˜λŠ” 법을 ν•™μŠ΅ν•¨μœΌλ‘œμ¨, λ³Έ 적 μ—†λŠ” νƒœμŠ€ν¬μ— λŒ€ν•΄ λΉ λ₯΄κ²Œ μ μ‘ν•˜κ³  μ˜ˆμΈ‘μ„ μˆ˜ν–‰ν•  수 μžˆλ„λ‘ ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€. 메타 ν•™μŠ΅μ€ 특히 Zero-shot Learning (ZSL), One-shot Learning (OSL), 그리고 Few-shot Learning (FSL)κ³Ό 같이 데이터가 μ œν•œμ μΈ μƒν™©μ—μ„œ λͺ¨λΈμ˜ μ„±λŠ₯을 κ°œμ„ ν•˜λŠ” 데 μœ μš©ν•©λ‹ˆλ‹€.

차이점

CV와 NLPλŠ” λ‹€λ£¨λŠ” λ°μ΄ν„°μ˜ ν˜•νƒœ(이미지 vs. ν…μŠ€νŠΈ)와 κ΄€λ ¨ νƒœμŠ€ν¬μ—μ„œ 차이λ₯Ό λ³΄μž…λ‹ˆλ‹€. NLPλŠ” ν”„λ‘¬ν”„νŒ…μ΄ 자주 μ‚¬μš©λ˜λ©°, μ΄λŠ” 사전 ν•™μŠ΅λœ μ–Έμ–΄ λͺ¨λΈμ„ ν™œμš©ν•΄ μƒˆλ‘œμš΄ νƒœμŠ€ν¬μ— μ μ‘ν•˜λŠ” λ°©λ²•μž…λ‹ˆλ‹€. 반면, CVμ—μ„œλŠ” μ΄λ―Έμ§€μ˜ μ†μ„±μ΄λ‚˜ μœ μ‚¬λ„λ₯Ό 기반으둜 ν•™μŠ΅ν•˜λŠ” κ²½μš°κ°€ λ§ŽμŠ΅λ‹ˆλ‹€.

μ˜ˆμ‹œ) CV μœ μ‚¬λ„ 기반 Training

πŸ“Ί 컴퓨터 λΉ„μ „(CV)μ—μ„œ μœ μ‚¬λ„ 기반 ν•™μŠ΅μ€ 주둜 이미지 κ°„μ˜ μ‹œκ°μ  μœ μ‚¬μ„±μ„ ν‰κ°€ν•˜λŠ” 데 μ‚¬μš©λ©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, Siamese λ„€νŠΈμ›Œν¬λŠ” 두 이미지가 같은 ν΄λž˜μŠ€μ— μ†ν•˜λŠ”μ§€ μ—¬λΆ€λ₯Ό νŒλ³„ν•˜κΈ° μœ„ν•΄ ν›ˆλ ¨λ©λ‹ˆλ‹€. 이 κ³Όμ •μ—μ„œ, λ„€νŠΈμ›Œν¬λŠ” 두 μ΄λ―Έμ§€μ˜ νŠΉμ§•μ„ μΆ”μΆœν•˜κ³ , 이 νŠΉμ§• 벑터 κ°„μ˜ 거리 λ˜λŠ” μœ μ‚¬λ„λ₯Ό κ³„μ‚°ν•©λ‹ˆλ‹€.

μ˜ˆμ‹œ: μ•„λž˜ κ·Έλ¦Όμ—μ„œ, λͺ¨λΈμ€ 사물 사진 두 μž₯을 μž…λ ₯으둜 λ°›μŠ΅λ‹ˆλ‹€. Siamese λ„€νŠΈμ›Œν¬λŠ” 두 μ‚¬λ¬Όμ—μ„œ νŠΉμ§• 벑터λ₯Ό μΆ”μΆœν•˜κ³ , 이 두 사물이 κ°™μ€κ°€μ˜ μ—¬λΆ€λ₯Ό νŒλ³„ν•˜κΈ° μœ„ν•΄ νŠΉμ§• 벑터 κ°„μ˜ μœ μ‚¬λ„λ₯Ό κ³„μ‚°ν•©λ‹ˆλ‹€. ν•™μŠ΅ κ³Όμ •μ—μ„œ λ„€νŠΈμ›Œν¬λŠ” λ‹€μ–‘ν•œ 사물 이미지 μŒμ„ μ‚¬μš©ν•˜μ—¬, μœ μ‚¬λ„λ₯Ό μ •ν™•ν•˜κ²Œ μΈ‘μ •ν•˜λŠ” 방법을 λ°°μ›λ‹ˆλ‹€.

Source: Siamese Neural Networks for One-shot Image Recognition (λ…Όλ¬Έ)

μ˜ˆμ‹œ) NLP ν”„λ‘¬ν”„νŒ… 기반 Inference

πŸ—£οΈ μžμ—°μ–΄ 처리(NLP)μ—μ„œ ν”„λ‘¬ν”„νŒ…μ€ 사전 ν•™μŠ΅λœ μ–Έμ–΄ λͺ¨λΈμ„ μƒˆλ‘œμš΄ νƒœμŠ€ν¬μ— μ μ‘μ‹œν‚€λŠ” κ°•λ ₯ν•œ λ°©λ²•μœΌλ‘œ μ‚¬μš©λ©λ‹ˆλ‹€. ν”„λ‘¬ν”„νŠΈλŠ” λͺ¨λΈμ—κ²Œ νŠΉμ • μž‘μ—…μ„ μˆ˜ν–‰ν•˜λ„λ‘ μ§€μ‹œν•˜λŠ” ν…μŠ€νŠΈ μ‘°κ°μž…λ‹ˆλ‹€.

μ˜ˆμ‹œ: GPT-3와 같은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈμ„ μ‚¬μš©ν•˜λŠ” 질문-λ‹΅λ³€ μ‹œμŠ€ν…œμ—μ„œ, μ‹œμŠ€ν…œμ€ β€œλ² λ₯Όλ¦°μ€ μ–΄λŠ λ‚˜λΌμ˜ μˆ˜λ„μž…λ‹ˆκΉŒ?”와 같은 μ§ˆλ¬Έμ— λŒ€ν•œ 닡변을 μƒμ„±ν•˜κΈ° μœ„ν•΄ ν”„λ‘¬ν”„νŠΈλ₯Ό μ‚¬μš©ν•©λ‹ˆλ‹€. ν”„λ‘¬ν”„νŠΈλŠ” 질문 ν˜•μ‹μœΌλ‘œ κ΅¬μ„±λ˜λ©°, λͺ¨λΈμ€ 이λ₯Ό λ°”νƒ•μœΌλ‘œ κ΄€λ ¨ 지식을 ν™œμš©ν•˜μ—¬ β€œλ² λ₯Όλ¦°μ€ λ…μΌμ˜ μˆ˜λ„μž…λ‹ˆλ‹€.”와 같은 닡변을 μƒμ„±ν•©λ‹ˆλ‹€.

μ΄λ•Œ ν”„λ‘¬ν”„νŒ… λ°©μ‹μœΌλ‘œ Zero-shot, One-shot, Few-shot 기법을 톡해 λͺ¨λΈμ΄ μ§μ ‘μ μœΌλ‘œ ν•™μŠ΅ν•˜μ§€ μ•Šμ€ νƒœμŠ€ν¬μ— λŒ€ν•΄μ„œλ„ μœ μš©ν•œ 닡변을 생성할 수 μžˆλ„λ‘ ν•©λ‹ˆλ‹€. μ΄λŠ” 기쑴의 Transfer Learningκ³Ό λ‹€λ₯Έ λ°©μ‹μž…λ‹ˆλ‹€.

Source: Language Models are Few-Shot Learners (λ…Όλ¬Έ)

μ΄κ²ƒμœΌλ‘œ μ œλ‘œμƒ·(zero-shot), 원샷(one-shot), 퓨샷(few-shot)의 κ°œλ…μ— λŒ€ν•΄μ„œ μ‚΄νŽ΄λ³΄κ³ , 각각 컴퓨터 λΉ„μ „(CV), μžμ—°μ–΄ 처리(NLP) κ΄€μ μ—μ„œ λΉ„κ΅ν•΄λ³΄λŠ” μ‹œκ°„μ„ κ°€μ‘ŒμŠ΅λ‹ˆλ‹€.

μ—¬λŸ¬λΆ„μ˜ μ˜κ²¬μ€ μ–΄λ–€κ°€μš”? 컴퓨터 λΉ„μ „(CV)κ³Ό μžμ—°μ–΄ 처리(NLP)μ—μ„œμ˜ Few-shot Learning이 λ™μΌν•˜λ‹€κ³  λŠκ»΄μ§€μ‹œλ‚˜μš”? μ˜κ²¬μ„ μ•„λž˜ λŒ“κΈ€λ‘œ λ‚¨κ²¨μ£Όμ„Έμš” πŸ€”



-->