[IT] LLMOps와 RAG

Posted by Euisuk's Dev Log on September 19, 2024

[IT] LLMOps와 RAG

원본 κ²Œμ‹œκΈ€: https://velog.io/@euisuk-chung/IT-LLMOps와-RAG

졜근 λͺ‡ λ…„κ°„ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 λ°œμ „μ€ λ‹€μ–‘ν•œ μ‚°μ—…μ—μ„œ 큰 λ³€ν™”λ₯Ό μΌμœΌν‚€κ³  μžˆμŠ΅λ‹ˆλ‹€. LLM은 μ‚¬λžŒκ³Ό μœ μ‚¬ν•œ λ°©μ‹μœΌλ‘œ ν…μŠ€νŠΈλ₯Ό μƒμ„±ν•˜κ±°λ‚˜ μ§ˆλ¬Έμ— λ‹΅λ³€ν•  수 있으며, 고객 지원, 의료, 법λ₯ , μ½˜ν…μΈ  생성 λ“± μˆ˜λ§Žμ€ λΆ„μ•Όμ—μ„œ 널리 ν™œμš©λ˜κ³  μžˆμŠ΅λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ LLM의 μ„±λŠ₯을 κ·ΉλŒ€ν™”ν•˜κ³  μ§€μ†μ μœΌλ‘œ κ°œμ„ ν•˜κΈ° μœ„ν•΄μ„œλŠ” LLMOps와 같은 체계적인 운영 관리가 ν•„μˆ˜μ μž…λ‹ˆλ‹€.

좜처 : Databricks (링크)

이전에 AIops vs MLops λΌλŠ” λ‚΄μš©μ„ 주제둜 글을 μž‘μ„±ν•œ 적이 μžˆμ—ˆλŠ”λ°μš”. 거기에 LLMOpsλ₯Ό μΆ”κ°€ν•˜μžλ©΄, λ‹€μŒκ³Ό 같은 νŠΉμ§•μ„ κ°€μ§€κ³  μžˆμŠ΅λ‹ˆλ‹€:

LLMOps (Large Language Model Operations)λŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 개발, 배포, 관리에 νŠΉν™”λœ 운영 λ°©μ‹μž…λ‹ˆλ‹€.

μ£Όμš” νŠΉμ§•:

  • LLM의 라이프사이클 관리 (λ―Έμ„Έ μ‘°μ •λΆ€ν„° μœ μ§€ κ΄€λ¦¬κΉŒμ§€)
  • ν”„λ‘¬ν”„νŠΈ μ—”μ§€λ‹ˆμ–΄λ§ 및 LLM 관리
  • 데이터 뢄석 및 μ‹€ν—˜ 좔적
  • LLM을 μœ„ν•œ λ§€λ‹ˆμ§€λ“œ λͺ¨λΈ μ „ν™˜, 배포, λͺ¨λ‹ˆν„°λ§

참고둜, μ΅œκ·Όμ— Foundation Model이 인기가 λ§Žμ•„μ§€λ©΄μ„œ, FMOpsλΌλŠ” μš©μ–΄λ„ 거둠이 많이 λ˜λŠ”λ°, κ°œλ…λ§Œ 살짝 μ–ΈκΈ‰ν•˜κ³  λ„˜μ–΄κ°€κ² μŠ΅λ‹ˆλ‹€.

좜처: Nvidia λΈ”λ‘œκ·Έ (링크)

FMOps (Foundation Model Operations)λŠ” νŒŒμš΄λ°μ΄μ…˜ λͺ¨λΈμ˜ 개발, 배포, 관리, λͺ¨λ‹ˆν„°λ§μ„ 효율적으둜 μˆ˜ν–‰ν•˜κΈ° μœ„ν•œ ν”„λ ˆμž„μ›Œν¬μ™€ ν”„λ‘œμ„ΈμŠ€μž…λ‹ˆλ‹€.

μ£Όμš” νŠΉμ§•:

  • νŒŒμš΄λ°μ΄μ…˜ λͺ¨λΈμ˜ 선택 및 평가
  • λŒ€κ·œλͺ¨ 데이터셋 관리 및 μ „μ²˜λ¦¬
  • λͺ¨λΈ λ―Έμ„Έ μ‘°μ • 및 적응
  • λΆ„μ‚° ν•™μŠ΅ 및 ν™•μž₯μ„± 관리
  • λͺ¨λΈ 배포 및 μ„œλΉ™ μ΅œμ ν™”
  • 지속적인 μ„±λŠ₯ λͺ¨λ‹ˆν„°λ§ 및 κ°œμ„ 
  • λ‹€μ–‘ν•œ λͺ¨λ‹¬λ¦¬ν‹°(ν…μŠ€νŠΈ, 이미지, μ˜€λ””μ˜€ λ“±) 지원
  • 데이터 ν”„λΌμ΄λ²„μ‹œ 및 규제 μ€€μˆ˜ 관리

μ•„λž˜λŠ” LLMOps/MLOps/AIOps의 νŠΉμ§•μ„ μ’€ 더 ν•œλˆˆμ— 보싀 수 있게 μ •λ¦¬ν•œ ν…Œμ΄λΈ”μž…λ‹ˆλ‹€.

νŠΉμ„± LLMOps AIOps MLOps
μ •μ˜ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ 운영 IT μš΄μ˜μ„ μœ„ν•œ AI λ¨Έμ‹ λŸ¬λ‹ 운영
μ£Όμš” 초점 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ 개발 및 배포 IT μ‹œμŠ€ν…œ λͺ¨λ‹ˆν„°λ§ 및 μžλ™ν™” 일반 λ¨Έμ‹ λŸ¬λ‹ λͺ¨λΈ 개발 및 배포
핡심 기술 μžμ—°μ–΄ 처리, ν”„λ‘¬ν”„νŠΈ μ—”μ§€λ‹ˆμ–΄λ§ 빅데이터 뢄석, 이상 탐지 λ‹€μ–‘ν•œ ML μ•Œκ³ λ¦¬μ¦˜ 및 ν”„λ ˆμž„μ›Œν¬
데이터 μœ ν˜• 주둜 λŒ€κ·œλͺ¨ ν…μŠ€νŠΈ 데이터 IT μ‹œμŠ€ν…œ 둜그 및 λ©”νŠΈλ¦­ ꡬ쑰화/비ꡬ쑰화 데이터
μ£Όμš” λͺ©μ  μžμ—°μ–΄ 이해 및 생성 λŠ₯λ ₯ ν–₯상 IT 운영 νš¨μœ¨μ„± μ¦λŒ€ λ‹€μ–‘ν•œ λΉ„μ¦ˆλ‹ˆμŠ€ 문제 ν•΄κ²°
ν™•μž₯μ„± 관리 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ νŠΉν™” IT 인프라 μ „λ°˜ λ‹€μ–‘ν•œ 규λͺ¨μ˜ ML λͺ¨λΈ
μ£Όμš” μž‘μ—… λͺ¨λΈ λ―Έμ„Έμ‘°μ •, ν”„λ‘¬ν”„νŠΈ μ΅œμ ν™” 문제 예츑, κ·Όλ³Έ 원인 뢄석 λͺ¨λΈ ν›ˆλ ¨, 배포, λͺ¨λ‹ˆν„°λ§
도ꡬ μ˜ˆμ‹œ Hugging Face, OpenAI API Splunk, Datadog MLflow, Kubeflow
적용 λΆ„μ•Ό 챗봇, ν…μŠ€νŠΈ 생성, λ²ˆμ—­ IT 인프라 관리, μ„œλΉ„μŠ€ 데슀크 예츑 뢄석, 이미지 인식, μΆ”μ²œ μ‹œμŠ€ν…œ

ν•œνŽΈ, RAG(Retrieval-Augmented Generation)λŠ” LLM의 ν•œκ³„λ₯Ό λ³΄μ™„ν•˜λŠ” μ€‘μš”ν•œ 기술둜 λ– μ˜€λ₯΄κ³  μžˆμŠ΅λ‹ˆλ‹€. RAGλŠ” LLM이 λ‹¨μˆœνžˆ ν•™μŠ΅λœ λ°μ΄ν„°λ§Œμ΄ μ•„λ‹ˆλΌ μ™ΈλΆ€μ—μ„œ μ‹€μ‹œκ°„μœΌλ‘œ 정보λ₯Ό κ²€μƒ‰ν•˜μ—¬ 더 μ •κ΅ν•˜κ³  μ‹ λ’°ν•  수 μžˆλŠ” 응닡을 생성할 수 μžˆλ„λ‘ λ•μŠ΅λ‹ˆλ‹€.

이번 ν¬μŠ€νŠΈμ—μ„œλŠ” LLMOps와 RAG의 μ£Όμš” κ°œλ…, 이듀이 ν•¨κ»˜ μž‘λ™ν•˜λŠ” 방식, 그리고 μ‹€μ œ μ‘μš© 사둀λ₯Ό 톡해 μ–΄λ–»κ²Œ 이 두 기술이 LLM의 ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κ³  μƒˆλ‘œμš΄ κ°€λŠ₯성을 μ—΄μ–΄κ°€λŠ”μ§€ μ†Œκ°œν•˜κ³ μž ν•©λ‹ˆλ‹€.


  1. LLMOps: λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ 운영의 λͺ¨λ“  것

LLMOpsλŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈμ˜ 개발, 운영, 배포, μœ μ§€λ³΄μˆ˜μ— 이λ₯΄λŠ” λͺ¨λ“  과정을 μ²΄κ³„μ μœΌλ‘œ κ΄€λ¦¬ν•˜λŠ” κ°œλ…μž…λ‹ˆλ‹€. 이λ₯Ό 톡해 LLM의 μ„±λŠ₯을 κ·ΉλŒ€ν™”ν•˜κ³ , μ‹€μ‹œκ°„μœΌλ‘œ 문제λ₯Ό ν•΄κ²°ν•˜λ©°, 지속적인 λͺ¨λΈ κ°œμ„ μ„ κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€.

1.1 데이터 관리 및 μ „μ²˜λ¦¬

LLM의 성곡은 ν•™μŠ΅ λ°μ΄ν„°μ˜ ν’ˆμ§ˆμ— 크게 μ’Œμš°λ©λ‹ˆλ‹€. λ”°λΌμ„œ 데이터 μˆ˜μ§‘, μ •μ œ, 증강은 λͺ¨λΈ 개발의 첫 λ‹¨κ³„μ—μ„œ 맀우 μ€‘μš”ν•œ κ³Όμ •μž…λ‹ˆλ‹€.

  • 데이터 μˆ˜μ§‘: LLM은 λŒ€κ·œλͺ¨μ˜ 데이터λ₯Ό ν•„μš”λ‘œ ν•©λ‹ˆλ‹€. μ›Ή λ¬Έμ„œ, μ±…, λ…Όλ¬Έ, μ†Œμ…œ λ―Έλ””μ–΄ λ“± λ‹€μ–‘ν•œ μ†ŒμŠ€μ—μ„œ 데이터λ₯Ό μˆ˜μ§‘ν•˜μ—¬ ν•™μŠ΅μ— μ‚¬μš©ν•©λ‹ˆλ‹€.
  • 데이터 μ •μ œ: μˆ˜μ§‘λœ λ°μ΄ν„°μ—λŠ” λ…Έμ΄μ¦ˆλ‚˜ λΆˆν•„μš”ν•œ 정보가 포함될 수 μžˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό μ œκ±°ν•˜κ³ , μΌκ΄€λœ 포맷으둜 ν†΅μΌν•˜λŠ” μž‘μ—…μ΄ ν•„μš”ν•©λ‹ˆλ‹€.
  • 데이터 증강: ν•œμ •λœ 데이터λ₯Ό λ”μš± λ‹€μ–‘ν•˜κ²Œ λ§Œλ“€κΈ° μœ„ν•΄ κΈ°μ‘΄ 데이터λ₯Ό λ³€ν˜•ν•˜κ±°λ‚˜ μƒˆλ‘œμš΄ 데이터λ₯Ό μƒμ„±ν•˜μ—¬ λͺ¨λΈμ˜ μΌλ°˜ν™” μ„±λŠ₯을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.

1.2 λͺ¨λΈ 개발 및 ν•™μŠ΅

데이터가 μ€€λΉ„λ˜λ©΄ LLM의 ν•™μŠ΅ λ‹¨κ³„λ‘œ λ„˜μ–΄κ°‘λ‹ˆλ‹€. 사전 ν•™μŠ΅(Pre-training)κ³Ό λ―Έμ„Έ μ‘°μ •(Fine-tuning)이 이 λ‹¨κ³„μ—μ„œ μ΄λ£¨μ–΄μ§‘λ‹ˆλ‹€.

  • 사전 ν•™μŠ΅(Pre-training): LLM은 λ°©λŒ€ν•œ μ–‘μ˜ 데이터λ₯Ό 기반으둜 μ–Έμ–΄μ˜ 기본적인 이해 λŠ₯λ ₯을 ν•™μŠ΅ν•©λ‹ˆλ‹€. 이 κ³Όμ •μ—μ„œ λͺ¨λΈμ€ λ¬Έμž₯의 ꡬ쑰와 단어 κ°„μ˜ 관계λ₯Ό νŒŒμ•…ν•˜κ²Œ λ©λ‹ˆλ‹€.
  • λ―Έμ„Έ μ‘°μ •(Fine-tuning): νŠΉμ • λ„λ©”μΈμ΄λ‚˜ νƒœμŠ€ν¬μ— 맞좰 λͺ¨λΈμ„ μ‘°μ •ν•˜λŠ” λ‹¨κ³„μž…λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, 의료 뢄야에 νŠΉν™”λœ λͺ¨λΈμ„ λ§Œλ“€κΈ° μœ„ν•΄ 의료 λ…Όλ¬Έμ΄λ‚˜ 자료둜 λͺ¨λΈμ„ μΆ”κ°€ ν•™μŠ΅μ‹œν‚΅λ‹ˆλ‹€.
  • ν”„λ‘¬ν”„νŠΈ μ—”μ§€λ‹ˆμ–΄λ§: λͺ¨λΈμ΄ μž…λ ₯된 μ§ˆλ¬Έμ— λŒ€ν•΄ μ μ ˆν•œ 닡변을 내도둝 ν”„λ‘¬ν”„νŠΈ(μ§ˆλ¬Έμ΄λ‚˜ μ§€μ‹œ)λ₯Ό μ„€κ³„ν•˜κ³  μ΅œμ ν™”ν•˜λŠ” μž‘μ—…μž…λ‹ˆλ‹€. 이λ₯Ό 톡해 λͺ¨λΈμ˜ μ„±λŠ₯을 λ”μš± 효과적으둜 ν™œμš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

1.3 평가 및 검증

λͺ¨λΈμ΄ μ„±κ³΅μ μœΌλ‘œ ν•™μŠ΅λœ ν›„, κ·Έ μ„±λŠ₯을 ν‰κ°€ν•˜κ³  κ²€μ¦ν•˜λŠ” 것이 μ€‘μš”ν•©λ‹ˆλ‹€.

  • μ„±λŠ₯ 평가: λͺ¨λΈμ˜ 정확도, 일관성, μ•ˆμ „μ„± λ“±μ˜ λ‹€μ–‘ν•œ μ§€ν‘œλ₯Ό 톡해 ν‰κ°€ν•©λ‹ˆλ‹€. 특히 LLM의 경우, μƒμ„±λœ ν…μŠ€νŠΈκ°€ λ¬Έλ²•μ μœΌλ‘œ μ •ν™•ν•˜κ³  의미적으둜 μΌκ΄€λ˜λŠ”μ§€ ν‰κ°€ν•˜λŠ” 것이 μ€‘μš”ν•©λ‹ˆλ‹€.
  • 편ν–₯μ„± 검사: LLM은 ν•™μŠ΅λœ 데이터에 μ˜μ‘΄ν•˜κΈ° λ•Œλ¬Έμ— 편ν–₯된 데이터가 포함될 경우 λͺ¨λΈλ„ 편ν–₯된 닡변을 ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό λ°©μ§€ν•˜κΈ° μœ„ν•΄ 윀리적 검토와 편ν–₯μ„± 검사 과정을 κ±°μΉ©λ‹ˆλ‹€.
  • A/B ν…ŒμŠ€νŠΈ: λͺ¨λΈμ˜ μ—¬λŸ¬ 버전을 λΉ„κ΅ν•˜μ—¬ μ΅œμ’…μ μœΌλ‘œ κ°€μž₯ μ ν•©ν•œ λͺ¨λΈμ„ μ„ νƒν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 μ‹€μ œ 운영 ν™˜κ²½μ—μ„œμ˜ μ„±λŠ₯을 미리 μ˜ˆμΈ‘ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

1.4 배포 및 μ„œλΉ™

λͺ¨λΈμ΄ ν•™μŠ΅λ˜κ³  검증이 μ™„λ£Œλ˜λ©΄ μ‹€μ œ 운영 ν™˜κ²½μ— 배포해야 ν•©λ‹ˆλ‹€.

  • λͺ¨λΈ νŒ¨ν‚€μ§•: ν•™μŠ΅λœ λͺ¨λΈμ„ 운영 ν™˜κ²½μ— 맞게 νŒ¨ν‚€μ§•ν•˜κ³ , ν•„μš”ν•œ 경우 κ²½λŸ‰ν™”ν•˜μ—¬ 배포 μ€€λΉ„λ₯Ό ν•©λ‹ˆλ‹€.
  • 인프라 ꡬ좕: GPU μ„œλ²„, λ‘œλ“œ λ°ΈλŸ°μ„œ λ“± λŒ€κ·œλͺ¨ νŠΈλž˜ν”½κ³Ό 연산을 μ²˜λ¦¬ν•  수 μžˆλŠ” 인프라가 ν•„μš”ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 λŒ€κ·œλͺ¨ μ‚¬μš©μžκ°€ λ™μ‹œμ— λͺ¨λΈμ„ μ‚¬μš©ν•  수 μžˆλ„λ‘ ν•©λ‹ˆλ‹€.
  • API 개발: λͺ¨λΈμ„ μ™ΈλΆ€μ—μ„œ μ‰½κ²Œ μ‚¬μš©ν•  수 μžˆλ„λ‘ API(Application Programming Interface)λ₯Ό κ°œλ°œν•˜μ—¬ μ„œλΉ„μŠ€λ‘œ μ œκ³΅ν•©λ‹ˆλ‹€.

1.5 λͺ¨λ‹ˆν„°λ§ 및 μœ μ§€λ³΄μˆ˜

배포된 λͺ¨λΈμ€ μ§€μ†μ μœΌλ‘œ λͺ¨λ‹ˆν„°λ§ν•˜κ³  μœ μ§€λ³΄μˆ˜κ°€ ν•„μš”ν•©λ‹ˆλ‹€.

  • μ„±λŠ₯ λͺ¨λ‹ˆν„°λ§: μ‹€μ‹œκ°„μœΌλ‘œ λͺ¨λΈμ˜ μ„±λŠ₯κ³Ό 응닡 ν’ˆμ§ˆμ„ λͺ¨λ‹ˆν„°λ§ν•©λ‹ˆλ‹€. λͺ¨λΈμ˜ 응닡 μ‹œκ°„μ΄ μ§€λ‚˜μΉ˜κ²Œ κΈΈμ–΄μ§€κ±°λ‚˜ ν’ˆμ§ˆμ΄ λ–¨μ–΄μ§€λ©΄ μ¦‰κ°μ μœΌλ‘œ μˆ˜μ •ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
  • ν”Όλ“œλ°± μˆ˜μ§‘: μ‚¬μš©μžμ˜ ν”Όλ“œλ°±κ³Ό 였λ₯˜ 보고λ₯Ό μˆ˜μ§‘ν•˜μ—¬, λͺ¨λΈμ„ μ§€μ†μ μœΌλ‘œ κ°œμ„ ν•©λ‹ˆλ‹€.
  • 지속적 ν•™μŠ΅(Continuous Learning): μƒˆλ‘œμš΄ 데이터λ₯Ό μ§€μ†μ μœΌλ‘œ λ°˜μ˜ν•˜μ—¬ λͺ¨λΈμ„ ν•™μŠ΅μ‹œν‚€κ³ , μ΅œμ‹  νŠΈλ Œλ“œμ™€ 정보에 맞좰 λͺ¨λΈμ„ μ—…λ°μ΄νŠΈν•©λ‹ˆλ‹€.

  1. RAG: LLM의 정보 검색 κΈ°λŠ₯ κ°•ν™”

RAG(Retrieval-Augmented Generation)λŠ” LLM이 ν•™μŠ΅λœ 데이터 λ‚΄μ—μ„œλ§Œ μž‘λ™ν•˜λŠ” ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κΈ° μœ„ν•΄ μ„€κ³„λœ ν”„λ ˆμž„μ›Œν¬μž…λ‹ˆλ‹€. LLM이 기쑴에 ν•™μŠ΅ν•˜μ§€ μ•Šμ€ μ™ΈλΆ€ 데이터 μ†ŒμŠ€μ—μ„œ 정보λ₯Ό κ²€μƒ‰ν•œ ν›„, 이λ₯Ό λ°”νƒ•μœΌλ‘œ 더 μ •ν™•ν•˜κ³  ν’λΆ€ν•œ 응닡을 생성할 수 μžˆλ„λ‘ ν•©λ‹ˆλ‹€.

2.1 RAG의 λ™μž‘ 원리

RAGλŠ” 두 κ°€μ§€ μ£Όμš” 단계λ₯Ό 톡해 μž‘λ™ν•©λ‹ˆλ‹€:

  1. 정보 검색(Retrieval): μ‚¬μš©μžκ°€ μž…λ ₯ν•œ 쿼리와 μœ μ‚¬ν•œ 정보λ₯Ό 벑터 λ°μ΄ν„°λ² μ΄μŠ€μ—μ„œ κ²€μƒ‰ν•©λ‹ˆλ‹€. μ΄λ•Œ λ²‘ν„°ν™”λœ λ¬Έμ„œμ™€ 쿼리λ₯Ό λΉ„κ΅ν•˜μ—¬ 관련성이 높은 정보λ₯Ό μ°ΎμŠ΅λ‹ˆλ‹€.

  2. 정보 생성(Generation): κ²€μƒ‰λœ 정보와 μ‚¬μš©μž 쿼리λ₯Ό κ²°ν•©ν•˜μ—¬ LLM이 μ΅œμ’… ν…μŠ€νŠΈλ₯Ό μƒμ„±ν•©λ‹ˆλ‹€. 이 κ³Όμ •μ—μ„œ RAGλŠ” μ™ΈλΆ€ 데이터λ₯Ό μ‹€μ‹œκ°„μœΌλ‘œ ν™œμš©ν•˜μ—¬ 더 μ •ν™•ν•œ 응닡을 μ œκ³΅ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

2.2 κ΅¬μ‘°ν™”λœ 데이터와 λΉ„κ΅¬μ‘°ν™”λœ 데이터

RAGλŠ” κ΅¬μ‘°ν™”λœ 데이터와 λΉ„κ΅¬μ‘°ν™”λœ 데이터 λͺ¨λ‘λ₯Ό μ²˜λ¦¬ν•  수 있으며, 각각의 데이터 μœ ν˜•μ— λ§žλŠ” λ°©μ‹μœΌλ‘œ 정보λ₯Ό κ²€μƒ‰ν•˜κ³  μ²˜λ¦¬ν•©λ‹ˆλ‹€.

λΉ„κ΅¬μ‘°ν™”λœ 데이터(Unstructured Data)

  • μ •μ˜: ν…μŠ€νŠΈ, 이미지, μ˜€λ””μ˜€, λΉ„λ””μ˜€μ™€ 같이 μ •ν•΄μ§„ κ΅¬μ‘°λ‚˜ ν˜•μ‹μ΄ μ—†λŠ” 데이터λ₯Ό λ§ν•©λ‹ˆλ‹€.
  • μ˜ˆμ‹œ: PDF 파일, ꡬ글 λ¬Έμ„œ, μœ„ν‚€ λ¬Έμ„œ, 이미지, λΉ„λ””μ˜€ λ“±
  • 처리 방법: λΉ„κ΅¬μ‘°ν™”λœ λ°μ΄ν„°λŠ” ν…μŠ€νŠΈ μΆ”μΆœμ΄λ‚˜ 이미지 인식 λ“±μ˜ 과정을 거쳐 κ΅¬μ‘°ν™”λœ μ •λ³΄λ‘œ λ³€ν™˜λ©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, OCR(Optical Character Recognition)을 μ‚¬μš©ν•˜μ—¬ μ΄λ―Έμ§€μ—μ„œ ν…μŠ€νŠΈλ₯Ό μΆ”μΆœν•  수 μžˆμŠ΅λ‹ˆλ‹€.

κ΅¬μ‘°ν™”λœ 데이터(Structured Data)

  • μ •μ˜: μ •ν•΄μ§„ μŠ€ν‚€λ§ˆμ— 따라 μ •λ ¬λœ λ°μ΄ν„°λ‘œ, 주둜 ν…Œμ΄λΈ” ν˜•νƒœλ‘œ μ €μž₯λ©λ‹ˆλ‹€.
  • μ˜ˆμ‹œ: SQL λ°μ΄ν„°λ² μ΄μŠ€, 고객 기둝, 거래 λ‚΄μ—­ λ“±
  • 처리 방법: κ΅¬μ‘°ν™”λœ λ°μ΄ν„°λŠ” 쿼리 μš”μ²­μ„ 톡해 μ‹ μ†ν•˜κ²Œ κ²€μƒ‰λ˜κ³ , ν•„μš”ν•œ 정보가 λ°˜ν™˜λ©λ‹ˆλ‹€.

좜처: μ •λ³΄ν†΅μ‹ κΈ°μˆ ν˜‘νšŒ μš©μ–΄μ‚¬μ „ (링크)

2.3 RAG 데이터 νŒŒμ΄ν”„λΌμΈ

RAG μ‹œμŠ€ν…œμ—μ„œ λ°μ΄ν„°λŠ” 검색이 κ°€λŠ₯ν•œ ν˜•μ‹μœΌλ‘œ μ „μ²˜λ¦¬λ˜κ³ , λ²‘ν„°ν™”λœ ν›„ μ €μž₯λ©λ‹ˆλ‹€.

μ΄λŸ¬ν•œ νŒŒμ΄ν”„λΌμΈμ€ λ°μ΄ν„°μ˜ ν’ˆμ§ˆκ³Ό 검색 속도에 큰 영ν–₯을 λ―ΈμΉ©λ‹ˆλ‹€.

  1. 데이터 μˆ˜μ§‘: μ™ΈλΆ€ 데이터 μ†ŒμŠ€μ—μ„œ λ¬Έμ„œλ‚˜ ν…μŠ€νŠΈλ₯Ό μˆ˜μ§‘ν•˜μ—¬ μ €μž₯ν•©λ‹ˆλ‹€.
  2. λ¬Έμ„œ 처리: λΉ„κ΅¬μ‘°ν™”λœ 데이터λ₯Ό ν…μŠ€νŠΈλ‘œ λ³€ν™˜ν•˜κ³ , 메타데이터λ₯Ό μΆ”μΆœν•˜μ—¬ 검색에 μš©μ΄ν•œ ν˜•μ‹μœΌλ‘œ μ²˜λ¦¬ν•©λ‹ˆλ‹€.
  3. 청크 λΆ„ν•  및 μž„λ² λ”©: λŒ€κ·œλͺ¨ λ¬Έμ„œλ₯Ό 일정 크기의 청크둜 λ‚˜λˆ„κ³ , 이λ₯Ό λ²‘ν„°ν™”ν•˜μ—¬ 벑터 λ°μ΄ν„°λ² μ΄μŠ€μ— μ €μž₯ν•©λ‹ˆλ‹€.
  4. 벑터 검색: μ‚¬μš©μžμ˜ 쿼리도 λ²‘ν„°ν™”ν•œ ν›„ 벑터 λ°μ΄ν„°λ² μ΄μŠ€μ—μ„œ μœ μ‚¬μ„±μ„ κΈ°μ€€μœΌλ‘œ κ΄€λ ¨ λ¬Έμ„œλ‚˜ 청크λ₯Ό κ²€μƒ‰ν•©λ‹ˆλ‹€.

좜처 : Databricks (링크)


  1. RAG μ—μ΄μ „νŠΈ: 정보 검색과 응닡 생성을 μ—°κ²°ν•˜λŠ” 쀑좔

RAG μ—μ΄μ „νŠΈλŠ” κ²€μƒ‰λœ 데이터λ₯Ό LLM에 μ „λ‹¬ν•˜μ—¬ μ΅œμ’…

응닡을 μƒμ„±ν•˜λŠ” μ€‘μš”ν•œ 역할을 ν•©λ‹ˆλ‹€. RAG μ—μ΄μ „νŠΈλŠ” λ‹€μŒκ³Ό 같은 λ‹¨κ³„λ‘œ μž‘λ™ν•©λ‹ˆλ‹€:

  1. 쿼리 μ „μ²˜λ¦¬: μ‚¬μš©μžκ°€ μž…λ ₯ν•œ μ§ˆλ¬Έμ΄λ‚˜ μš”μ²­μ„ μ μ ˆν•œ ν˜•μ‹μœΌλ‘œ λ³€ν™˜ν•˜μ—¬ 벑터 λ°μ΄ν„°λ² μ΄μŠ€μ—μ„œ 검색할 수 μžˆλ„λ‘ μ€€λΉ„ν•©λ‹ˆλ‹€.
  2. 쿼리 벑터화: μ‚¬μš©μžμ˜ 쿼리λ₯Ό λ²‘ν„°λ‘œ λ³€ν™˜ν•˜κ³ , λ°μ΄ν„°λ² μ΄μŠ€μ— μ €μž₯된 λ¬Έμ„œμ™€ μœ μ‚¬μ„±μ„ λΉ„κ΅ν•©λ‹ˆλ‹€.
  3. 정보 검색: μœ μ‚¬μ„±μ΄ 높은 청크λ₯Ό κ²€μƒ‰ν•˜κ³ , 이λ₯Ό LLM의 μž…λ ₯으둜 μ‚¬μš©ν•©λ‹ˆλ‹€.
  4. ν”„λ‘¬ν”„νŠΈ 증강: κ²€μƒ‰λœ 정보λ₯Ό μ‚¬μš©μžμ˜ 질문과 κ²°ν•©ν•˜μ—¬ LLM이 μ μ ˆν•œ 닡변을 생성할 수 μžˆλ„λ‘ ν”„λ‘¬ν”„νŠΈλ₯Ό κ΅¬μ„±ν•©λ‹ˆλ‹€.
  5. LLM 응닡 생성: LLM은 κ²€μƒ‰λœ 정보와 μ‚¬μš©μžμ˜ μš”μ²­μ„ κ²°ν•©ν•˜μ—¬ 응닡을 μƒμ„±ν•©λ‹ˆλ‹€.
  6. ν›„μ²˜λ¦¬: μƒμ„±λœ 응닡에 λΉ„μ¦ˆλ‹ˆμŠ€ κ·œμΉ™μ„ μ μš©ν•˜κ±°λ‚˜ 좔가적인 검증 단계λ₯Ό 거쳐 μ΅œμ’… 응닡을 μ œκ³΅ν•©λ‹ˆλ‹€.

좜처 : Databricks (링크)


  1. 평가 및 λͺ¨λ‹ˆν„°λ§: LLMOps와 RAG μ‹œμŠ€ν…œμ˜ 지속적 κ°œμ„ 

RAG μ‹œμŠ€ν…œμ˜ μ„±λŠ₯을 μœ μ§€ν•˜κ³  μ§€μ†μ μœΌλ‘œ κ°œμ„ ν•˜κΈ° μœ„ν•΄μ„œλŠ” 평가와 λͺ¨λ‹ˆν„°λ§μ΄ ν•„μˆ˜μ μž…λ‹ˆλ‹€.

  • 평가: λͺ¨λΈμ΄ ν•™μŠ΅λ˜κ³  운영되기 μ „, μ„±λŠ₯ μ§€ν‘œλ₯Ό ν‰κ°€ν•˜μ—¬ κ°œμ„ ν•  뢀뢄을 μ°Ύμ•„λƒ…λ‹ˆλ‹€. κ²€μƒ‰λœ 데이터와 μƒμ„±λœ ν…μŠ€νŠΈμ˜ 일관성과 정확성을 ν‰κ°€ν•˜λŠ” 것이 μ€‘μš”ν•©λ‹ˆλ‹€.
  • λͺ¨λ‹ˆν„°λ§: 운영 ν™˜κ²½μ—μ„œ μ‹€μ‹œκ°„μœΌλ‘œ μ„±λŠ₯을 λͺ¨λ‹ˆν„°λ§ν•˜κ³ , ν•„μš”μ‹œ μ¦‰κ°μ μœΌλ‘œ 쑰치λ₯Ό μ·¨ν•©λ‹ˆλ‹€. LLM이 μƒμ„±ν•˜λŠ” μ‘λ‹΅μ˜ ν’ˆμ§ˆκ³Ό 검색 속도, λΉ„μš© 등을 μΆ”μ ν•©λ‹ˆλ‹€.

  1. RAG와 LLMOps의 μ‹€μ œ μ‘μš© 사둀

5.1 고객 μ„œλΉ„μŠ€ 챗봇

고객의 μ§ˆλ¬Έμ— μ‹€μ‹œκ°„μœΌλ‘œ κ΄€λ ¨ 정보λ₯Ό κ²€μƒ‰ν•˜κ³ , μ •ν™•ν•œ 닡변을 μ œκ³΅ν•˜λŠ” 챗봇을 RAG 기반으둜 κ΅¬ν˜„ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, 고객이 νŠΉμ • μ œν’ˆμ— λŒ€ν•œ 정보λ₯Ό μš”μ²­ν•˜λ©΄, RAG μ‹œμŠ€ν…œμ€ νšŒμ‚¬ λ‚΄λΆ€μ˜ 맀뉴얼, FAQ 등을 κ²€μƒ‰ν•˜μ—¬ κ³ κ°μ—κ²Œ μ μ ˆν•œ 닡변을 μ œκ³΅ν•©λ‹ˆλ‹€.

좜처 : LG CNS (링크)

5.2 법λ₯  및 의료 λΆ„μ•Ό

RAGλŠ” 법λ₯  및 의료 λΆ„μ•Όμ—μ„œλ„ 맀우 μœ μš©ν•˜κ²Œ ν™œμš©λ  수 μžˆμŠ΅λ‹ˆλ‹€. 법λ₯  λ¬Έμ„œλ‚˜ 의료 λ…Όλ¬Έμ—μ„œ κ΄€λ ¨ 정보λ₯Ό κ²€μƒ‰ν•˜κ³ , 이λ₯Ό 기반으둜 법λ₯  μƒλ‹΄μ΄λ‚˜ μ§„λ£Œ 정보λ₯Ό μ œκ³΅ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μ΄λ•Œ RAGλŠ” μ΅œμ‹  νŒλ‘€λ‚˜ 의료 지침을 μ‹€μ‹œκ°„μœΌλ‘œ κ²€μƒ‰ν•˜μ—¬ μ‹ λ’°μ„± μžˆλŠ” 정보λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.

좜처 : (λ…Όλ¬Έ) How Does NLP Benefit Legal System: A Summary of Legal Artificial Intelligence?


Conclusion

LLMOps와 RAGλŠ” LLM을 보닀 효과적으둜 μš΄μ˜ν•˜κ³ , κ·Έ ν•œκ³„λ₯Ό 극볡할 수 μžˆλŠ” κ°•λ ₯ν•œ λ„κ΅¬μž…λ‹ˆλ‹€. LLMOpsλŠ” λͺ¨λΈμ˜ 전체 라이프사이클을 κ΄€λ¦¬ν•˜κ³  μ΅œμ ν™”ν•˜λŠ” 데 ν•„μˆ˜μ μΈ 역할을 ν•˜λ©°, RAGλŠ” μ™ΈλΆ€ 정보λ₯Ό μ‹€μ‹œκ°„μœΌλ‘œ κ²€μƒ‰ν•˜μ—¬ 더 μ •ν™•ν•˜κ³  μœ μš©ν•œ 닡변을 μ œκ³΅ν•  수 μžˆλ„λ‘ λ„μ™€μ€λ‹ˆλ‹€.

이 두 기술이 κ²°ν•©λ˜λ©΄, 고객 μ„œλΉ„μŠ€, 법λ₯  상담, 의료 정보 제곡 λ“± λ‹€μ–‘ν•œ λΆ„μ•Όμ—μ„œ λ”μš± λ°œμ „λœ 인곡지λŠ₯ μ†”λ£¨μ…˜μ„ μ œκ³΅ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μ•žμœΌλ‘œλ„ LLMOps와 RAGλŠ” 인곡지λŠ₯ 운영의 핡심 기술둜 자리 μž‘μ•„, λ‹€μ–‘ν•œ 산업에 ν˜μ‹ μ„ κ°€μ Έμ˜¬ κ²ƒμž…λ‹ˆλ‹€.


유첨

μ•„λž˜ μ£Όμš” μš©μ–΄λ₯Ό 톡해 κ°œλ…μ„ μ‰½κ²Œ μ΄ν•΄ν•˜κ³ , μ΄λŸ¬ν•œ κΈ°μˆ λ“€μ΄ λ‹€μ–‘ν•œ μ‘μš© λΆ„μ•Όμ—μ„œ μ–΄λ–»κ²Œ μ‚¬μš©λ  수 μžˆλŠ”μ§€ λͺ…ν™•ν•˜κ²Œ νŒŒμ•…ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

1. LLM (Large Language Model)

λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈλ‘œ, μˆ˜μ‹­μ–΅ 개의 λ§€κ°œλ³€μˆ˜λ₯Ό ν•™μŠ΅ν•˜μ—¬ 인간과 μœ μ‚¬ν•œ ν…μŠ€νŠΈλ₯Ό 생성할 수 μžˆλŠ” λͺ¨λΈμž…λ‹ˆλ‹€. λ²ˆμ—­, μš”μ•½, 질문 응닡 λ“± λ‹€μ–‘ν•œ μžμ—°μ–΄ 처리(NLP) νƒœμŠ€ν¬μ—μ„œ μ‚¬μš©λ˜λ©°, OpenAI의 GPTλ‚˜ Google의 BERT 같은 λͺ¨λΈμ΄ λŒ€ν‘œμ μž…λ‹ˆλ‹€.

2. RAG (Retrieval-Augmented Generation)

RAGλŠ” μ™ΈλΆ€ λ°μ΄ν„°λ² μ΄μŠ€μ—μ„œ μ‹€μ‹œκ°„μœΌλ‘œ κ΄€λ ¨ 정보λ₯Ό κ²€μƒ‰ν•˜κ³ , 이λ₯Ό λ°”νƒ•μœΌλ‘œ LLM이 더 μ •ν™•ν•œ 응닡을 생성할 수 μžˆλ„λ‘ λ•λŠ” ν”„λ ˆμž„μ›Œν¬μž…λ‹ˆλ‹€. μ΄λŠ” LLM이 ν•™μŠ΅ν•œ 데이터 외에도 μ΅œμ‹  μ •λ³΄λ‚˜ νŠΉμ • 도메인 지식을 ν™œμš©ν•  수 있게 ν•΄μ€λ‹ˆλ‹€.

3. RLHF (Reinforcement Learning from Human Feedback)

RLHFλŠ” μΈκ°„μ˜ ν”Όλ“œλ°±μ„ λ°”νƒ•μœΌλ‘œ λͺ¨λΈμ„ ν•™μŠ΅μ‹œμΌœ μ„±λŠ₯을 ν–₯μƒμ‹œν‚€λŠ” κΈ°λ²•μž…λ‹ˆλ‹€. 이λ₯Ό 톡해 λͺ¨λΈμ€ 더 인간적인 닡변을 μƒμ„±ν•˜κ±°λ‚˜, νŠΉμ • μƒν™©μ—μ„œ λΆˆν•„μš”ν•œ 였λ₯˜λ₯Ό 쀄일 수 μžˆμŠ΅λ‹ˆλ‹€.

4. ν”„λ‘¬ν”„νŠΈ 체이닝 (Prompt Chaining)

ν”„λ‘¬ν”„νŠΈ 체이닝은 μ—¬λŸ¬ 개의 ν”„λ‘¬ν”„νŠΈλ₯Ό 순차적으둜 μ—°κ²°ν•˜μ—¬ λ³΅μž‘ν•œ μž‘μ—…μ„ λ‹¨κ³„μ μœΌλ‘œ μˆ˜ν–‰ν•˜λŠ” λ°©λ²•μž…λ‹ˆλ‹€. 이 κΈ°μˆ μ„ 톡해 λͺ¨λΈμ€ 더 λ³΅μž‘ν•œ 문제λ₯Ό ν•΄κ²°ν•˜κ³ , 단계적인 논리적 ν”„λ‘œμ„ΈμŠ€λ₯Ό λ”°λ₯Ό 수 μžˆμŠ΅λ‹ˆλ‹€.

5. κ°€λ“œλ ˆμΌ (Guardrails)

κ°€λ“œλ ˆμΌμ€ λͺ¨λΈμ˜ 좜λ ₯을 μ œμ–΄ν•˜κ³  μ•ˆμ „μ„±μ„ 보μž₯ν•˜λŠ” μž₯치둜, 윀리적 문제λ₯Ό λ°©μ§€ν•˜κ±°λ‚˜ 잘λͺ»λœ 응닡을 μ œν•œν•˜λŠ” 역할을 ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 λͺ¨λΈμ˜ 좜λ ₯이 λΉ„μ¦ˆλ‹ˆμŠ€ κ·œμΉ™μ΄λ‚˜ 규제 μš”κ΅¬ 사항을 μ€€μˆ˜ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

6. ν† ν¬λ‚˜μ΄μ € (Tokenizer)

ν…μŠ€νŠΈλ₯Ό λͺ¨λΈμ΄ μ²˜λ¦¬ν•  수 μžˆλŠ” μž‘μ€ λ‹¨μœ„μΈ β€˜ν† ν°β€™μœΌλ‘œ λΆ„ν• ν•˜λŠ” λ„κ΅¬μž…λ‹ˆλ‹€. λͺ¨λΈμ˜ μž…λ ₯을 ν…μŠ€νŠΈμ—μ„œ ν† ν°μœΌλ‘œ λ³€ν™˜ν•˜κ³ , 좜λ ₯된 토큰을 λ‹€μ‹œ ν…μŠ€νŠΈλ‘œ λ³€ν™˜ν•˜λŠ” κ³Όμ •μ—μ„œ 핡심적인 역할을 ν•©λ‹ˆλ‹€.

7. μž„λ² λ”© (Embedding)

μž„λ² λ”©μ€ ν…μŠ€νŠΈ, 이미지, μ˜€λ””μ˜€ λ“±μ˜ 데이터λ₯Ό 고차원 벑터 κ³΅κ°„μœΌλ‘œ λ³€ν™˜ν•˜λŠ” κΈ°μˆ μž…λ‹ˆλ‹€. 이λ₯Ό 톡해 ν…μŠ€νŠΈμ˜ 의미λ₯Ό μˆ˜μΉ˜ν™”ν•˜μ—¬ λͺ¨λΈμ΄ μ²˜λ¦¬ν•  수 μžˆλŠ” ν˜•μ‹μœΌλ‘œ λ§Œλ“€κ³ , μœ μ‚¬ν•œ 의미λ₯Ό κ°€μ§„ λ°μ΄ν„°λŠ” 벑터 κ³΅κ°„μ—μ„œ κ°€κΉŒμš΄ μœ„μΉ˜μ— λ†“μ΄κ²Œ λ©λ‹ˆλ‹€.

8. νŒŒμΈνŠœλ‹ (Fine-tuning)

νŒŒμΈνŠœλ‹μ€ 사전 ν•™μŠ΅λœ LLM을 νŠΉμ • λ„λ©”μΈμ΄λ‚˜ νƒœμŠ€ν¬μ— 맞게 μΆ”κ°€λ‘œ ν•™μŠ΅μ‹œν‚€λŠ” κ³Όμ •μž…λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, μ˜λ£Œλ‚˜ 법λ₯ κ³Ό 같은 νŠΉμ • 뢄야에 νŠΉν™”λœ λͺ¨λΈμ„ λ§Œλ“€κΈ° μœ„ν•΄ νŒŒμΈνŠœλ‹μ„ μ‚¬μš©ν•©λ‹ˆλ‹€.

9. ν”„λ‘¬ν”„νŠΈ μ—”μ§€λ‹ˆμ–΄λ§ (Prompt Engineering)

ν”„λ‘¬ν”„νŠΈ μ—”μ§€λ‹ˆμ–΄λ§μ€ LLM에 효과적인 μ§€μ‹œλ₯Ό μ£ΌκΈ° μœ„ν•΄ μž…λ ₯ ν…μŠ€νŠΈ(ν”„λ‘¬ν”„νŠΈ)λ₯Ό μ„€κ³„ν•˜κ³  μ΅œμ ν™”ν•˜λŠ” κ³Όμ •μž…λ‹ˆλ‹€. 이 과정은 λͺ¨λΈμ΄ μ£Όμ–΄μ§„ μž‘μ—…μ—μ„œ μ΅œμƒμ˜ μ„±λŠ₯을 λ°œνœ˜ν•˜λ„λ‘ λ„μ™€μ€λ‹ˆλ‹€.

10. 벑터 λ°μ΄ν„°λ² μ΄μŠ€ (Vector Database)

벑터 λ°μ΄ν„°λ² μ΄μŠ€λŠ” ν…μŠ€νŠΈ, 이미지, μ˜€λ””μ˜€ λ“±μ˜ 데이터λ₯Ό λ²‘ν„°λ‘œ λ³€ν™˜ν•˜μ—¬ μ €μž₯ν•˜κ³  λΉ λ₯΄κ²Œ 검색할 수 μžˆλŠ” νŠΉμˆ˜ν•œ λ°μ΄ν„°λ² μ΄μŠ€μž…λ‹ˆλ‹€. RAG μ‹œμŠ€ν…œμ—μ„œ κ²€μƒ‰λœ 정보λ₯Ό 기반으둜 LLM이 λ”μš± μ •κ΅ν•œ 응닡을 생성할 수 μžˆλ„λ‘ λ„μ™€μ€λ‹ˆλ‹€. λ²‘ν„°ν™”λœ λ°μ΄ν„°λŠ” μœ μ‚¬μ„±μ„ κΈ°μ€€μœΌλ‘œ κ²€μƒ‰λ˜λ―€λ‘œ, 벑터 λ°μ΄ν„°λ² μ΄μŠ€λŠ” λŒ€κ·œλͺ¨ λ°μ΄ν„°μ—μ„œ 효율적인 검색을 κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€.

11. μ œλ‘œμƒ·/퓨샷 ν•™μŠ΅ (Zero-shot/Few-shot Learning)

μ œλ‘œμƒ· ν•™μŠ΅μ€ λͺ¨λΈμ΄ νŠΉμ • νƒœμŠ€ν¬μ— λŒ€ν•΄ μΆ”κ°€ ν•™μŠ΅ 없이 μˆ˜ν–‰ν•  수 μžˆλŠ” λŠ₯λ ₯을 μ˜λ―Έν•˜λ©°, 퓨샷 ν•™μŠ΅μ€ 적은 수의 μ˜ˆμ‹œλ§ŒμœΌλ‘œ νƒœμŠ€ν¬λ₯Ό μˆ˜ν–‰ν•˜λŠ” λŠ₯λ ₯을 μ˜λ―Έν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 λͺ¨λΈμ€ μƒˆλ‘œμš΄ μž‘μ—…μ— λŒ€ν•œ 적응λ ₯을 높일 수 μžˆμŠ΅λ‹ˆλ‹€.

12. λͺ¨λΈ μ••μΆ• (Model Compression)

λͺ¨λΈ 압좕은 λŒ€κ·œλͺ¨ LLM을 더 μž‘κ³  효율적인 λͺ¨λΈλ‘œ λ³€ν™˜ν•˜λŠ” κΈ°μˆ μž…λ‹ˆλ‹€. μ΄λŠ” λͺ¨λΈμ˜ 배포 및 μ‹€ν–‰ 속도λ₯Ό κ°œμ„ ν•˜κ³ , μžμ› μ‚¬μš©μ„ 쀄이기 μœ„ν•΄ ν•„μš”ν•©λ‹ˆλ‹€.

13. 연속 ν•™μŠ΅ (Continuous Learning)

연속 ν•™μŠ΅μ€ λͺ¨λΈμ„ μ§€μ†μ μœΌλ‘œ μ—…λ°μ΄νŠΈν•˜μ—¬ μƒˆλ‘œμš΄ 데이터와 νŠΈλ Œλ“œλ₯Ό λ°˜μ˜ν•˜λŠ” κ³Όμ •μž…λ‹ˆλ‹€. 이λ₯Ό 톡해 λͺ¨λΈμ€ μ΅œμ‹  정보λ₯Ό λ°˜μ˜ν•˜κ³ , μ‹œκ°„μ΄ 지남에 따라 μ„±λŠ₯을 μœ μ§€ν•˜κ±°λ‚˜ ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.

14. νŒŒμ‹± (Parsing)

νŒŒμ‹±μ€ 데이터λ₯Ό λΆ„μ„ν•˜μ—¬ κ΅¬μ‘°ν™”λœ ν˜•μ‹μœΌλ‘œ λ³€ν™˜ν•˜λŠ” κ³Όμ •μž…λ‹ˆλ‹€. μžμ—°μ–΄ μ²˜λ¦¬μ—μ„œλŠ” ν…μŠ€νŠΈλ₯Ό 문법적 λ‹¨μœ„λ‘œ λΆ„μ„ν•˜μ—¬ 의미λ₯Ό νŒŒμ•…ν•˜κ³ , 컴퓨터 κ³Όν•™μ—μ„œλŠ” ν”„λ‘œκ·Έλž¨μ˜ μ†ŒμŠ€ μ½”λ“œλ₯Ό ꡬ문 λΆ„μ„ν•˜μ—¬ μ‹€ν–‰ κ°€λŠ₯ν•œ μ½”λ“œλ‘œ λ³€ν™˜ν•©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, JSON νŒŒμΌμ„ νŒŒμ‹±ν•˜μ—¬ ν‚€-κ°’ 쌍으둜 데이터λ₯Ό μΆ”μΆœν•˜λŠ” 것이 κ·Έ μ˜ˆμž…λ‹ˆλ‹€.



-->