Unlearning : λ¨Έμ λ¬λ λͺ¨λΈλ βμμ μ μλ€β
μλ³Έ κ²μκΈ: https://velog.io/@euisuk-chung/machine-unlearning
λ₯λ¬λκ³Ό λ¨Έμ λ¬λμ μ€λλ λ€μν λΆμΌμμ λλΌμ΄ μ±κ³Όλ₯Ό κ±°λκ³ μμ΅λλ€. νμ§λ§ λͺ¨λΈμ΄ νμ΅ν μ 보 μ€ λΆνμνκ±°λ λ―Όκ°ν μ 보λ₯Ό μμ ν΄μΌ νλ μν©λ λ°μν©λλ€.
- μλ₯Ό λ€μ΄, κ°μΈμ 보 λ³΄νΈ κ·μ μ λ°λΌ λͺ¨λΈμ΄ νΉμ μ¬μ©μμ λ°μ΄ν°λ₯Ό μμ ν΄μΌ νκ±°λ, νμ΅ κ³Όμ μμ λ°μν νΈν₯(Bias)μ κ΅μ ν΄μΌ ν μ μμ΅λλ€.
μ΄λ¬ν νμλ₯Ό μΆ©μ‘±νλ κ°λ μ΄ λ°λ‘ μΈλ¬λ(Unlearning)μ λλ€.
π€ λ¨Έμ λ¬λ λͺ¨λΈμ νμ΅λ λ°μ΄ν°λ‘λΆν° ν¨ν΄κ³Ό μ 보λ₯Ό λμΆνμ§λ§, μΌλΆ λ°μ΄ν°κ°
μ κ±°
λκ±°λμμ
λμ΄μΌ ν κ²½μ° μλ‘μ΄ λͺ¨λΈ μ¬νμ΅ λΉμ©μ΄ λ¬Έμ κ° λ©λλ€.
π‘
μΈλ¬λ
μ μ΄λ¬ν μ¬νμ΅μ λΉν¨μ¨μ±μ μ€μ΄κ³ , νΉμ λ°μ΄ν°λ§ ν¨κ³Όμ μΌλ‘ βμλλ‘
β νλ κΈ°λ²μ μ 곡ν©λλ€.
1. μΈλ¬λ(Unlearning)μ΄λ?
μΈλ¬λμ λ¨Έμ λ¬λ λͺ¨λΈμ΄ νμ΅ν νΉμ λ°μ΄ν°λ₯Ό μλλ‘ λ§λλ κΈ°λ²μ λλ€.
- ν΅μ¬ λͺ©ν: νΉμ λ°μ΄ν°λ₯Ό νμ΅νμ§ μμ μνλ‘ λμκ°λ©΄μλ μ±λ₯μ μ μ§νκ±°λ κ°μ νλ κ²μ λλ€.
- ν¨μ¨μ±: κΈ°μ‘΄μ μ¬νμ΅λ³΄λ€ λΉμ©κ³Ό μκ°μ΄ λ μμλ©λλ€.
μΈλ¬λμ λ°μ΄ν° νλΌμ΄λ²μμ λͺ¨λΈ 곡μ μ±μ 보μ₯νλ λ° μ€μν μν μ ν©λλ€. μ΄λ AI λͺ¨λΈμ΄ λμ± ν¬λͺ νκ³ μ λ’°ν μ μλ λκ΅¬λ‘ λμκ°λ κΈ°λ°μ΄ λ©λλ€.
π― μμ§ μ΄λ€ μμΌλ‘ μλνλμ§ μ λͺ¨λ₯΄κ² λ€κ³ μ? μ§κ΄μ μΈ μ΄ν΄λ₯Ό μν΄ μλ κ·Έλ¦Όμ μ΄ν΄λ³΄μμ£ !
μ κ·Έλ¦Όμ μΈλ¬λ μκ³ λ¦¬μ¦μ κ²μ¦ κ³Όμ μ μκ°μ μΌλ‘ νννκ³ μμ΅λλ€.
-
μ΄ κ³Όμ μ λ€μκ³Ό κ°μ μμλ‘ μ§νλ©λλ€:
- κΈ°μ‘΄ λͺ¨λΈ νμ΅(Pretrained Model) μ€λΉ
- νΉμ λ°μ΄ν°(Forgot Set) μ§μ
- μΈλ¬λ μν
- Gold Standard λͺ¨λΈ μμ±
- λͺ¨λΈ λΉκ΅ λ° νκ°
-
κ° λ¨κ³λ³ μ€λͺ μ λ€μκ³Ό κ°μ΅λλ€:
1. κΈ°μ‘΄ λͺ¨λΈ νμ΅(Pretrained Model) μ€λΉ
- μ’μΈ‘ μλ¨: μ¬λ¬ λ°μ΄ν° ν¬μΈνΈ(μ: μ΄λ―Έμ§)λ₯Ό μ¬μ©νμ¬ μ¬μ νμ΅λ λͺ¨λΈ(Pretrained Model)μ μμ±ν©λλ€.
- μ΄ λ¨κ³λ μΌλ°μ μΈ λ¨Έμ λ¬λ λͺ¨λΈ νμ΅ κ³Όμ κ³Ό λμΌν©λλ€.
2. νΉμ λ°μ΄ν°(Forgot Set) μ§μ
- μ°μΈ‘ μλ¨: νΉμ λ°μ΄ν° ν¬μΈνΈ(μ: μ΄λ―Έμ§)λ₯Ό Forget SetμΌλ‘ μ§μ ν©λλ€.
- Forget Setμ λͺ¨λΈμ΄ λ μ΄μ κΈ°μ΅ν΄μλ μ λλ, μ¦ μμ λμμ΄ λλ λ°μ΄ν°λ₯Ό μλ―Έν©λλ€.
3. μΈλ¬λ μν
- μ€μ: μ§μ λ Forget Setμ λͺ¨λΈμμ μ κ±°νκΈ° μν΄ μΈλ¬λ μκ³ λ¦¬μ¦μ΄ μ μ©λ©λλ€.
- μΈλ¬λ μκ³ λ¦¬μ¦μ λͺ¨λΈμ΄ Forget Setμ μλλ‘ λ§λ€μ΄ κΈ°μ‘΄ λͺ¨λΈμ μΈλ¬λλ λͺ¨λΈ(Unlearned Model)λ‘ λ³νν©λλ€.
4. Gold Standard λͺ¨λΈ μμ±
- μ’μΈ‘ νλ¨: Forget Setμ μ μΈνκ³ λμΌν λ°μ΄ν°λ₯Ό μ¬μ©νμ¬ μλ‘μ΄ λͺ¨λΈμ νμ΅ν©λλ€.
- μ΄λ κ² μμ±λ λͺ¨λΈμ Gold StandardλΌκ³ νλ©°, νΉμ λ°μ΄ν°λ₯Ό μμ μνμμ νμ΅λ μ΄μμ μΈ λͺ¨λΈμ μλ―Έν©λλ€.
5. λͺ¨λΈ λΉκ΅ λ° νκ°
- μ°μΈ‘ νλ¨: μΈλ¬λ μκ³ λ¦¬μ¦μ΄ μ μ©λ Unlearned Modelκ³Ό Gold Standard λͺ¨λΈμ λΉκ΅ν©λλ€.
- μ΄ κ³Όμ μ λͺ©νλ λ λͺ¨λΈμ μΆλ ₯μ΄ μΌλ§λ μ μ¬νμ§λ₯Ό νμΈνμ¬ μΈλ¬λμ ν¨κ³Όλ₯Ό νκ°νλ κ²μ λλ€.
- μ¬κΈ°μ ν΅μ¬ μ§λ¬Έμ βλ λͺ¨λΈμ΄ μΌλ§λ κ°κΉμ΄κ°?βμ΄λ©°, μ΄λ μΈλ¬λμ΄ μ±κ³΅μ μΌλ‘ μνλμλμ§λ₯Ό νλ¨νλ μ€μν κΈ°μ€μ΄ λ©λλ€.
- μ’μΈ‘ μλ¨: μ¬λ¬ λ°μ΄ν° ν¬μΈνΈ(μ: μ΄λ―Έμ§)λ₯Ό μ¬μ©νμ¬ μ¬μ νμ΅λ λͺ¨λΈ(Pretrained Model)μ μμ±ν©λλ€.
μΈλ¬λ κΈ°λ²μ λΆλ₯
-
μ νν μΈλ¬λ (Exact Unlearning)
μ νν μΈλ¬λμ νΉμ λ°μ΄ν° ν¬μΈνΈμ μν₯μ μμ ν μ κ±°νλ κ²μ λͺ©νλ‘ ν©λλ€. μ΄ λ°©λ²μ μκ³ λ¦¬μ¦ μμ€μ μ¬νλ ¨μ ν΅ν΄ μΈλ¬λλ λ°μ΄ν°κ° λͺ¨λΈμ μ ν μν₯μ λ―ΈμΉμ§ μλλ‘ ν©λλ€. νμ§λ§ κ³μ° λΉμ©μ΄ λ§μ΄ λ€κ³ μ£Όλ‘ λ¨μν λͺ¨λΈμ μ ν©ν©λλ€.
-
κ·Όμ¬ μΈλ¬λ (Approximate Unlearning)
κ·Όμ¬ μΈλ¬λμ λͺ¨λΈμ λ§€κ°λ³μλ₯Ό μ νμ μΌλ‘ μ λ°μ΄νΈνμ¬ λμ λ°μ΄ν° ν¬μΈνΈμ μν₯μ μ΅μννλ λ° μ€μ μ λ‘λλ€. μ΄ λ°©λ²μ κ³μ° λΉμ©κ³Ό μκ°μ μ€μ¬ λκ·λͺ¨ 볡μ‘ν λͺ¨λΈμλ μ μ© κ°λ₯ν©λλ€.
2. μΈλ¬λμ΄ νμν μ΄μ
1. λ°μ΄ν° νλΌμ΄λ²μ
GDPR(μ λ½μ°ν© μΌλ° λ°μ΄ν° λ³΄νΈ κ·μ )μ΄λ CCPA(μΊλ¦¬ν¬λμ μλΉμ κ°μΈμ 보 보νΈλ²)μ κ°μ κ·μ μ΄ κ°νλ¨μ λ°λΌ, μ¬μ©μλ μμ μ λ°μ΄ν°λ₯Ό μμ ν κΆλ¦¬λ₯Ό κ°μ§λλ€. νμ§λ§ λ¨μν λ°μ΄ν°λ₯Ό μμ νλ κ²λ§μΌλ‘λ μΆ©λΆνμ§ μμ΅λλ€. λͺ¨λΈ νλΌλ―Έν°μλ μ΄λ―Έ νμ΅λ μ λ³΄κ° λ¨μ μκΈ° λλ¬Έμ λλ€. μΈλ¬λμ μ΄λ₯Ό ν΄κ²°νλ λ°©λ²μ μ 곡ν©λλ€.
μλ₯Ό λ€μ΄, μ¨λΌμΈ νλ«νΌμμ μ¬μ©μκ° μμ μ λ°μ΄ν°λ₯Ό μμ μμ²νμ λ, ν΄λΉ λ°μ΄ν°λ₯Ό νμ΅ν AI λͺ¨λΈμ΄ μ¬μ ν μμΈ‘μ νμ©νλ€λ©΄ μ΄λ νλΌμ΄λ²μ μΉ¨ν΄λ‘ μ΄μ΄μ§ μ μμ΅λλ€. μΈλ¬λμ μ΄λ¬ν λ°μ΄ν°λ₯Ό βμμ ν μλλ‘β ν©λλ€.
2. λͺ¨λΈ νΈν₯ μ κ±°
λͺ¨λΈμ΄ νΉμ κ·Έλ£Ήμ΄λ ν¨ν΄μ λν΄ νΈν₯λ λ°μ΄ν°λ₯Ό νμ΅νμ λ, 곡μ νμ§ μμ μμΈ‘μ νκ² λ©λλ€. μλ₯Ό λ€μ΄, μ±μ© λͺ¨λΈμ΄ νΉμ μ±λ³μ΄λ μΈμ’ μ λν΄ νΈν₯λ κ²°μ μ λ΄λ¦°λ€λ©΄, μΈλ¬λμ ν΅ν΄ μ΄λ¬ν λ°μ΄ν°λ₯Ό μ κ±°νκ³ κ³΅μ ν λͺ¨λΈλ‘ κ°μ ν μ μμ΅λλ€.
3. λͺ¨λΈ μ λ°μ΄νΈ
μκ°μ΄ μ§λ¨μ λ°λΌ μΌλΆ λ°μ΄ν°κ° μ ν¨νμ§ μκ² λ μ μμ΅λλ€. μλ₯Ό λ€μ΄, μ¨λΌμΈ μκ±°λ μΆμ² λͺ¨λΈμ΄ μ€λλ νΈλ λλ₯Ό νμ΅ν κ²½μ° μ΄λ₯Ό μκ³ μλ‘μ΄ νΈλ λμ λ§κ² μ λ°μ΄νΈν΄μΌ ν©λλ€. μΈλ¬λμ κΈ°μ‘΄ λ°μ΄ν° μμ μ λͺ¨λΈ μ΅μ νλ₯Ό λμμ ν΄κ²°ν©λλ€.
3. μΈλ¬λμ μ£Όμ κΈ°λ²
1. λͺ¨λΈ μ¬νμ΅ (Re-training)
κ°μ₯ μ§κ΄μ μΈ λ°©λ²μ λ―Όκ°ν λ°μ΄ν°λ₯Ό μ κ±°ν ν λλ¨Έμ§ λ°μ΄ν°λ‘ λͺ¨λΈμ μ²μλΆν° λ€μ νμ΅μν€λ κ²μ λλ€. νμ§λ§ μ΄ λ°©λ²μ λΉμ©κ³Ό μκ°μ΄ λ§μ΄ μλͺ¨λλ©° λκ·λͺ¨ λ°μ΄ν°μ μ λΉν¨μ¨μ μ λλ€.
2. κ·ΈλΌλμΈνΈ μμ ν μμ
νΉμ λ°μ΄ν°λ₯Ό βμκ²β νλλ‘ μλ°©ν₯ κ·ΈλΌλμΈνΈλ₯Ό μ μ©ν©λλ€. μμ€ ν¨μμ λ°μ΄ν°μ κΈ°μ¬λ₯Ό μμνλ κ°μ μΆκ°ν΄ λͺ¨λΈ νλΌλ―Έν°λ₯Ό μμ ν©λλ€. μ΄ λ°©λ²μ μΌλΆ νλΌλ―Έν°λ§ μ‘°μ νλ―λ‘ ν¨μ¨μ μ λλ€.
3. μ§μ μ¦λ₯ (Knowledge Distillation)
κΈ°μ‘΄ λͺ¨λΈμ μ§μμ μλ‘μ΄ λͺ¨λΈλ‘ μ λ¬νλ, νΉμ μ 보λ₯Ό ν¬ν¨νμ§ μλλ‘ νμ΅ν©λλ€. μ΄λ κ²½λνλ μλΈ λͺ¨λΈμ μμ±νκ³ ν¨μ¨μ μΈ μΈλ¬λμ λ¬μ±νλ λ° μ μ©ν©λλ€.
4. SISA νλ μμν¬
Bourtoule et al.μ SISA(Sharding, Isolation, Slicing, and Aggregation) νλ μμν¬λ λ°μ΄ν°λ₯Ό μ¬λ¬ μ€λ(Shard)λ‘ λλκ³ κ° μ€λμ λν΄ λ 립μ μΌλ‘ μλΈλͺ¨λΈμ νμ΅μν΅λλ€. μμ μμ²μ΄ μμ λ ν΄λΉ λ°μ΄ν°κ° ν¬ν¨λ μλΈλͺ¨λΈλ§ μ¬νλ ¨νμ¬ ν¨μ¨μ μΌλ‘ μΈλ¬λμ μνν©λλ€.
4. μΈλ¬λμ μ£Όμ λμ κ³Όμ
- λ°μ΄ν° μμ‘΄μ±: λ°μ΄ν° κ° λ³΅μ‘ν ν΅κ³μ ν¨ν΄μ΄ 무λμ§ μ μμ΄ λͺ¨λΈ μ±λ₯μ΄ μ νλ©λλ€.
- λͺ¨λΈ 볡μ‘μ±: λκ·λͺ¨ λ₯λ¬λ λͺ¨λΈμ μλ°±λ§ κ°μ λ§€κ°λ³μλ‘ μΈν΄ νΉμ λ°μ΄ν°μ μν₯μ μΆμ νκΈ° μ΄λ ΅μ΅λλ€.
- κ³μ° λΉμ©: λ°λ³΅μ μ΅μ νλ λΉμ©μ΄ λμΌλ©°, λ°μ΄ν°μ ν¬κΈ°κ° 컀μ§μλ‘ λ¬Έμ κ° μ¬νλ©λλ€.
- νκ° λ° κ²μ¦: μΈλ¬λ μ±κ³΅μ νκ°νκΈ° μν μΌκ΄λ μ§νκ° λΆμ‘±ν©λλ€.
- νλΌμ΄λ²μ λ¬Έμ : μΈλ¬λ κ³Όμ μμ μ λ³΄κ° μ μΆλκ±°λ, λ©€λ²μ μΆλ‘ κ³΅κ²©μ΄ λ°μν μ μμ΅λλ€.
5. μ°κ΅¬ λν₯ λ° μ¬λ‘
1. μ°¨λ³μ νλΌμ΄λ²μ κΈ°λ° μΈλ¬λ
Ginart et al.μ νλ₯ μ λ°©λ²μ μ¬μ©ν΄ λͺ¨λΈ μΆλ ₯μ λΆν¬ μ μ¬μ±μ λͺ©νλ‘ νλ νλΌμ΄λ²μ μΈλ¬λμ μ μνμ΅λλ€.
2. LLM(λκ·λͺ¨ μΈμ΄ λͺ¨λΈ)μμμ μΈλ¬λ
Microsoftμ μ°κ΅¬λ LLMμμ μ μκΆ λ°μ΄ν°λ₯Ό μμ νκΈ° μν΄ κ°ν νμ΅ κΈ°λ° κΈ°λ²μ μ¬μ©νμ΅λλ€. μ΄λ λͺ¨λΈμ΄ νΉμ μ 보λ₯Ό μ κ·Ήμ μΌλ‘ μλλ‘ μ λν©λλ€.
3. νκ· λ¬Έμ μΈλ¬λ
Tarun et al.μ λ₯λ¬λ νκ· λͺ¨λΈμμ μΈλ¬λμ λ€λ£¨λ©° Blindspot λ° κ°μ°μμ μ‘°μ κΈ°λ²μ μ μνμ΅λλ€.
6. κ²°λ‘
μΈλ¬λμ λ¨μν λ°μ΄ν° μμ λ₯Ό λμ΄μ λͺ¨λΈμ΄ νΉμ λ°μ΄ν°λ₯Ό μλλ‘ λ§λλ κ°λ ₯ν κΈ°μ μ λλ€. μ΄λ λ°μ΄ν° νλΌμ΄λ²μλ₯Ό 보νΈνκ³ AIμ 곡μ μ±κ³Ό μ λ’°μ±μ λμ΄λ λ° μ€μν μν μ ν©λλ€.
λ―Έλ μ°κ΅¬λ λκ·λͺ¨ λͺ¨λΈμμλ ν¨μ¨μ μ΄κ³ κ²μ¦ κ°λ₯ν μΈλ¬λ κΈ°λ²μ κ°λ°νλ λ° μ΄μ μ λ§μΆ κ²μ λλ€. AI κΈ°μ μ΄ λ°μ ν μλ‘ μΈλ¬λμ νμμ μΈ μλμΌλ‘ μ리 μ‘κ² λ κ²μ λλ€.