[๋จธ์ ๋ฌ๋] ์ด์ ํ์ง ๊ฐ์ ๋ฐ ๋ฐ๋ ๊ธฐ๋ฐ ์ด์์นํ์ง
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/๋จธ์ ๋ฌ๋์ฐจ์์ถ์-์ด์์น-ํ์ง-๊ธฐ๋ฒ-๋ฐ๋๊ธฐ๋ฐ-์ด์์น-ํ์ง
๋ณธ ํฌ์คํธ๋ ๊ณ ๋ ค๋ํ๊ต ๊ฐํ์ฑ ๊ต์๋์ ๊ฐ์
๋ฅผ ์๊ฐ ํ ์ ๋ฆฌ๋ฅผ ํ ๊ฒ์
๋๋ค. ์์ฑ ๋ฐ ์ค๋ช
์ ํธ์๋ฅผ ์ํด ์๋ ํฌ์คํธ๋ ๋ฐ๋ง๋ก ์์ฑํ ์ ์ํด๋ถํ๋๋ฆฝ๋๋ค.
Abnormal Data๋
- Anomaly Data๋ ๋ค์๊ณผ ๊ฐ์ด Hawkins์ Harmeling์ ์ํด ์ ์๋๋ค.
Observations that deviate so much from other observations as to arouse suspicions that they were generated by a different mechanism. โ Hawkins, 1908
Instances that their true probability density is very low. โ Harmeling et al, 2006
- ๋ค์ ํ๋ฒ ์ ๋ฆฌํด๋ณด์๋ฉด,
์ด์์น ํ์ง
๋ ๊ธฐ์กด ๋ฐ์ดํฐ๋ค๊ณผ ์์ฑ๋๋ ๋งค์ปค๋์ฆ์ด ๋ค๋ฅด๊ฑฐ๋ ๋ฐ์ ๋น๋๊ฐ ๋ฎ์ ๋ฐ์ดํฐ๋ฅผ ์๋ฏธํ๋ค. - ๊ทธ๋ ๋ค๋ฉด, ์ด์์น ํ์ง๊ฐ ์ผ๋ฐ์ ์ธ ์ฐ๋ฆฌ๊ฐ ๋ฅ๋ฌ๋/๋จธ์ ๋ฌ๋์์ ์ํํ๋ Binary Classification๊ณผ๋ ์ด๋ค ์ฐจ์ด๊ฐ ์์๊น?
1. ํ์ต ๋ฐฉ๋ฒ๋ก ๊ด์
- Binary Classification: ์ ์๊ณผ ๋น์ ์์ ๊ตฌ๋ถํ๋ ๋ถ๋ฅ๊ฒฝ๊ณ๋ฉด(์ )์ ํ์ตํ์ฌ ์ด๋ฅผ ๊ธฐ์ค์ผ๋ก ์ ์๊ณผ ๋น์ ์์ ๋๋๋ค. (A, B โ ์ ์)
- Anomaly Detection: ์ด์์น๋ ํ๊ฐ์ง ์ข ๋ฅ๋ง ์๋ ๊ฒ์ด ์๋๋ค. ์๋ฅผ ๋ค์ด x์ โฒ๋ฅผ ์ด์์น๋ผ๊ณ ํ์. ์ด ๋ ์ด์์น ๋ชจ๋ ์๊ฐ ์ ์ด ์ด์์น๋ฅผ ๋ํํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ ๊ฐ์ ์ด์์น๋ผ๊ณ binaryํ๊ฒ ์ ์๋ฅผ ๋ด๋ ค์ค ์ ์๋ค. ๋๋ฌธ์ ์ด์์น ํ์ง์์๋ ์ ์๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ์ ์ ์์ญ์ ์ถ์ ํ๊ณ ๊ทธ ์ธ์ ์์ญ์ ์ํ๋ ๊ฐ๋ค์ ์ ์์ด ์๋๋ผ๊ณ ํ๋จํ๋ค. (A, B โ ๋น์ ์)
2. ํ์ต ๋ฐ์ดํฐ ๊ด์
- Anomaly Detection์ ๊ธฐ๋ณธ์ ์ผ๋ก โ์ ์โ ๋ฐ์ดํฐ๊ฐ โ๋น์ ์โ ๋ฐ์ดํฐ๋ณด๋ค ํจ์ฌ ๋ ๋ง๋ค๋ ๊ฒ์ ๊ฐ์ ํ๊ณ ์๋ค.
- Binary Classification: ์ ์๊ณผ ๋น์ ์(์ด์์น) ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ ์ด์ฉํ์ฌ ํ์ต์ ์ํํ๋ค.
-
Anomaly Detection: ๋น์ ์(์ด์์น) ๋ฐ์ดํฐ๋ฅผ ์ ์ธํ ์ ์ ๋ฐ์ดํฐ๋ง์ ๊ฐ์ง๊ณ ํ์ต์ ์ํํ๋ค.
3. ํ๊ฐ ๋ฐฉ๋ฒ ๊ด์
๋ฐ๋ ๊ธฐ๋ฐ ์ด์์น ํ์ง
- ์ ์ ๋ฐ์ดํฐ์ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ ์ํ์ ๋ถํฌ๋ฅผ ์ถ์ ํ ๋ค, ์๋ก์ด ๊ฐ์ฒด์ ๋ํ์ฌ ํ๋ฅ ์ด ๋์ผ๋ฉด ์ ์, ํ๋ฅ ์ด ๋ฎ์ผ๋ฉด ๋น์ ์์ ๋ฐํํ๋ ๋ฐฉ๋ฒ๋ก ์ด๋ค. ์ผ๋ฐ์ ์ผ๋ก ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ์ค๋ช ํ๋ ๋ชจ์ ๋ชจํ(Parametric Model์ ๊ฐ์ ํ๋ฉฐ, ์ ๊ท ๋ถํฌ๋ก ์ถ์ ์ ํ ๋ ๋ช ๊ฐ์ ๊ฐ์ฐ์์ ๋ชจ๋ธ์ด ์ฌ์ฉ๋์๋๊ฐ์ ๋ฐ๋ผ ๋ค์๊ณผ ๊ฐ์ด ๋ถ๋ฅ๋ ์ ์๋ค.
Gaussian Density Estimation
-
๊ฐ์
- ๊ด์ธก์น๋ค์ ํ๋์ Gaussian์ผ๋ก๋ถํฐ ์์ฑ๋์๋ค.
-
์ฅ์
-
๋ฐ์ดํฐ์ ๋ฒ์์ ๋ฏผ๊ฐํ์ง ์๋ค. (โต ๊ณต๋ถ์ฐ ํ๋ ฌ์ ์ธก์ ๋จ์๊ฐ ์ํฅ์ ๋ผ์น์ง ์์)
-
๋ถํฌ๋ฅผ ์ถ์ ํ ํ์ต๋ฐ์ดํฐ๋ก๋ถํฐ ์ฒ์๋ถํฐ rejection์ ๋ํ 1์ข ์ค๋ฅ๋ฅผ ์ ์ํ ์ ์๋ค. (ex. ์ ๋ขฐ์์ค 95%)
-
-
Formulation (Parameter estimation: ฮผฮผฮผ, ฯ2ฯ^2ฯ2)
Mixture of Gaussian Density Estimation
-
๊ฐ์
- ๊ด์ธก์น๋ค์ ์ฌ๋ฌ ๊ฐ์ Gaussian๋ค์ ์ ํ๊ฒฐํฉ์ผ๋ก๋ถํฐ ์์ฑ๋์๋ค.
-
๊ฐ์ฐ์์ ๊ฒฐํฉ ๋ชจ๋ธ๊ณผ ๊ฐ๊ฐ์ ๊ฐ์ฐ์์ ๋ชจ๋ธ(์์)
-
Formulation (Parameter estimation: ฮผmฮผ_mฮผmโ, wmw_mwmโ, ฮฃmฮฃ_mฮฃmโ)
- EM ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ๊ตฌํ ์ ์๋ค.
Kernel Density Estimation
- ์ด์ Gaussian Density Estimation๊ณผ Mixture of Gaussian Density Estimation์์๋ ํน์ ๋ถํฌ๋ฅผ ๊ฐ์ ํ๊ณ , ํ๋ผ๋ฏธํฐ๋ฅผ ์์ธกํ๋ parametric approach์๋ค.
- Kernel Density Estimation์ non-parametric approach๋ก, ๋ถํฌ๋ฅผ ์์ธกํ์ง ์๊ณ ๋ฐ์ดํฐ ์์ฒด๋ฅผ ์ด์ฉํด์ ๋ฐ๋๋ฅผ ์ถ์ ํ๊ณ ์ ํ๋ค.
-
๋ถํฌ p(x)์์ ์ถ์ถํ ๋ฒกํฐ x๊ฐ ํ๋ณธ ๊ณต๊ฐ์ ์ฃผ์ด์ง ์์ญ R์ ํฌํจ๋ ํ๋ฅ ์ P๋ผ๊ณ ํ๋ฉด ๋ค์๊ณผ ๊ฐ์ ์์ ๊ตฌํ ์ ์๋ค.
-
์๋ ์์์ V๋ฅผ ๊ณ ์ ํ๊ณ k๋ฅผ ์ฐพ์์ฃผ๋ ๊ฒ์ด Kernel-density Estimation์ ์ฃผ์ ์์ด๋์ด์ด๋ฉฐ, Parzen Window Density Estimation์ Kernel-density Estimation์ ๋ํ์ ์ธ ๋ฐฉ๋ฒ ์ค์ ํ๋์ด๋ค.
Parzen Window Density Estimation
- Parzen Window Density Estimation์์๋ ๋ฐ์ดํฐ๊ฐ d์ฐจ์ ๊ณต๊ฐ(V = hd) ์์ ์๋ ์ํ์ ๊ฐ์๋ฅผ ์ธ๋ ๋ฐฉ์์ผ๋ก ๋ฐ๋๋ฅผ ์ถ์ ํ๊ฒ ๋๋ค.
-
๋ฐ์ K(u)์์ ํด๋น ๊ณต๊ฐ ์์ ์ํ(X)๊ฐ ๋ค์ด์ค๋ฉด 1์ ๋ฐํํ๋ ํจ์์ด๊ณ , k๋ ํด๋น ๊ณต๊ฐ์์ ์๋ ์ํ์ ์๋ฅผ ์๋ฏธํ๋ค. ์ด์ ๊ฐ์ K๋ ์ปค๋ ํจ์์ ์ผ์ข ์ด๋ฉฐ ํ์ ์๋์ฐ(Parzen Window)๋ผ๊ณ ํ๋ค. ์ด๋ฅผ ํตํ์ฌ ๋ฐ์ดํฐ์ ํ๋ฅ ๋ฐ๋ ํจ์๋ฅผ ์๋์ ๊ฐ์ด ๊ตฌํ ์ ์๋ค.
- ํ์ง๋ง, ์์ K(u)ํจ์๋ ์์ญ ์์ด๋ฉด 1, ๋ฐ์ด๋ฉด 0์ ๋ถ์ฌํ๊ฒ ๋จ์ผ๋ก ํ๋ธ์ ๊ธฐ์ฅ์๋ฆฌ ์์ญ์์ ๋ถ์ฐ์์ฑ์ ๊ฐ๊ฒ ๋๊ณ , uniform distribution์ด๊ธฐ ๋๋ฌธ์ ๊ฑฐ๋ฆฌ๊ฐ ๋ฌ๋ผ๋ ๋ชจ๋ ๊ฐ์ ๊ฐ์ค์น๊ฐ ๊ณฑํด์ง๋ค๋ ๋จ์ ์ด ์๋ค.
-
์ด๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ๊ฐ๋ณ์ ์ธ ๊ฐ์ฒด๋ฅผ ๊ฐ์ฐ์์ ๋ถํฌ์ ์ค์ฌ์ผ๋ก ๋ณด๊ณ ํ๋ฅ ๋ฐ๋ํจ์๋ฅผ ๊ณ์ฐํด์ฃผ๋ smoothing์ ์ทจํด์ค ์ ์๋ค.
-
์ด๋ smoothing parameter h๋ฅผ ๋๋ฌด ์๊ฒ ์ก์์ฃผ๋ฉด ๋พฐ์กฑ๋พฐ์กฑํ๊ฒ under-smoothingํ ํํ๋ฅผ ๋ณด์ด๊ณ , h๋ฅผ ๋๋ฌด ํฌ๊ฒ ์ก์์ฃผ๋ฉด ๋๋ฃจ๋ญ์ ํ๊ฒ over-smoothingํ ํํ๋ฅผ ๋ณด์ธ๋ค.
Local Outlier Factor (LOF)
-
์๋ Cluster1๊ณผ Cluster2์์ ๊ฐ๊ฐ์ ์ O1, O2๋ ๊ฐ์ ๊ฑฐ๋ฆฌ๋งํผ ๋จ์ด์ ธ ์๋ค. ๊ณผ์ฐ ์ด๋ ์ ์ ์ด์์น๋ผ๊ณ ํ ์ ์์๊น? ๋จ์ํ ๊ฑฐ๋ฆฌ๋ง์ ๋น๊ตํด๋ณด๋ฉด ๊ฐ๊ฐ์ ๊ตฐ์ง์์ ๊ฐ์ฒด๋ค์ ๊ฐ์ ๊ฑฐ๋ฆฌ๋งํผ ๋จ์ด์ ธ ์์ผ๋ฏ๋ก ๊ฐ๋ค๊ณ ํ๋จ๋๊ฒ ์ง๋ง, ์ฐ๋ฆฌ๋ ๊ทธ๋ฌํ ๊ฐ์ ์ํ์ง ์๋๋ค.
- Local Outlier Factor(LOF)์ ๋ชฉ์ : ์ฐ๋ฆฌ๋ O2์ abnormal score๊ฐ O1์ abnormal score๋ณด๋ค ํฌ๊ฒ ์ธก์ ์ด ๋๊ธธ ์ํ๋ค.
-
LOF๋ฅผ ์๊ธฐ ์ํด์๋ ๋ค์ 5๊ฐ์ง ๊ฐ๋ ์ ๊ฑฐ๋ฆฌ์ ๋ํด์ ์์์ผ ํ๋ค.
โ k-distance(p)
-
๊ฐ์ฒด p๋ก๋ถํฐ k๋ฒ์งธ ๊ทผ์ ์ด์๊น์ง์ ๊ฑฐ๋ฆฌ
โก Nk(p)
-
k-distance(p) ์์ ๋ค์ด์ค๋ object์ ์งํฉ
โข reachability-distancek(p,o)
-
max{k-distance(o), d(p,o)}, ์ด์ o๋ฅผ ๊ธฐ์ค์ผ๋ก k-distance(o)์ d(p,o)์ฌ์ด์ max ๊ฐ์ ๋ฐํํ๋ค. ์ด ์์ ์ ํตํด k-distance ์ ์ชฝ์ ์๋ ์ด์๋ค์ ๊ฑฐ๋ฆฌ๋ฅผ k-distance ๊ฑฐ๋ฆฌ๋ก ์นํํด์ฃผ๊ฒ ๋๋ค.
โฃ lrdk(p)
-
local reachability density of an object p, ๊ฐ์ฒด p๋ฅผ ๊ธฐ์ค์ผ๋ก ํ์ ๋ local density distance.
โค LOFk(p)
-
local outlier factor of an object p
-
๋จ์
- ๊ณ์ฐ ๋ณต์ก๋๊ฐ ๋๋ค.
- Score ๊ฐ์ด normalize๋์ง์์ ๋ค๋ฅธ ๋ฐ์ดํฐ ์ ๊ณผ์ ๋น๊ต๊ฐ ๋ถ๊ฐ๋ฅํ๋ค.
๋ค์ ํฌ์คํธ๋ ๊ฑฐ๋ฆฌ/๊ตฐ์ง/์ํฌํธ๋ฒกํฐ ๊ธฐ๋ฐ ์ด์์นํ์ง ๊ธฐ๋ฒ๋ค๋ก ์ฐพ์๋ต๊ฒ ์ต๋๋ค.
๊ธด ๊ธ ์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค ^~^