[๋จธ์ ๋ฌ๋][์ฐจ์์ถ์] ๋ณ์ ์ถ์ถ๋ฒ - Multi-Dimensional Scaling (MDS)
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/๋จธ์ ๋ฌ๋์ฐจ์์ถ์-๋ณ์-์ถ์ถ๋ฒ-Multi-Dimensional-Scaling-MDS
๋ณธ ํฌ์คํธ๋ ๊ณ ๋ ค๋ํ๊ต ๊ฐํ์ฑ ๊ต์๋
์ ๊ฐ์๋ฅผ ์๊ฐ ํ ์ ๋ฆฌ๋ฅผ ํ ๊ฒ์
๋๋ค. ์์ฑ ๋ฐ ์ค๋ช
์ ํธ์๋ฅผ ์ํด ์๋๋ ํธํ๊ฒ ์์ฑํ ์ ์ํด๋ถํ๋๋ฆฝ๋๋ค.
Dimensionality Reduction
Supervised Variable Extraction
์ฐจ์์ถ์๋, ๋ชจ๋ธ๋ง์ ํ๊ธฐ ์ํด ๋ด๊ฐ ๊ฐ์ง ๋ฐ์ดํฐ์ ์ ๋ณด๋ฅผ ์ต๋ํ ๋ณด์กดํ๋ฉด์, ํจ์ฌ ๋ compactํ๊ฒ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ฑํ๋ ๊ฒ์ ๋ชฉ์ ์ผ๋ก ํ๋ฉฐ, ํฌ๊ฒ ๋ณ์์ ํ(Variable Selection, ๋ณ์๋ค์ ๋ถ๋ถ ์งํฉ ์ ํ)๊ณผ ๋ณ์์ถ์ถ(Variable Extraction, ๋ณ์๋ค์ ์์ฝํ๋ ์๋ก์ด ๋ณ์ ์์ฑ)์ด ์๋ค.
์ด์ ํฌ์คํธ์์๋ ์๋ ํ์์ Supervised Variable Selection์ ์ดํด๋ณด์๋ค. ์ค๋์ Supervised Variable Extraction์ ๋ํด ์ด์ผ๊ธฐ๋ฅผ ํ์ด๋ณด๋๋ก ํ๊ฒ ๋ค.
MDS๋
Multi-Dimensional Scaling(MDS), ๋ค์ฐจ์์ฒ๋๋ฒ์ด๋, D-์ฐจ์ ๊ณต๊ฐ ์์ ๊ฐ์ฒด๋ค์ด ์์ ๋ ๊ทธ ๊ฐ์ฒด๋ค์ ๊ฑฐ๋ฆฌ(between object distance)๊ฐ ์ -์ฐจ์ ๊ณต๊ฐ ์์๋ ์ต๋ํ ๋ง์ด ๋ณด์กด๋๋๋ก ํ๋ ์ขํ๊ณ๋ฅผ ์ฐพ๋ ๊ฒ์ ์๋ฏธํ๋ค.
Distance matrix๋ฅผ ํตํด์ ์ -์ฐจ์ ์์ ๊ฐ๊ฐ์ ๊ฐ์ฒด๋ค์ด ๊ฐ๋ ์ขํ ์์คํ ์ ์ฐพ๋ ๊ฒ์ด ๋ชฉ์
์ง๋๋ฒ์ ๋ค๋ฃจ์๋ PCA(๋งํฌ)์ MDS๋ฅผ ๋น๊ตํ๋ฉด ๋ค์๊ณผ ๊ฐ์ด ํ๋ก ์ ๋ฆฌํ ์ ์๋ค.
์ถ๊ฐ์ ์ผ๋ก PCA๋ฅผ ์ ์ฉํ ์ ์๋ ๋ชจ๋ ๋ฐ์ดํฐ๋ ๊ฑฐ๋ฆฌ์ ๋ํ ๊ฐ์ผ๋ก ํ๊ธฐ ๋ฐ MDS ์ ์ฉ์ด ๊ฐ๋ฅํ์ง๋ง, ์ญ์ ์ฑ๋ฆฝํ์ง ์๋๋ค.
MDS ํ๋ก์ธ์ค
[1] Construct Proximity/Distance Matrix ๋จ๊ณ
- ๊ทผ์ /๊ฑฐ๋ฆฌ ํ๋ ฌ(D, distance matrix) ๊ตฌ์ถ ๋จ๊ณ์ด๋ค.
-
๊ฑฐ๋ฆฌ-ํ๋ ฌ์ด ๊ฐ์ ธ์ผํ ํน์ง์ ์๋์ ๊ฐ๋ค:
-
dijโฅ0d_{ij}โฅ0dijโโฅ0
-
dii=0d_{ii}=0diiโ=0
-
dij=djid_{ij}= d_{ji}dijโ=djiโ
-
dijโคdik+djkd_{ij}โคd_{ik}+d_{jk}dijโโคdikโ+djkโ (โต ์ผ๊ฐ๋ถ๋ฑ์)
-
- Distance Measure: Euclidean, Manhattan, etc.
- Similarity Measure: Correlation, Jaccard, etc.
-
(์ฐธ๊ณ ) MDS์ ์ต์ข ๋ชฉ์
- ์๋ drsd_{rs}drsโ ์์ ๋ฐํ์ผ๋ก xrx_{r}xrโ, xsx_{s}xsโ๋ฅผ ์ฐพ์๋ด๋ ๊ฒ
drs2=(xrโxs)T(xrโxs)d_{rs}^2=(x_r-x_s )^T (x_r-x_s)drs2โ=(xrโโxsโ)T(xrโโxsโ)
[2] Extract the coordinates that preserve the distance information ๋จ๊ณ
- ๊ฑฐ๋ฆฌ ์ ๋ณด๋ฅผ ๋ณด์กดํ๋ ์ขํ ์์คํ ์ ์ฐพ๋ ๋จ๊ณ์ด๋ค.
- D๋ผ๋ distance matrix์์ ํ ๋ฒ์ x๋ฅผ ๊ตฌํ๊ธฐ ์ด๋ ค์ฐ๋ฏ๋ก, B๋ผ๋ ๋งค๊ฐ์ฒด์ธ ๋ด์ Matrix๋ฅผ ๋์ถํ๊ณ ๊ทธ ๋ค์์ X๋ฅผ ๊ตฌํ๋ค.
D(nรn)โB(nรn)โX(dรn)โDโ(XrโXs)T(XrโXs)โBโXrTXsโXโXD_{(nรn)} โ B_{(nรn)} โ X_{(dรn)} โ D โ (X_r-X_s )^T (X_r-X_s ) โ B โ X_r^T X_s โ X โ XD(nรn)โโB(nรn)โโX(dรn)โโD:=(XrโโXsโ)T(XrโโXsโ)โB:=XrTโXsโโX:=X
- B๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ฉฐ ๋ช ๊ฐ์ง ๊ฐ์ ์ ๋ฐ๋ฅธ๋ค.
[B]rs=brs=XrTXs[B]_rs=b_rs=X_r^T X_s[B]rโs=brโs=XrTโXsโ
-
๊ฐ์
-
โr=1nxri=0(i=1,2,โฆ,p)โ_{r=1}^{n}x_{ri}=0 (i=1,2,โฆ,p)โr=1nโxriโ=0(i=1,2,โฆ,p), ๋ชจ๋ ๋ณ์์ ํฉ์ 0์ด๋ค.
-
drs2=(XrโXs)T(XrโXs)=XrTXr+XsTXSโ2XrTXsd_{rs}^{2}=(X_r-X_s )^T (X_r-X_s )=X_r^T X_r+X_s^T X_S-2X_r^T X_sdrs2โ=(XrโโXsโ)T(XrโโXsโ)=XrTโXrโ+XsTโXSโโ2XrTโXsโ
-
-
r์ ๋ํ ํฉ (1):
-
s์ ๋ํ ํฉ (2):
-
r๊ณผ s์ ๋ํ ํฉ (3):
-
B(inner product matrix)๋ฅผ ๊ตฌํด๋ณด์
-
์ขํ์์คํ X๋ฅผ ๊ตฌํด๋ณด์. B๋ ์ด๋ฏธ ์์์ ์ธ๊ธํ๋ฏ์ด ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ ์ ์๋ค.
B(nรn)=XXTB_{(nรn)}=XX^TB(nรn)โ=XXT
rank(B)=rank(XXT)=rank(X)=prank(B)=rank(XX^T )=rank(X)=prank(B)=rank(XXT)=rank(X)=p
(X(nรp)X_{(nรp)}X(nรp)โ, rank๋ ์ ํ๋ ๋ฆฝ์ธ ์ด๋ค์ ์ต๋์ ๊ฐ์๋ฅผ ์๋ฏธํ๋ฉฐ, p<n์กฐ๊ฑด์ ๋ง์กฑํ๋ค.)
- ์ด๋ ํ๋ ฌ B๋ inner product matrix ์ด๊ธฐ ๋๋ฌธ์ ๋ค์๊ณผ ๊ฐ์ ์ฑ์ง์ ๋ง์กฑํ๊ณ , 0์ธ eigenvalue๊ฐ๋ค์ ์ ๊ฑฐํ๋ฉด ๋ค์๊ณผ ๊ฐ์ด ํํํ ์ ์๋ค.
- B=XXTB = XX^TB=XXT์ด๋ฏ๋ก, X=V1ฮ11/2X = V_{1} ฮ_{1}^{1/2}X=V1โฮ11/2โ์์ ๊ตฌํ ์ ์๋ค.
๊ธด ๊ธ ์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค ^~^