-
ML) ๋จธ์ ๋ฌ๋ ๊ฐ์์นดํ ๊ณ ๋ฆฌ ์์ 2023. 4. 12. 23:40
๐ ๋จธ์ ๋ฌ๋: ๋ช ์์ ์ผ๋ก ํ๋ก๊ทธ๋๋ฐ ํ์ง ์๊ณ ๋ ์ปดํจํฐ์ ํ์ตํ ์ ์๋ ๋ฅ๋ ฅ์ ๋ถ์ฌํ๋ ํ๋ฌธ (์๋ ์ฌ๋ฎค์)
๋ช ์์ ์ธ ํ๋ก๊ทธ๋จ์ ์ํด์๊ฐ ์๋๋ผ, ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ํตํด ๊ท์น์ ์ฐพ๋ ๊ฒ
๐ ์๊ณ ๋ฆฌ์ฆ: ํ์ฌ ์ํฉ์์๋ ์ด๊ฒ์ด ์ต์ ์ด๋ผ๋ ๊ทผ๊ฑฐ
(์ด๋ฐ ๋ฐฉํฅ, ์ ๋ฐ ๋ฐฉํฅ์ผ๋ก ์งํํ์์ ๋ ๊ฐ๊ฐ์ ์ฐจ์ด์ ์ ๋ํ ์ ๋์ ์์น ์ ์)

sepcies 0 ์ ๋ช ํํ ๊ตฌ๋ถ ๊ฐ๋ฅ -> 1, 2๋ฅผ ์ด๋ป๊ฒ ๊ตฌ๋ถํ ๊ฒ์ธ๊ฐ
Decision Tree์ ๋ถํ ๊ธฐ์ค(Split Criterion)
์ ๋ณดํ๋: ์ ๋ณด์ ๊ฐ์น๋ฅผ ๋ฐํํ๋ ๋ฐ ๋ฐ์ํ๋ ์ฌ๊ฑด์ ํ๋ฅ ์ด ์์์๋ก ์ ๋ณด์ ๊ฐ์น๋ ์ปค์ง๋ค
์ ๋ณด์ด๋: ์ด๋ค ์์ฑ์ ์ ํํจ์ผ๋ก ์ธํด ๋ฐ์ดํฐ๋ฅผ ๋ ์ ๊ตฌ๋ถํ๊ฒ ๋๋ ๊ฒ
์ ๋ณด ์ํธ๋กํผ(ํด๋ก๋ ์๋): ๋ฌด์ง์๋(disorder), ๋ถํ์ค์ฑ(uncertainty) ์๋ฏธ
์ํธ๋กํผ๋ ์ด์ญํ์ ์ฉ์ด๋ก ๋ฌผ์ง์ ์ด์ ์ํ๋ฅผ ๋ํ๋ด๋ ๋ฌผ๋ฆฌ๋์ ๋จ์ ์ค ํ๋, ๋ฌด์ง์์ ์ ๋๋ฅผ ๋ํ๋ -> ํ๋ฅ ๋ถํฌ์ ๋ฌด์ง์๋, ๋ถํ์ค์ฑ, ์ ๋ณด ๋ถ๋ด ์ ๋๋ฅผ ๋ํ๋ด๋ ์ ๋ณด ์ํธ๋กํผ ๊ฐ๋ ๊ณ ์

p: ํด๋น ๋ฐ์ดํฐ๊ฐ ํด๋น ํด๋์ค์ ์ํ ํ๋ฅ / ์ด๋ค ํ๋ฅ ๋ถํฌ๋ก ์ผ์ด๋๋ ์ฌ๊ฑด์ ํํํ๋ ๋ฐ ํ์ํ ์ ๋ณด์ ์
์ด ๊ฐ์ด ์ปค์ง์๋ก ํ๋ฅ ๋ถํฌ์ ๋ถํ์ค์ฑ์ด ์ปค์ง๋ฉฐ ๊ฒฐ๊ณผ์ ๋ํ ์์ธก์ด ์ด๋ ค์์ง

๋ก๊ทธ ๊ณ์ฐ ์ด๋ ค์ -> ์ข ๋ ์ฌ์ด ๋ฐฉ๋ฒ ๊ณ ์: ์ง๋ ๊ณ์ (๋ฎ์์๋ก ์ํธ๋กํผ ↓ -> ๋ฎ์์๋ก ์ข์)

Gini index(๋ถ์๋์จ): ์ํธ๋กํผ์ ๊ณ์ฐ๋์ด ๋ง์์ ๋น์ทํ ๊ฐ๋ ์ด๋ฉด์ ๋ณด๋ค ๊ณ์ฐ๋์ด ์ ์ ์ง๋๊ณ์๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ ๅค