-
ML) 과적합과 데이터 분리(hold out)카테고리 없음 2023. 4. 17. 01:29
과적합: 모델이 학습 데이터에만 과도하게 최적화된 현상
-> 내가 가진 데이터에 너무 최적화되어 있어 일반적인 데이터에서 예측 성능이 과하게 떨어짐
🔔 지도학습: 학습 대상이 되는 데이터에 정답(label)을 붙여서 학습시키고, 모델을 얻어서 완전히 새로운 데이터에 모델을 사용해서 '답'을 얻고자 하는 것 (머신러닝의 일반적 절차)
🔔iris의 품종을 분류하는 결정나무 모델이 어떻게 데이터를 분류했는지 확인

경계면은 올바른 것인지 / 내가 가진 데이터를 벗어나서 일반화할 수 있는지
-> 얻은 데이터는 유한, 내가 얻은 데이터 이용해서 일반화 추구하게 됨 -> 복잡한 경계면은 결국 모델의 성능 저하 유발
= 과적합의 문제
데이터 분리: 과적합 여부 판정
확보된 데이터 중에서 모델학습에 사용하지 않고 빼둔 데이터를 가지고 모델 테스트

8:2 확률로 특성(features)과 정답(labels)를 분리
