ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • ML) 과적합과 데이터 분리(hold out)
    카테고리 없음 2023. 4. 17. 01:29
    과적합: 모델이 학습 데이터에만 과도하게 최적화된 현상

    -> 내가 가진 데이터에 너무 최적화되어 있어 일반적인 데이터에서 예측 성능이 과하게 떨어짐

     

    🔔 지도학습: 학습 대상이 되는 데이터에 정답(label)을 붙여서 학습시키고, 모델을 얻어서 완전히 새로운 데이터에 모델을 사용해서 '답'을 얻고자 하는 것 (머신러닝의 일반적 절차)

     

    🔔iris의 품종을 분류하는 결정나무 모델이 어떻게 데이터를 분류했는지 확인

    경계면은 올바른 것인지 / 내가 가진 데이터를 벗어나서 일반화할 수 있는지

    -> 얻은 데이터는 유한, 내가 얻은 데이터 이용해서 일반화 추구하게 됨 -> 복잡한 경계면은 결국 모델의 성능 저하 유발

    = 과적합의 문제

     

    데이터 분리: 과적합 여부 판정

    확보된 데이터 중에서 모델학습에 사용하지 않고 빼둔 데이터를 가지고 모델 테스트

    8:2 확률로 특성(features)과 정답(labels)를 분리

     

    댓글

binlog