머신러닝 기초5

2020. 8. 17. 13:57

과적합이란

- 과적합(overfitting): 설계한 모델이 학습데이터는 너무나 잘 예측하나, 검증/테스트 데이터에서는 잘 예측하지 못하는 현상

- 모델이 복잡할 수록, 주어진 데이터가 적을수록 과적합이 일어나기 쉽다.

- 과적합은 머신러닝의 data science뿐만 아니라 AI 전반적으로 중요한 이슈이다.

- 과적합은 제거하는 것이 아닌 완화하는 것이다.

- 이론적으로는 오차가 없지만, 실제 모델 f는 완벽하게 예측을 할 수 없기 때문에 오차(오차항, 엡실론)가 존재한다.

따라서 실제값과 예측값의 차이가 발생하는데, 이 (실제값과 예측값의 차)^2의 평균을 구한 값이 MSE(mean squared error)이다.

모델 f를 기준으로 모집단의 전체 데이터를 예측할 때 발생하는 총 error을 계산하면 줄일 수 있는 오류(reducible error)와 줄일 수 없는 오류(irreducible error)로 구분된다.

이 때 총 error를 구하기 위해 MSE를 사용하며, 구성은 다음과 같다.

MSE = 분산 + 편파성^2 + irreducible error

분산(variance): 모델이 예측한 데이터의 분포정도, 전체 데이터 집합 중 다른 학습데이터를 사용하였을 때 모델f가 변하는 정도

편파성(bias): 모델이 예측한 데이터와 실제 데이터간의 차이의 정도, 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차

irreducible error: 우리가 알수없는 오차(오차항)에 대한 분산

-> 복잡한 모델일수록 분산이 높고, 간단한 모델일수록 편파성이 높다(즉 모델의 복잡도에 따라 분산과 편파성의 정도가 반비례한다.)

-> 즉, 줄일 수 있는 오류를 최대한 줄여야하며, 분산과 편파성의 합이 가장 적은 모델을 설계하도록 해야한다.

** 모집단의 전체 데이터란 우리가 학습/검증/테스트 뿐만 아니라 실제 환경에서 주어지는(즉 우리가 현재 구할 수 없는) 데이터를 포함한 전체 데이터를 의미한다.

Lagifun's 정보 기록소