-
train _vs_ valid _vs_ testmachine learning 2024. 3. 15. 00:42
Dataset을 train data, valid data, test data로 구분하는 이유에 대해 간단하게 정리한다. 이를 통해 valid data의 중요성을 정확하게 기억하고자 한다.
- dataset을 구분하는 이유는 본질적으로 model의 overfitting을 막기 위함이다.
- overfitting : 훈련 데이터에 대해서는 성능이 높게 나타나지만, 훈련 데이터가 아닌 데이터에 대해서는 성능이 낮게 나오는 현상으로, model이 훈련 dataset에 지나치게 과적합 되어 있을 경우 발생
- Train data와 Test data를 구분하는 이유
- Overfitting의 발생 여부를 확인하기 위함
- train data의 loss 값은 안정적이나 test data의 loss 값이 안정적이지 않거나 너무 높은 경우 overfitting이 발생했을 수 있다.
- Overfitting의 발생 여부를 확인하기 위함
- Train data와 Validation data를 구분하는 이유
- Hyper Parameter의 조정 : train된 모델에 validation data를 투입하여 overfitting 여부를 확인하고, hyper parameter를 조정하여 최적의 모델 composure를 확인
- Model Selection : test data를 통한 test 이전에 최적의 성능을 발휘하는 model을 확인 가능
ps. valid data는 train의 영역에 포함된다.
'machine learning' 카테고리의 다른 글
classification _vs_ regression (1) 2024.03.15 가상 데이터의 활용 (0) 2024.02.25 데이터 축소 (0) 2024.02.25 데이터 변환_인코딩 (0) 2024.02.25 데이터 변환_스케일링 (0) 2024.02.25 - dataset을 구분하는 이유는 본질적으로 model의 overfitting을 막기 위함이다.