train dataset
-
train _vs_ valid _vs_ testmachine learning 2024. 3. 15. 00:42
Dataset을 train data, valid data, test data로 구분하는 이유에 대해 간단하게 정리한다. 이를 통해 valid data의 중요성을 정확하게 기억하고자 한다. dataset을 구분하는 이유는 본질적으로 model의 overfitting을 막기 위함이다. overfitting : 훈련 데이터에 대해서는 성능이 높게 나타나지만, 훈련 데이터가 아닌 데이터에 대해서는 성능이 낮게 나오는 현상으로, model이 훈련 dataset에 지나치게 과적합 되어 있을 경우 발생 Train data와 Test data를 구분하는 이유 Overfitting의 발생 여부를 확인하기 위함 train data의 loss 값은 안정적이나 test data의 loss 값이 안정적이지 않거나 너무 높은 경..