overfitting
-
train _vs_ valid _vs_ testmachine learning 2024. 3. 15. 00:42
Dataset을 train data, valid data, test data로 구분하는 이유에 대해 간단하게 정리한다. 이를 통해 valid data의 중요성을 정확하게 기억하고자 한다. dataset을 구분하는 이유는 본질적으로 model의 overfitting을 막기 위함이다. overfitting : 훈련 데이터에 대해서는 성능이 높게 나타나지만, 훈련 데이터가 아닌 데이터에 대해서는 성능이 낮게 나오는 현상으로, model이 훈련 dataset에 지나치게 과적합 되어 있을 경우 발생 Train data와 Test data를 구분하는 이유 Overfitting의 발생 여부를 확인하기 위함 train data의 loss 값은 안정적이나 test data의 loss 값이 안정적이지 않거나 너무 높은 경..
-
데이터 전처리 과정machine learning 2024. 2. 25. 15:41
데이터 분석을 위해 모델을 사용하거나, 특정 목적에 사용하기 위한 모델을 학습시키려고 하는 경우, 데이터에 대한 전처리 과정은 굉장히 중요하다. 특히 모델이 잘 학습할 수 있도록 data를 scaling하고 불필요하거나 잘못 입력된 결측 값들을 사전에 제거하는 것은, 정제된 데이터를 사용함으로써 효율적으로 모델이 학습되고 사용할 수 있는 도구로서 잘 기능할 수 있도록 하는 첫 걸음이다. 사실상 다양한 라이브러리를 통해 모델을 쉽게 import 하여 사용할 수 있다는 점에서, 어떤 problem을 해결하고자 모델을 사용할 것인지에 관한 목적을 명확히 설정하는 것과 더불어, 이를 위해 데이터를 어떻게 구축하여 사용할 것인가 하는 것 역시 굉장히 중요한 문제이다. 효과적인 데이터 전처리를 위해서는 정말 다양한..