-
classification _vs_ regressionmachine learning 2024. 3. 15. 00:38
레이블의 고유 값이 2개인 경우, 해당 문제를 classification task로 접근할 것인지, regression task로 접근할 것인지 헷갈리기에, 해당 내용을 간단하게 나마 정리해본다.
레이블의 고유 값이 2개인 경우, 즉 이진 분류 문제(Binary Classification Problem)를 회귀(Regression) 문제로 접근하거나 분류(Classification) 문제로 접근하는 것은 데이터 과학과 머신러닝에서 흔히 볼 수 있는 상황입니다. 각 접근 방식의 의미와 차이점은 다음과 같습니다:
분류 문제로 접근
의미
- 이진 분류 문제에서는 레이블이 두 가지 범주 중 하나에 속하는지를 예측합니다. 예를 들어, 이메일이 스팸인지 아닌지, 환자가 특정 질병을 가지고 있는지 없는지 등이 이에 해당합니다.
특징
- 모델은 각 입력 샘플이 특정 클래스에 속할 확률을 출력합니다. 보통 0.5 이상의 확률을 가지는 클래스를 해당 샘플의 예측 레이블로 선택합니다.
- 손실 함수로는 로지스틱 손실(Logistic Loss), 크로스 엔트로피(Cross-Entropy Loss) 등이 사용됩니다.
- 성능 평가는 정확도, 정밀도, 재현율, F1 점수 등으로 수행됩니다.
회귀 문제로 접근
의미
- 회귀 접근 방식에서는 레이블을 연속적인 값으로 간주하고, 모델을 통해 이 연속적인 값을 예측하려고 시도합니다. 이 경우, 레이블은 보통 0과 1로 인코딩되며, 모델은 이 레이블의 값을 예측하는 데 집중합니다.
특징
- 모델은 실수 범위의 값을 출력하며, 특정 임계값(예: 0.5)을 기준으로 최종 레이블을 결정합니다.
- 손실 함수로는 평균 제곱 오차(Mean Squared Error, MSE) 등이 사용될 수 있습니다.
- 이 접근 방식은 모델이 레이블의 확률을 직접적으로 예측하며, 예측된 값의 범위와 실제 레이블 값의 범위가 일치해야 합니다.
의미와 차이점
- 문제의 본질: 분류는 레이블이 명확한 범주에 속하는지를 예측하는 반면, 회귀는 레이블의 실제 값을 예측합니다. 이진 분류 문제를 회귀로 접근하는 경우, 예측 값의 범위가 0과 1 사이여야 하며, 이를 기반으로 최종 레이블을 결정해야 합니다.
- 모델의 출력: 분류에서는 클래스에 속할 확률을 출력하고, 회귀에서는 연속적인 값을 출력합니다. 분류 모델은 보통 시그모이드 함수 같은 활성화 함수를 사용하여 출력값을 [0, 1] 범위로 제한합니다.
- 손실 함수와 평가 지표: 분류 문제에서는 크로스 엔트로피 같은 손실 함수가 자주 사용되며, 회귀 문제에서는 MSE 같은 손실 함수가 사용됩니다. 분류 문제의 평가 지표는 정확도, 정밀도 등이고, 회귀 문제는 R², MSE 등으로 평가합니다.
이진 분류 문제를 회귀 문제로 접근할 수 있으나, 이는 문제의 성격과 모델의 목적에 따라 결정해야 합니다. 일반적으로, 분류 문제에는 분류 모델을, 회귀 문제에는 회귀 모델을 사용하는 것이 더 직관적이고 효율적입니다.
'machine learning' 카테고리의 다른 글
train _vs_ valid _vs_ test (0) 2024.03.15 가상 데이터의 활용 (0) 2024.02.25 데이터 축소 (0) 2024.02.25 데이터 변환_인코딩 (0) 2024.02.25 데이터 변환_스케일링 (0) 2024.02.25