차원 축소
-
데이터 변환_인코딩machine learning 2024. 2. 25. 16:18
인코딩(Encoding)은 범주형 데이터를 수치형 데이터로 변환하는 과정이다. 이는 텍스트나 범주형 데이터를 모델이 이해할 수 있는 형태로 변환하는 것으로, 데이터에 포함된 정보를 모델이 해석하기 쉬운 형태로 변환하는 것이다. 다양한 인코딩 방식을 사용한다면 데이터의 의미를 수치적으로 표현할 수 있다. 원 핫 인코딩의 경우, 범주 간의 명확한 구분을 제공하는 인코딩 방식인 반면, 차원의 갯수가 늘어나 차원의 저주가 발생할 수 있는 반면, 레이블 인코딩의 경우 범주 간의 순서나 등급 정보를 제공하여 표현할 수있다. 대표적인 인코딩 방식에 대한 설명과 사용 목적, 의의와 한계를 한번 살펴보자. 1. One Hot Encoding 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 ..