encoding
-
데이터 변환_인코딩machine learning 2024. 2. 25. 16:18
인코딩(Encoding)은 범주형 데이터를 수치형 데이터로 변환하는 과정이다. 이는 텍스트나 범주형 데이터를 모델이 이해할 수 있는 형태로 변환하는 것으로, 데이터에 포함된 정보를 모델이 해석하기 쉬운 형태로 변환하는 것이다. 다양한 인코딩 방식을 사용한다면 데이터의 의미를 수치적으로 표현할 수 있다. 원 핫 인코딩의 경우, 범주 간의 명확한 구분을 제공하는 인코딩 방식인 반면, 차원의 갯수가 늘어나 차원의 저주가 발생할 수 있는 반면, 레이블 인코딩의 경우 범주 간의 순서나 등급 정보를 제공하여 표현할 수있다. 대표적인 인코딩 방식에 대한 설명과 사용 목적, 의의와 한계를 한번 살펴보자. 1. One Hot Encoding 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 ..
-
데이터 전처리 과정machine learning 2024. 2. 25. 15:41
데이터 분석을 위해 모델을 사용하거나, 특정 목적에 사용하기 위한 모델을 학습시키려고 하는 경우, 데이터에 대한 전처리 과정은 굉장히 중요하다. 특히 모델이 잘 학습할 수 있도록 data를 scaling하고 불필요하거나 잘못 입력된 결측 값들을 사전에 제거하는 것은, 정제된 데이터를 사용함으로써 효율적으로 모델이 학습되고 사용할 수 있는 도구로서 잘 기능할 수 있도록 하는 첫 걸음이다. 사실상 다양한 라이브러리를 통해 모델을 쉽게 import 하여 사용할 수 있다는 점에서, 어떤 problem을 해결하고자 모델을 사용할 것인지에 관한 목적을 명확히 설정하는 것과 더불어, 이를 위해 데이터를 어떻게 구축하여 사용할 것인가 하는 것 역시 굉장히 중요한 문제이다. 효과적인 데이터 전처리를 위해서는 정말 다양한..