preprocessing
-
Embedding OutLinedeep learning 2024. 2. 29. 13:15
Embedding (or Embedding Vector) : 텍스트 데이터를 고정된 크기의 밀집 벡터로 변환하는 기술로, 텍스트 데이터의 의미적, 문맥적 정보를 벡터 공간에 표현하는 것으로, embedding들 간의 거리 계산을 통해 이들 간의 의미적 관계를 파악할 수 있다. : Embedding의 종류는 다음과 같다. Vectorization에 신경망을 사용하지 않을 경우 단어에 대한 벡터 표현 : One-Hot Encoding 문서에 대한 벡터 표현 : Document Term Matrix, TF-IDF Vectorization에 신경망을 사용하는 경우 (Learned Embedding) 단어에 대한 벡터 표현 방법 : 워드 임베딩 (Word2Vec, GloVe, FastText, Embedding ..
-
데이터 변환_스케일링machine learning 2024. 2. 25. 16:17
데이터 스케일링(data scaling)은 데이터 전처리 과정의 핵심 단계 중 하나로, dataset의 features를 특정 범위로 조정하거나, 데이터의 분포를 표준화하는 과정으로, 주요 목적은 다음과 같다. 1. 특성 간의 균형 조정 (★★★) 데이터 feature를 특정 범위 값으로 조절하여 feature 크기에 따른 불균형을 조정할 수 있다. 이를 통해 특성의 중요도를 공정하게 해석하여 overfitting을 극복할 수 있다. 이는 특히 거리 기반의 알고리즘(KNN, K-Means Clustering 등)에 있어 특성 간 거리 측정이 더 공정하게 이루어지도록 하여 알고리즘의 정확도와 성능을 향상시킨다. 2. 모델의 수렴 속도 향상 scale을 일치시킴으로서 최적화 알고리즘이 수렴하는 속도를 일정하..
-
데이터 전처리 과정machine learning 2024. 2. 25. 15:41
데이터 분석을 위해 모델을 사용하거나, 특정 목적에 사용하기 위한 모델을 학습시키려고 하는 경우, 데이터에 대한 전처리 과정은 굉장히 중요하다. 특히 모델이 잘 학습할 수 있도록 data를 scaling하고 불필요하거나 잘못 입력된 결측 값들을 사전에 제거하는 것은, 정제된 데이터를 사용함으로써 효율적으로 모델이 학습되고 사용할 수 있는 도구로서 잘 기능할 수 있도록 하는 첫 걸음이다. 사실상 다양한 라이브러리를 통해 모델을 쉽게 import 하여 사용할 수 있다는 점에서, 어떤 problem을 해결하고자 모델을 사용할 것인지에 관한 목적을 명확히 설정하는 것과 더불어, 이를 위해 데이터를 어떻게 구축하여 사용할 것인가 하는 것 역시 굉장히 중요한 문제이다. 효과적인 데이터 전처리를 위해서는 정말 다양한..
-
Normalization_1deep learning/normalization 2024. 2. 6. 23:50
종종 정규화라는 이름으로 이해되는 세 가지 개념의 목적과 사용 방법, 예시에 대해 간단하게 정리해본다. Normalization, Standardization, Regularization은 서로 다른 개념이지만 데이터 전처리와 모델 학습 단계에서 데이터의 안정성과 모델 학습의 효율성을 제고하기 위해 사용된다. Normalization과 Standardization은 데이터의 스케일을 변환하는 방법이고, Regularizaition은 모델의 파라미터에 적용되어 Overfitting을 예방하는 역할을 수행한다. Normalization (정규화) 데이터의 범위를 [0, 1] 혹은 [-1, 1]과 같은 특정 범위로 스케일을 조정하는 것으로, 데이터의 전체적인 모양 혹은 특성은 훼손하지 않고 기존 데이터와 동일..