embedding
-
[review] Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddingsdeep learning/paper review 2024. 3. 20. 00:25
원문 링크 : [1607.06520] Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings (arxiv.org) Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings The blind application of machine learning runs the risk of amplifying biases present in data. Such a danger is facing us with word embedding, a popular framework to represent text data as vectors which..
-
DTM과 TF-IDFdeep learning/natural language process 2024. 2. 29. 16:41
Embedding을 위한 vectorizaton에서 신경망을 사용하지 않는 방식을 None-Learned Embedding이라고 한다. None-Learned Embedding 중 문서에 대한 Vectorization 방법으로는 크게 DTM과 TF-IDF가 있다. DTM과 TF-IDF 모두 BoW 방식에 기반한다. BoW는 Bag of Words로, 단어의 순서는 무시하고 오직 단어의 빈도수에만 집중하여 DTM : Document Term Matrix (문서 단어 행렬) 문서 집합을 표현하는 방법 중 하나로, 각 문서에 등장하는 단어들의 빈도를 행렬 형태로 나타내는 방식으로 vectorization을 수행한다. DTM의 (i, j)번 째 원소는 i 번째 문서에 j 번째 단어가 등장한 횟수이다. DTM은 ..
-
Embedding OutLinedeep learning 2024. 2. 29. 13:15
Embedding (or Embedding Vector) : 텍스트 데이터를 고정된 크기의 밀집 벡터로 변환하는 기술로, 텍스트 데이터의 의미적, 문맥적 정보를 벡터 공간에 표현하는 것으로, embedding들 간의 거리 계산을 통해 이들 간의 의미적 관계를 파악할 수 있다. : Embedding의 종류는 다음과 같다. Vectorization에 신경망을 사용하지 않을 경우 단어에 대한 벡터 표현 : One-Hot Encoding 문서에 대한 벡터 표현 : Document Term Matrix, TF-IDF Vectorization에 신경망을 사용하는 경우 (Learned Embedding) 단어에 대한 벡터 표현 방법 : 워드 임베딩 (Word2Vec, GloVe, FastText, Embedding ..
-
Word2vecdeep learning/natural language process 2024. 2. 28. 21:01
WordeVec CBOW (Continuous Bag of Words) 주변에 있는 단어(x)들을 입력으로 중간에 있는 단어(y)들을 예측하는 방식으로, sliding window 방식을 활용한다 중심 단어가 예측되는 과정 초기 토큰은 원 핫 인코딩으로 표현된다. 원 핫 인코딩으로 표현된 각각의 초기 토큰은 projection layer에 전달되며, 이 때 전달되는 값은 원 핫 인코딩으로 표현된 토큰에 가중치 W를 곱한 값들의 평균이다. (이 평균은 window에 의해 select된 단어들의 맥락 정보를 담고 있다.) 이 평균 값에 가중치 행렬을 곱한 값에 softmax 함수를 적용한 값은 score vector가 된다. 정리 주변 단어들의 embedding vector 값을 바탕으로 중심 단어를 예측하..