deep learning/natural language process
-
Attention Backgrounddeep learning/natural language process 2024. 3. 20. 17:32
1. Positional Encoding 정의 : 순서를 고려하지 않는 모델의 입력 sequence에 위치 정보를 제공하기 위한 encoding 방법 목적 : 모델이 단어의 순서를 이해하여 더 정확한 출력을 생성할 수 있도록 하기 위함 필요성 순환 신경망은 sequence data의 순서 정보(시간 정보)를 hidden state를 통해 순차적으로 전달하여 모델링하지만, 모든 입력을 동시에 처리하는 attention mechanism을 사용할 경우 입력 데이터의 순서를 감지할 수 있는 구조적 특성을 갖지 못함 단어나 토큰의 순서 정보를 직접적으로 인식할 수 없다는 점에서, sequence의 순서 정보를 별도로 제공해야할 필요성 대두 문장 내의 단어 위치를 알 수 없다면 문장의 뜻이 완전히 달라지는 문제가..
-
DTM과 TF-IDFdeep learning/natural language process 2024. 2. 29. 16:41
Embedding을 위한 vectorizaton에서 신경망을 사용하지 않는 방식을 None-Learned Embedding이라고 한다. None-Learned Embedding 중 문서에 대한 Vectorization 방법으로는 크게 DTM과 TF-IDF가 있다. DTM과 TF-IDF 모두 BoW 방식에 기반한다. BoW는 Bag of Words로, 단어의 순서는 무시하고 오직 단어의 빈도수에만 집중하여 DTM : Document Term Matrix (문서 단어 행렬) 문서 집합을 표현하는 방법 중 하나로, 각 문서에 등장하는 단어들의 빈도를 행렬 형태로 나타내는 방식으로 vectorization을 수행한다. DTM의 (i, j)번 째 원소는 i 번째 문서에 j 번째 단어가 등장한 횟수이다. DTM은 ..
-
Word2vecdeep learning/natural language process 2024. 2. 28. 21:01
WordeVec CBOW (Continuous Bag of Words) 주변에 있는 단어(x)들을 입력으로 중간에 있는 단어(y)들을 예측하는 방식으로, sliding window 방식을 활용한다 중심 단어가 예측되는 과정 초기 토큰은 원 핫 인코딩으로 표현된다. 원 핫 인코딩으로 표현된 각각의 초기 토큰은 projection layer에 전달되며, 이 때 전달되는 값은 원 핫 인코딩으로 표현된 토큰에 가중치 W를 곱한 값들의 평균이다. (이 평균은 window에 의해 select된 단어들의 맥락 정보를 담고 있다.) 이 평균 값에 가중치 행렬을 곱한 값에 softmax 함수를 적용한 값은 score vector가 된다. 정리 주변 단어들의 embedding vector 값을 바탕으로 중심 단어를 예측하..