IDF
-
DTM과 TF-IDFdeep learning/natural language process 2024. 2. 29. 16:41
Embedding을 위한 vectorizaton에서 신경망을 사용하지 않는 방식을 None-Learned Embedding이라고 한다. None-Learned Embedding 중 문서에 대한 Vectorization 방법으로는 크게 DTM과 TF-IDF가 있다. DTM과 TF-IDF 모두 BoW 방식에 기반한다. BoW는 Bag of Words로, 단어의 순서는 무시하고 오직 단어의 빈도수에만 집중하여 DTM : Document Term Matrix (문서 단어 행렬) 문서 집합을 표현하는 방법 중 하나로, 각 문서에 등장하는 단어들의 빈도를 행렬 형태로 나타내는 방식으로 vectorization을 수행한다. DTM의 (i, j)번 째 원소는 i 번째 문서에 j 번째 단어가 등장한 횟수이다. DTM은 ..