deep learning
-
[review] From Pretraining Data to Language Models to Downstream Tasks:Tracking the Trails of Political Biases Leading to Unfair NLP Modelsdeep learning/paper review 2024. 3. 17. 20:18
원문 링크 : [2305.08283] From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models (arxiv.org) 0. Abstract 다양한 매체를 통해 사전 학습된 언어 모델들(LMs)이 내포하고 있는 본질적인 사회적 편향을 파악하고, 이러한 모델들을 통해 수행되는 downstream tasks들 에서의 사회적 혹은 정치적 편향의 발생 여부와 그 정도를 파악하여, LMs이 본질적으로 갖게 되는 편향의 파급효과에 대해 파악한다. 1. Introduction 본 논문에서는 자연적으로 발생 가능한 media bias를 학습한 LM..
-
인공신경망을 사용하는 이유deep learning 2024. 3. 15. 00:34
Universal Approximation Theorm (일반적 근사 이론) 충분히 큰 네트워크를 사용하면 어떠한 연속 함수도 원하는 정밀도로 근사할 수 있다. 과연 모든 것이 인공신경망을 통해 구현이 가능하며, 그렇게 구현된 인공신경망은 언제나 효율적인가? 내적에 있어서는 인공신경망으로 표현하는 것이 상당히 비효율적이며, attention 모델에서는 이러한 내적을 인공신경망이 아닌 단순 내적으로 표현하여 사용함으로써 모델의 성능 효율성을 극대화했다. 중요한 것은, 모든 함수는 인공신경망으로 표현될 수 있으나, 모든 인공신경망이 최대의 효율성을 갖고 있는 것은 아니라는 것이다. 인공신경망에서 표현가능한 비효율적인 대상을 효율적인 비 인공신경망으로 표현하는 것은 모델의 성능을 향상시키는 데 핵심적일 수 있..
-
Loss Function Outlinedeep learning 2024. 3. 15. 00:31
Log-Likelihood (로그 우도) 모델이나 분포가 주어진 데이터를 얼마나 잘 설명하는지 측정하는 지표 Log-Likelihood : 확률 모델의 parameter가 주어졌을 때, 관측된 데이터가 발생할 로그 확률의 합으로, 주어진 데이터 세트에 대해 특정 parameter 값이 얼마나 ‘타당한지’를 수치로 나타내는 것으로 이해 가능 $$ DataSet X = \{x_1, x_2, x_3,... , x_n\} $$ $$ L(\theta; X) = \log P(X | \theta) = \sum_{i=1}^n \log P(x_i | \theta) $$ 모델의 파라미터가 theta, 데이터 세트가 X일 때 Log-Likelihoodo L은 모델 파라미터가 주어졌을 때 X가 나타날 로그 확률이며, 이는 파..
-
DTM과 TF-IDFdeep learning/natural language process 2024. 2. 29. 16:41
Embedding을 위한 vectorizaton에서 신경망을 사용하지 않는 방식을 None-Learned Embedding이라고 한다. None-Learned Embedding 중 문서에 대한 Vectorization 방법으로는 크게 DTM과 TF-IDF가 있다. DTM과 TF-IDF 모두 BoW 방식에 기반한다. BoW는 Bag of Words로, 단어의 순서는 무시하고 오직 단어의 빈도수에만 집중하여 DTM : Document Term Matrix (문서 단어 행렬) 문서 집합을 표현하는 방법 중 하나로, 각 문서에 등장하는 단어들의 빈도를 행렬 형태로 나타내는 방식으로 vectorization을 수행한다. DTM의 (i, j)번 째 원소는 i 번째 문서에 j 번째 단어가 등장한 횟수이다. DTM은 ..
-
Embedding OutLinedeep learning 2024. 2. 29. 13:15
Embedding (or Embedding Vector) : 텍스트 데이터를 고정된 크기의 밀집 벡터로 변환하는 기술로, 텍스트 데이터의 의미적, 문맥적 정보를 벡터 공간에 표현하는 것으로, embedding들 간의 거리 계산을 통해 이들 간의 의미적 관계를 파악할 수 있다. : Embedding의 종류는 다음과 같다. Vectorization에 신경망을 사용하지 않을 경우 단어에 대한 벡터 표현 : One-Hot Encoding 문서에 대한 벡터 표현 : Document Term Matrix, TF-IDF Vectorization에 신경망을 사용하는 경우 (Learned Embedding) 단어에 대한 벡터 표현 방법 : 워드 임베딩 (Word2Vec, GloVe, FastText, Embedding ..
-
Sparse Representation _vs_ Dense Representationdeep learning 2024. 2. 28. 21:22
Sparse Representation 데이터에서 대부분의 element들이 유효하지 않은 경우에 적합한 표현 방법으로, 비교적 적은 수의 위치나 요소만을 저장하여 데이터를 효율적으로 표현하는 방법 장점 메모리 효율적 : 무의미한 값들은 표현하지 않는 방식 높은 가독성 : 데이터의 중요한 특성만을 표현하여 해당 데이터의 구조와 내용을 이해하기 쉽다는 장점 빠른 처리속도 : 불필요한 연산을 줄일 수 있다는 점에서 빠른 처리가 가능 단점 정보 손실 : 불필요한 정보를 표현하지 않음으로서 일부 정보가 손실되는 문제 발생 복잡성 : 알고리즘 구현에 있어 복잡하여 처리가 어렵다는 단점 (스케일링 등) Dense Representation 데이터를 밀집된 형태로 표현하는 방법으로, 대부분의 element들이 유효한..
-
Word2vecdeep learning/natural language process 2024. 2. 28. 21:01
WordeVec CBOW (Continuous Bag of Words) 주변에 있는 단어(x)들을 입력으로 중간에 있는 단어(y)들을 예측하는 방식으로, sliding window 방식을 활용한다 중심 단어가 예측되는 과정 초기 토큰은 원 핫 인코딩으로 표현된다. 원 핫 인코딩으로 표현된 각각의 초기 토큰은 projection layer에 전달되며, 이 때 전달되는 값은 원 핫 인코딩으로 표현된 토큰에 가중치 W를 곱한 값들의 평균이다. (이 평균은 window에 의해 select된 단어들의 맥락 정보를 담고 있다.) 이 평균 값에 가중치 행렬을 곱한 값에 softmax 함수를 적용한 값은 score vector가 된다. 정리 주변 단어들의 embedding vector 값을 바탕으로 중심 단어를 예측하..
-
MLEdeep learning 2024. 2. 23. 00:15
신경망 모델의 output을 바라보는 두 가지 관점 input에 대한 output이 특정 label일 확률로 보는 경우 (Bernoulli) 이 관점에서 신경망 모델의 weights는 input data가 정답 label일 확률을 높일 수 있도록 학습 이 관점에서 model의 목적은 lassification의 관점과 유사하게, input data가 특정 label을 가질 확률을 높이도록 weight를 조절하는 것 input에 대한 output이 input data의 attribute의 확률분포의 평균 값으로 보는 경우 (Gaussian) 이 관점에서 신경망 모델의 weight는 output이 정답 label이 갖는 확률분포의 평균 값을 출력할 수 있도록 학습 이 관점에서 model의 목적은 input d..