분류 전체보기
-
[review] From Pretraining Data to Language Models to Downstream Tasks:Tracking the Trails of Political Biases Leading to Unfair NLP Modelsdeep learning/paper review 2024. 3. 17. 20:18
원문 링크 : [2305.08283] From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models (arxiv.org) 0. Abstract 다양한 매체를 통해 사전 학습된 언어 모델들(LMs)이 내포하고 있는 본질적인 사회적 편향을 파악하고, 이러한 모델들을 통해 수행되는 downstream tasks들 에서의 사회적 혹은 정치적 편향의 발생 여부와 그 정도를 파악하여, LMs이 본질적으로 갖게 되는 편향의 파급효과에 대해 파악한다. 1. Introduction 본 논문에서는 자연적으로 발생 가능한 media bias를 학습한 LM..
-
train _vs_ valid _vs_ testmachine learning 2024. 3. 15. 00:42
Dataset을 train data, valid data, test data로 구분하는 이유에 대해 간단하게 정리한다. 이를 통해 valid data의 중요성을 정확하게 기억하고자 한다. dataset을 구분하는 이유는 본질적으로 model의 overfitting을 막기 위함이다. overfitting : 훈련 데이터에 대해서는 성능이 높게 나타나지만, 훈련 데이터가 아닌 데이터에 대해서는 성능이 낮게 나오는 현상으로, model이 훈련 dataset에 지나치게 과적합 되어 있을 경우 발생 Train data와 Test data를 구분하는 이유 Overfitting의 발생 여부를 확인하기 위함 train data의 loss 값은 안정적이나 test data의 loss 값이 안정적이지 않거나 너무 높은 경..
-
classification _vs_ regressionmachine learning 2024. 3. 15. 00:38
레이블의 고유 값이 2개인 경우, 해당 문제를 classification task로 접근할 것인지, regression task로 접근할 것인지 헷갈리기에, 해당 내용을 간단하게 나마 정리해본다. 레이블의 고유 값이 2개인 경우, 즉 이진 분류 문제(Binary Classification Problem)를 회귀(Regression) 문제로 접근하거나 분류(Classification) 문제로 접근하는 것은 데이터 과학과 머신러닝에서 흔히 볼 수 있는 상황입니다. 각 접근 방식의 의미와 차이점은 다음과 같습니다: 분류 문제로 접근 의미 이진 분류 문제에서는 레이블이 두 가지 범주 중 하나에 속하는지를 예측합니다. 예를 들어, 이메일이 스팸인지 아닌지, 환자가 특정 질병을 가지고 있는지 없는지 등이 이에 해당..
-
인공신경망을 사용하는 이유deep learning 2024. 3. 15. 00:34
Universal Approximation Theorm (일반적 근사 이론) 충분히 큰 네트워크를 사용하면 어떠한 연속 함수도 원하는 정밀도로 근사할 수 있다. 과연 모든 것이 인공신경망을 통해 구현이 가능하며, 그렇게 구현된 인공신경망은 언제나 효율적인가? 내적에 있어서는 인공신경망으로 표현하는 것이 상당히 비효율적이며, attention 모델에서는 이러한 내적을 인공신경망이 아닌 단순 내적으로 표현하여 사용함으로써 모델의 성능 효율성을 극대화했다. 중요한 것은, 모든 함수는 인공신경망으로 표현될 수 있으나, 모든 인공신경망이 최대의 효율성을 갖고 있는 것은 아니라는 것이다. 인공신경망에서 표현가능한 비효율적인 대상을 효율적인 비 인공신경망으로 표현하는 것은 모델의 성능을 향상시키는 데 핵심적일 수 있..
-
Loss Function Outlinedeep learning 2024. 3. 15. 00:31
Log-Likelihood (로그 우도) 모델이나 분포가 주어진 데이터를 얼마나 잘 설명하는지 측정하는 지표 Log-Likelihood : 확률 모델의 parameter가 주어졌을 때, 관측된 데이터가 발생할 로그 확률의 합으로, 주어진 데이터 세트에 대해 특정 parameter 값이 얼마나 ‘타당한지’를 수치로 나타내는 것으로 이해 가능 $$ DataSet X = \{x_1, x_2, x_3,... , x_n\} $$ $$ L(\theta; X) = \log P(X | \theta) = \sum_{i=1}^n \log P(x_i | \theta) $$ 모델의 파라미터가 theta, 데이터 세트가 X일 때 Log-Likelihoodo L은 모델 파라미터가 주어졌을 때 X가 나타날 로그 확률이며, 이는 파..
-
귤 고르기python algorithm 2024. 3. 8. 15:30
[문제 설명] 경화는 과수원에서 귤을 수확했습니다. 경화는 수확한 귤 중 'k'개를 골라 상자 하나에 담아 판매하려고 합니다. 그런데 수확한 귤의 크기가 일정하지 않아 보기에 좋지 않다고 생각한 경화는 귤을 크기별로 분류했을 때 서로 다른 종류의 수를 최소화하고 싶습니다. 예를 들어, 경화가 수확한 귤 8개의 크기가 [1, 3, 2, 5, 4, 5, 2, 3] 이라고 합시다. 경화가 귤 6개를 판매하고 싶다면, 크기가 1, 4인 귤을 제외한 여섯 개의 귤을 상자에 담으면, 귤의 크기의 종류가 2, 3, 5로 총 3가지가 되며 이때가 서로 다른 종류가 최소일 때입니다. 경화가 한 상자에 담으려는 귤의 개수 k와 귤의 크기를 담은 배열 tangerine이 매개변수로 주어집니다. 경화가 귤 k개를 고를 때 크..
-
달리기 경주python algorithm 2024. 3. 7. 19:41
[문제 설명] 얀에서는 매년 달리기 경주가 열립니다. 해설진들은 선수들이 자기 바로 앞의 선수를 추월할 때 추월한 선수의 이름을 부릅니다. 예를 들어 1등부터 3등까지 "mumu", "soe", "poe" 선수들이 순서대로 달리고 있을 때, 해설진이 "soe"선수를 불렀다면 2등인 "soe" 선수가 1등인 "mumu" 선수를 추월했다는 것입니다. 즉 "soe" 선수가 1등, "mumu" 선수가 2등으로 바뀝니다. 선수들의 이름이 1등부터 현재 등수 순서대로 담긴 문자열 배열 players와 해설진이 부른 이름을 담은 문자열 배열 callings가 매개변수로 주어질 때, 경주가 끝났을 때 선수들의 이름을 1등부터 등수 순서대로 배열에 담아 return 하는 solution 함수를 완성해주세요. [제한 사항..
-
DTM과 TF-IDFdeep learning/natural language process 2024. 2. 29. 16:41
Embedding을 위한 vectorizaton에서 신경망을 사용하지 않는 방식을 None-Learned Embedding이라고 한다. None-Learned Embedding 중 문서에 대한 Vectorization 방법으로는 크게 DTM과 TF-IDF가 있다. DTM과 TF-IDF 모두 BoW 방식에 기반한다. BoW는 Bag of Words로, 단어의 순서는 무시하고 오직 단어의 빈도수에만 집중하여 DTM : Document Term Matrix (문서 단어 행렬) 문서 집합을 표현하는 방법 중 하나로, 각 문서에 등장하는 단어들의 빈도를 행렬 형태로 나타내는 방식으로 vectorization을 수행한다. DTM의 (i, j)번 째 원소는 i 번째 문서에 j 번째 단어가 등장한 횟수이다. DTM은 ..