-
[review] Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddingsdeep learning/paper review 2024. 3. 20. 00:25
Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings
The blind application of machine learning runs the risk of amplifying biases present in data. Such a danger is facing us with word embedding, a popular framework to represent text data as vectors which has been used in many machine learning and natural lan
arxiv.org
0. Abstract
특정 매체를 중심으로 train 된 word embedding에서도 성별에 따른 편향이 발견되는데, embedding 차원에서의 편향이 존재한다면, embedding을 활용한 LM 뿐만 아니라 downstream task에 있어 이러한 편향이 증폭되는 문제가 발생할 수 있다는 문제 의식에서 출발한다.
Word Embedding에서의 (gender) 편향은 기하학 영역에서 방향을 통해 포착이 가능하고, 기하학적 관점에서 gender neutral words는 성별을 정의하는 단어로부터 선형적으로 분리가 가능하다면, gender bias를 정량화하고 이를 debias 할 수 있다는 아이디어를 발전시키고자 하는 논문이다.
본 논문에서는 성별과 직접적으로 관련이 있는 단어와 성별의 관계는 유지하는 동시에, 성별과 직접적인 관련성이 없는 단어와 성별의 관계는 제거하는 방식의 gender stereotype을 제거하는 embedding 방식을 제안하고자 한다.
1. Introduction
Word Embedidng의 원리와 특성
- 각 단어는 d 차원의 실수 공간에 mapping 가능하며,
- 의미론적 관점에서 비슷한 의미를 갖는 단어들은 가까운 거리로 mapping 되며,
- embedding 된 vector 간의 뺄셈을 통해 단어 간의 관계를 파악할 수 있다.
본 논문에서 이야기하는 embedding은 word2vec 방식을 사용하는데, Google News texts를 학습시킨 embedding vector에서 역시 성차별적 요소들이 다수 확인되며, 이러한 word embedding이 유발하는 downstream tasks에 대한 amplification 효과는 상대적으로 명확하게 나타난다.
본 논문의 목적은 word embedding이 갖고 있는 일반적인 성적 고정관념과 편향들을 정량적으로 파악하고, 이를 통해 word embedding의 유용한 장점은 유지하는 동시에 존재하는 편향을 감소(reduce)시키는 것이다.
- Aligning biases with stereotype : 사회적으로 형성되는 고정관념이 word embedding에서 어떻게 구현이 되고, 이러한 편향 혹은 고정관념이 어떻게 amplify 되는지를 파악. 이를 위해서 Amazon의 MTurk를 활용
- Debiasing : 편향의 완전한 제거가 아닌 편향의 감소를 목적으로 한다.
위 목적을 달성하기 위해서는 편향을 정량화해야 하며, 편향을 정량화하기 위해서는 text로부터 gender stereotype, gender neutral word, gender specific word 등을 고려해야 한다.
- gender specific words : associated with a gender by definition
- gender neutral words : no association with a gender by definition (gender identity가 개입되어 있지 않은 단어)
- gender specific words를 사용하는 이유는 이를 통해 embedding에서의 gender subspace를 학습할 수 있기 때문이다.
정량화하고자 하는 편향의 종류는 크게 두 가지이다.
- Direct Bias : gender neutral word와 clear gender pair 단어 간의 관계 편향
- Indirect Bias : 성별을 기반으로 형성된 gender neutral words 간의 관계성을 나타내는 편향
2. Related Work
2-1. Gender bias and stereotype in English (→ bias in language )
언어에 존재하는 편향은 서로 다른 그룹의 심리적 상태를 강화할 수 있다는 점에서 이를 정량화하여 이해하는 것은 상당히 중요하다. 반면, text 및 word 수준에서의 편향을 파악하는 것은 상당히 복잡한데, 형태학적 특성 뿐만 아니라 등장의 빈도, 언어적 특성 등 고려해야할 요소들이 상당히 많다
2-2. Bias within algorithms (→ bias in algorithms)
핵심적인 고민 : algorithm의 fairness를 제고하기 위한 방법론에 대한 고민
- minority group의 언어 사용 및 단어 선택 등을 고려하는 등, 일반적인 dataset이 아닌 다양한 영역과 그룹을 고려한 embedding 및 debiasing method를 고민
3. Preliminaries : 서두
본 논문에서의 단어 간의 유사도는 코사인 유사도를 사용하고 있으며, embedding은 300차원의 w2vNEWS Embedding을 사용한다.
4. Gender Stereotypes in Word Embedding
- Occupational Stereotypes
- embedding vector의 기하학적 편향과 성 고정관념에 대한 군중의 판단은 대체로 일치한다.
- GloVe 방식으로 embedding vector 역시 Embedding과 유사한 추이를 보인다는 점에서, 해당 실험 결과가 특정 방법론의 산물이 아님을 시사
- occupational word를 사용하는 이유는 쉽게 해석이 가능하고 일반적인 고정관념을 포함하고 있기 때문
- Analogies exhibiting Stereotypes
- 일반적인 analogy task는 세 개의 단어가 주어진 상태에서 한 개의 단어를 예측하는 것이지만,
- 본 논문에서의 analogy generating algorithm은 두 개의 단어가 주어진 상태에서 각 단어에 대응되는 두 개의 단어를 예측하는 것 : 이를 통해 embedding이 he or she와 연관된다고 믿는 단어의 쌍을 시스템적으로 생성 (→ embedding이 갖고 있는 bias를 극적으로 사용 가능)
- 고정관념과 편향 등은 문화의 영향을 크게 받는다는 점에서, analogy generating algorithm을 통해 생성된 analogy를 평가.
- Indirect Gender Bias
- indirect gender bias를 확인하기 위해서 gender-neutral words 쌍을 축으로 하여 occupation words를 매핑하면, 매핑된 occupation words의 의미와 성격, 나아가 편향 정도를 기준으로 하여 gender-neutral words의 bias를 판단할 수 있다.
- 중요한 것은 많은 sexual-baised words는 gender 이외에는 어떠한 연관성도 없다는 사실이다.
5. Geometry of Gender and Bias
embedding에 기하학적으로 존재하는 편향을 (1) gender direction의 인식과 (2) 군중 편향과 관계 없이 해당 편향을 양적으로 측정하여 연구
5-1. Identifying the gender subspace
- 각각의 단어는 다양한 의미로 사용될 수 있다는 점에서, 단어의 쌍을 활용한 gender direction 개념 도입
- gender direction : multiple pairs of gender-specific words를 사용하여 gender direction을 파악할 수 있다. embedding 내에서의 gender direction을 파악함으로써 gender subspace를 파악할 수 있다.
- multiple pairs of gender-specfic words를 사용하여 gender direction을 파악하는 이유 : 하나의 gender-specific word는 다양한 의미를 가지기 때문에, 유사한 word pair를 사용
- gender direction과 gender subspace를 파악함으로서 direct bias와 indirect bias를 정량적으로 파악 가능
- 하지만 gender pair difference는 병렬적으로 사용될 수 없다 (word embedding 공간에서 성별을 나타내는 단어 사이의 벡터 차이가 일관된 방향성을 갖고 있지 않는다는 의미)
- 서로 다른 gender pairs에 연관된 편향들이 다를 수 있다.
- 동음이의어, 동음다의어에 해당할 수 있다.
- 유한한 샘플링에서의 랜덤의 단어 count는 또 다른 차이로 이어질 수 있다. (의미론적 차이가 아닌 count 차이에 의한 차이)
5-2. Direct bias (association between gender neutral word and gender clearance word)
direct gender bias of an embedding
- $\text{DirectBias}c = {1 \over |N|} \sum{w \in N} |cos(\hat {w}, g)|^c$
- gender neutral word : $N$
- gender direction : $g$
- how strict do we want to in measuring bias : $c$
- N이 g에 있을 유사도
5-3. Indirect bias (association betwwen gender neutral words)
gender subspace를 활용하면 any pairs of words와의 유사도를 정량화할 수 있다.
- $w = w_g + w_\perp$
- $w_g = (w \cdot g) g$
- $w_\perp = w - w_g$
- Gender Component to the similarity between two vectors w, v:
- $\beta(w, v) = (w \cdot v\ -\ {w_\perp \cdot v_\perp \over ||w_\perp||2\ ||v\perp||_2})\ /\ w\cdot v$
- ${w_\perp \cdot v_\perp \over ||w_\perp||2\ ||v\perp||_2}$ : gender subspace가 제거되었을 때의 내적
- $\beta(w, v) = (w \cdot v\ -\ {w_\perp \cdot v_\perp \over ||w_\perp||2\ ||v\perp||_2})\ /\ w\cdot v$
6. Debiasing algorithms
debiasing 알고리즘은 일반화를 위해 단어의 쌍이 아닌 단어 집합의 측면에서 정의가 가능
- 이를 통해 인종 혹은 종교적 편향과 같은 다른 종류의 편향들을 고려할 수 있다.
- Identify Gender Subspace : 편향을 포착할 수 있는 embedding의 direction을 인식
- Neutralize and Equalize of Soften
- Neutralize : gender neutral words는 gender subspace에서 0 벡터로 표현
- Equalize : subspace 밖의 모든 단어들을 동등하게 간주하여 어떤 neutral word도 각각의 equality set의 모든 단어들에 대해 등거리를 갖게 됨
- 예시 : If {grandmother, grandfather} and {guy, gal} were two equality sets, then after equalization babysit would be equidistant to grandmother and grandfather and also equidistant to gal and guy, but presumably closer to the grandparents and further from the gal and guy.
- Soften : Equalize의 단점을 극복하는 것으로, subspace 밖의 모든 단어들 각각이 갖고 있는 distinctive feature를 보존하는 방식
7. Discussion
embedding이 갖고 있는 gender bias를 제거하기 위해, gender neutral word의 gender association을 제거하는 방식으로 진행한다. gender-specific word는 gender subspace g를 넘는 추가적인 bias가 있음을 확인한다. debiasing algorithm을 통해 자연 발생적인 bias의 amplification 효과를 예방 가능하며, machine learning 과정에서 자연 발생적으로 발생하는 bias 역시 줄일 수 있다.
embedding이 갖고 있는 gender bias를 제거하기 위해서는 gender neutral word를 정의해야하고, 이를 바탕으로 gender subspace를 추출해야한다는 computing inefficient가 존재하는 것으로 보이며, 현실적으로 과연 neutral word를 정의할 수 있으며, 정의할 필요가 있을까 하는 생각을 하게 되었다.
무엇보다 pretraining 과정에서 발생할 수 있는 데이터 편향의 문제가 해결되지 않는 한, word 수준에서 존재하는 편향의 극복이 어떤 의미가 있을지 추가적으로 생각할 필요가 있지 않을까 싶다.
그럼에도 불구하고 본 논문의 의의는 embedding vector 수준에서의 편향을 파악하기 위한 subspace를 추출할 수 있다는 점과, embedding 수준에서의 inequality 및 bias의 문제, 이에 기초한 political leaning 문제가 존재함을 밝혔다는 점이지 않을까 생각한다. vector 수준의 bias를 상쇄할 수 있다면, 이를 바탕으로 context 수준에서의 bias 파악과 상쇄가 가능하지 않을까 생각해본다.'deep learning > paper review' 카테고리의 다른 글