-
[review] What Constitutes a Faithful Summary? Preserving Author Perspectives in News Summarizationdeep learning/paper review 2024. 3. 21. 18:31
What Constitutes a Faithful Summary? Preserving Author Perspectives in News Summarization
In this work, we take a first step towards designing summarization systems that are faithful to the author's opinions and perspectives. Focusing on a case study of preserving political perspectives in news summarization, we find that existing approaches al
arxiv.org
0. Abstract
본 논문에서는 저자의 관점과 생각을 충실하게 반영하는 요약 시스템을 디자인하기 위한 $\text {P^3}$SUM (정치적 관점을 가진 classifier에 의해 통제되는 diffusion 모델 기반의 요약 접근법)을 제안.
$\text {P^3}$SUM에서 요약된 정보는 매 decoding 시점에서 반복적으로 평가되며, 모든 기사의 최초 stance로부터의 drift는 추론 시점에서 요약본의 정치적 stance를 조종하는 embedding layer들의 역전파 손실을 변화시킨다. (역전파 과정에서 요약본이 원문의 본래 정치적 입장에서 벗어나지 않도록 손실을 조정)
실험결과 $\text {P^3}$SUM은 stance 보존의 측면에서 최신의 요약 시스템과 LLM에 비해 약 11.4%의 더 나은 성능을 보이는 것으로 확인됨.
실험 결과는 최신의 뉴스 요약 모델들 역시 저자의 관점을 보존하는 것이 상당히 challenging한 task이라는 것을 보임.
1. Introduction
이전의 연구들은 주로 사실이 일관적으로 보존되는 지를 연구하였지만, 좋은 요약 시스템은 저자의 의도, 관점, 작성 스타일 등을 잘 보존할 필요가 있다. 특히 LLM의 자연발생적인 편향과 이로 인해 발생되는 downstream task에서의 편향을 포함하고 있다는 점에서, 이러한 필요성은 더욱 더 대두된다. 중립적인 요약본 혹은 편향이 덜한 요약본을 생성하는 것이 아닌 요약의 관점에서, 본 논문은 좋은 요약 시스템은 저자의 정치적 관점을 보존하고 있어야함을 주장한다.
최신의 political perspective evaluator를 사용하여 LLM과 요약 시스템에서 생성되는 요약본과 뉴스 기사와의 gap을 정량적으로 측정한 결과, 현존하는 요약 시스템과 LLM은 약 50% 이상의 요약본이 정치적 관점 혹은 생각이 변화되어 나타났다. 이것은 LLM이 요약 과정에서 저자의 의도와 관점을 정확히 반영하지 못하며, 이는 잠재적으로 misinformation을 전달한다는 문제로 이어질 수 있다.
이러한 문제를 해결하고자 자기회귀적이지 않은 디퓨전 언어 모델 기반의 $\text {P^3}$SUM (Preserve the Political Perspectives) 모델을 제안한다. 디퓨전 모델을 사용하는 이유는 decoding 단계에서 자기회귀적으로 생성된 text가 아닌 전체 요약본에 대해 political stance classifier를 통해 정치적 stance의 변화 여부를 평가하기 위함이다.
2. Examining Perspective Preservation
기존의 요약 모델과 시스템들은 저자의 의도와 관점을 통제하도록 디자인 하지 않았다는 점에서, 어떤 지점에서 생성되는 요약 내용에서 저자의 관점이 변화되는지를 파악한다. 이를 위해 CNN/DM과 POLITICS 데이터셋으로부터 랜덤으로 500개의 뉴스 기사들을 바탕으로 생성 요약 자료와 원본 기사의 정치적 입장을 비교하여 정치적 편향을 측정.
- Political Perspective Evaluator를 사용하여 정치적 편향 정도를 측정 : left, center, rigth
- 6개의 모델 사용 : GPT-3.5(TEXT-DAVINCI-003), CHATGPT(GPT-3.5-TURBO), PEGASUS, BART, BRIO, T5
Figure 1 : Changes in political stances between the summary and the article. 측정 결과 모든 모델에서 생성된 요약본의 정치적 성향은 약 50%정도 변화하였고, 약 25%는 극단 성향으로 변화하였다.
3. $\text {P^3}$SUM
$\text {p^3}$SUM은 주어진 원본 기사 $d$의 정치적 입장을 보존하는 요약본 $s$를 생성하는 것을 목적으로 하는 모델
3-1. Diffusion Model Finetuning
정치적 stance를 보존하기 위해서, 모델의 생성을 이끄는 외부의 external classifier로부터 기울기를 반복적으로 통합하는 방법으로 디퓨전 모델의 decoding process를 수정
Continuous data representing
$\hat{w}^{(j)} = \begin{cases} +K & \text{when } w = V^{(j)} \\-K & \text{when } w \neq V^{(j)}\end{cases}$
모델 어휘 $\nu$에 대한 logit 표현을 얻기 위해 logit-initialization 함수를 정의하여, 뉴스의 맥락과 요약본의 각각의 독립적인 토큰($w$)을 연속적인 공간에 위 공식과 같이 mapping.
- $V^{j}$ : 단어에서의 j번째 token을 의미
- $K$ : 사전에 정의된 hyperparameter
< Logits과 Logits-Initialization 함수를 정의하는 이유 >
* Logits
Logits은 신경망 네트워크의 원시 출력으로, 활성함수를 통과하기 이전의 신경망의 출력값에 해당한다. Logits이 중요한 이유는 Logits 값에 따라 활성함수를 통과하는 최총 출력 값의 형태가 변화하게 되며, 결과적으로 Logits값을 바탕으로 모델이 특정 task의 결과를 인식하기 때문이다.
* Logits-Initialization 함수를 정의하는 이유
Logits-Initialization 함수의 역할은 Logits expression을 초기화하는 것으로, 일반적으로 모델의 예측을 시작할 때 수행되어 전반적인 예측 과정에서의 모델 행동을 안내하는 역할을 한다. 텍스트 생성 과정에서, 설정된 초기 logits은 모델이 embedding layer를 통과한 첫 번째 토큰을 선택하는 방식을 결정하는 데 사용될 수 있다. 특히 요약과 같은 작업에서의 Logits-Initialization은 생성할 내용의 방향을 지시하고 특정 요소를 유지하도록 모델을 조정하고 통제하는 데 중요한 역할을 수행한다.Forward diffusion
Reserve process
Loss function
3-2. Perspective-Guided Decoding
Self-Conditioning
Modular control
Logits projection
4. Experiments
4-1. Experimental Settings
Datasets
Baselines
Implementation
Evaluation
4-2. Results
Preserving Author Perspectives
Summarization Utility
Qualitative Analysis
5. Related Work
Text Summarization and Factuality Evaluation
Understanding the Social and Political Biases of Language Models
Controllable text generation
6. Conclusion
Limitations
Time Overhead
Political Bias Classifier
Ethics Statement
'deep learning > paper review' 카테고리의 다른 글