Search
🕗

[논문리뷰] Distilling the Knowledge of BERT for Text Generation

Created
3/7/2021, 12:26:24 PM
Tags
Generation
💡
논문 리뷰: 학습된 BERT 를 Generation(seq2seq)에서 어떤 식으로 사용해 볼 수 없을까?

논문 정보 (URL, 저자 등)

Microsoft Dynamics 365 AI Research

개요

학습된 BERT 를 Generation(seq2seq)에서 어떤 식으로 사용해 볼 수 없을까?
BERT 를 Generation Task 에 대해서 Fine-tuning 시켜서 해당 테스크도 풀 수 있도록 함
Seq2Seq(Transformer) 구조의 Generation 모델을 학습할 때, BERT를 teacher model 로 설정해서 학습을 하면 기존보다 성능이 잘 나옴
BERT의 bi-directional(future) 정보를 보는 것이 결정적으로 학습할 때에 도움을 줄 수 있음을 주장
ICLR 2020에 제출하였으나, reject 됨. 아이디어 자체는 유의미할 수 있으나 저자가 사용한 방법의 novelty가 크지 않고, 어떻게 보면 당연한 결과로 보임.

모델

기본적인 BERT 모델을 Generation 테스크로 MLM Fine-Tuning 을 시킨다.
Encoder-Decoder 구조의 Generation 모델을 학습할 때 BERT의 output distribution 을 따라가도록 한다
BERT는 bi-directional 하게 generation 되지 않은 future token 에 대한 정보도 볼 수 있지만, Generation 모델은 학습 시에 future 정보를 볼 수 없기 때문에 distillation 시에 이점이 생긴다.
이렇게 학습을 하면 모델의 성능이 향상된다.

데이터

기계 번역 데이터셋
요약 데이터셋

실험

번역 테스크에 대한 성능 향상이 있었다.
요약 테스크에 대한 성능 향상이 있었다.