논문 리뷰: 학습된 BERT 를 Generation(seq2seq)에서 어떤 식으로 사용해 볼 수 없을까?
논문 정보 (URL, 저자 등)
Microsoft Dynamics 365 AI Research
개요
•
학습된 BERT 를 Generation(seq2seq)에서 어떤 식으로 사용해 볼 수 없을까?
•
BERT 를 Generation Task 에 대해서 Fine-tuning 시켜서 해당 테스크도 풀 수 있도록 함
•
Seq2Seq(Transformer) 구조의 Generation 모델을 학습할 때, BERT를 teacher model 로 설정해서 학습을 하면 기존보다 성능이 잘 나옴
•
BERT의 bi-directional(future) 정보를 보는 것이 결정적으로 학습할 때에 도움을 줄 수 있음을 주장
•
ICLR 2020에 제출하였으나, reject 됨. 아이디어 자체는 유의미할 수 있으나 저자가 사용한 방법의 novelty가 크지 않고, 어떻게 보면 당연한 결과로 보임.
모델
•
기본적인 BERT 모델을 Generation 테스크로 MLM Fine-Tuning 을 시킨다.
•
Encoder-Decoder 구조의 Generation 모델을 학습할 때 BERT의 output distribution 을 따라가도록 한다
•
BERT는 bi-directional 하게 generation 되지 않은 future token 에 대한 정보도 볼 수 있지만, Generation 모델은 학습 시에 future 정보를 볼 수 없기 때문에 distillation 시에 이점이 생긴다.
•
이렇게 학습을 하면 모델의 성능이 향상된다.
데이터
•
기계 번역 데이터셋
•
요약 데이터셋
실험
번역 테스크에 대한 성능 향상이 있었다.
요약 테스크에 대한 성능 향상이 있었다.