Search
🛸

[논문리뷰] Conditional BERT Contextual Augmentation

Created
3/7/2021, 12:26:24 PM
Tags
Augmentation
💡
논문 리뷰: 학습된 BERT 로 문장을 Augmentation

Augmentation Method

1.
GAN, VAE를 통해서 유사한 문장들을 생성해서 생성된 문장으로 augmentation
a.
단점: 문장의 퀄리티를 보장할 수 없음
2.
Pretrained Word Embedding을 이용해서 각 단어들을 random하게 유사한 단어로 변경
a.
단점: 문장의 context가 보존되는지 확인하기 어려움
3.
Pretrained Language Model 을 이용해서 해당 position 에 나올 top@n의 단어들로 변경
a.
해당되는 label에 대한 정보가 포함되지 않기 때문에, 레이블에 종속되지 않는 단어가 나올 수 있음

Introduction

LM을 이용해서 각 position에 나올 top@n개의 단어들을 이용해서 sentence의 다양성을 늘리는 방법이 최근 가장 많이 사용되고 있는데, 좀 Naive 하면서 augmentation하고자 하는 label정보를 반영하지 않기 때문에 LM상으로는 맞는 새로운 단어인데, label과 종속되지 않을 가능성이 있음

Apporach

1.
먼저 일반적인 방법으로 BERT를 pretrain시킨다
2.
segmentation embedding(A, B)를 버린다
3.
대신에 각 input에 원본 문장 embedding + label embedding을 CLS에 더해준다 (Mask부분 포함)
4.
여기서 MASK token position에서 예측한 새로운 단어로 augmentation 시킨다

Result

data augmentation을 통해서 성능이 올라갔지만 유의미하게 높아지지는 않음 (SOTA 찍을 정도는 되는 것 같음)
sst5 : 감정분석 classification
subj : 주제 classification
MPQA: sentiment analysis