LASSL Tech Blog

RoBERTa: A Robustly Optimized BERT Pretraining Approach

1. Introduction


How?


2. Backgroud (BERT)


2.1 Setup

BERT input representation (BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding)

2.2 Architecture

2.3 Training Objectives

2.4 Optimization & Data

BERT Hyperparameter (BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding)


3. Experimental Setup


3.1 Setup

3.2 Data

3.3 Evaluation


4. Training Procedure Analysis


4.1 Static vs Dynamic Masking

Masking strategy benchmark (RoBERTa: A Robustly Optimized BERT Pretraining Approach)

Metric (median)

4.2 Model Input Format and Next Sentence Prediction

NSP의 필요성에 대해서 확인해보자

Definition of Input SEQ

SEQ 전략에 따른 결과 (RoBERTa: A Robustly Optimized BERT Pretraining Approach)

4.3 Batch size

Batch size & LR 조절에 따른 결과 (RoBERTa: A Robustly Optimized BERT Pretraining Approach)

4.4 Text Encoding


5. Result


앞선 실험의 결과물들을 종합해보자

실험 결과 요약 (RoBERTa: A Robustly Optimized BERT Pretraining Approach)

→ 그래서 우리도 BERT large에 추가 데이터와 더많은 batch size+step으로 training했더니 XLnet 넘어섬

→ 여기에 마지막 모델 또한 데이터에 대해 오버피팅이 발생하지 않고 있어서 추가적인 트레이닝으로 이점을 얻을수 있어 보임

→ 최종 모델(even longer)로 섹션 3에서 제시된 데이터들에 대해서 벤치마크를 진행함

GLUE 벤치마크 결과 (RoBERTa: A Robustly Optimized BERT Pretraining Approach)

5.1 GLUE

GLUE에 대해서는 2가지 finetuning setting을 한 후 진행함

  1. Single model : 각 GLUE task에 대해서 training data만 활용하고 각 train set에 대해 학습, hyperparameter를 제한해서 다른 논문들과 유사하게 적절한 범위 내에서 선택함
    • Finetuning시에 3epoch정도만 학습하는 반면에 10epoch학습 + early stopping 사용
  2. Ensemble model : 다른 벤치마크들과 비교하기위해서 single-task model의 앙상블함 (여기서 다른 벤치마크들은 성능을 높이기 위해서 multitask finetuning 이용하는데, 우리는 안씀)
    • RTE, STS, MRPC는 pretrain모델로 시작하는 것보다는 MNLI를 학습한 후 다시 finetuning 하는것이 성능이 좋음
    • 9개중에 4개가 벤치마크 대비 높았고 평균적으로 SOTA 달성

5.2 SQuAD & RACE


6. Conclusion


iron

ironFollow
AI를 이용한 문제해결에 관심이 많고 어제보다 오늘 더 나아지고 싶습니다