LASSL Tech Blog

Language Models are Unsupervised Multitask Learners (GPT-2)

GPT-2 GPT-2는 2019년에 등장한 모델이고 지금의 GPT-3 모델이 나올 수 있게 될 수 있는 근간에 대한 내용이 담겨져 있습니다. GPT-1과 다르게 GPT-2에서는 “Language Models are Unsupervised Multitask Learners”라는 제목으로 언어 모델로 여러 가지 언어 테스크를 할 수 있는 모델로 소개가 되어있는데 당시에 어떤 생각을 가지고 지금의 GPT-3가 나올 수 있었는지 살펴보도록 하겠습니다. 소개 GPT-2 모델은 내용을 주장하고 만들어졌습니다. 여러 NLP 테스크에 대해서 각각의 데이터셋과 모델을 만들어 해결하는 것이 lack of general... Read more

RoBERTa: A Robustly Optimized BERT Pretraining Approach

1. Introduction 기존에 제안된 ELMo / GPT / BERT / XLM / XLNET 등이 놀라운 성과를 보였지만, 모델의 어떤 측면이 가장 기여했는가에 대해서는 Challenging 하였음 BERT를 통해 하이퍼파라미터 튜닝 및 Training data size 를 변경하며 여러 시도를 해본 결과, BERT가 덜 학습(Significantly undertrained) 되어 있으며 성능을 개선할 수 있었음 이 방법론은 “RoBERTa” 로 명명하며, 기존 BERT의 방법론을 뛰어넘는 결과를 보임 How? RoBERTa는 간단한(?) 다음 방법론을 이용해 모델을 개선함 ... Read more

Masked Language Modeling with lightning-transformers

Masked Language Modeling (Photo from illustrated-bert) lightning transformers 라이브러리를 활용하여 Masked Language Modeling을 구현한 방법을 설명한 글입니다. Lightning Transformers lightning-transformers 라이브러리는 Pytorch Lightning, Transformers, 그리고 Hydra 를 이용하여 작성되었습니다. 이 글에서는 hydra의 작동방식과 pytorch-lightning 사용법에 대해 알고있다고 가정하도록 하겠습니다. lightning-transformers 의... Read more