본문 바로가기

논문리뷰14

[논문리뷰] XL-Net 오늘은 XL-Net 논문 리뷰를 가져왔습니다.해당 논문은 2019년에 발표된 논문입니다. XLNet: Generalized Autoregressive Pretraining for Language Understanding저자 : Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le[1] Introduction기존 언어 모델 Pre - training은 크게 AR과 AE로 나눌 수 있음Auto Regressive(AR)이전 Token을 참고해 다음에 나올 Token이 무엇일지 예측대표적으로 ELMO, GPT-1이 이에 해당함주로 단 방향으로만 정보를 학습하기 때문에 양방향 문맥을 학습하지 못한다는 점에서 .. 2024. 7. 3.
[논문리뷰] Transformer 오늘은 Transformer 논문 리뷰를 가져왔습니다.해당 논문은 2017년에 발표된 논문입니다. Attention Is All You Need저자 : Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin[1] Introduction1-1. 기존 Seq2Seq 모델의 한계점 기존의 인코더 - 디코더 구조 : 인코더에서 고정된 크기의 context vector를 생성해 디코더의 입력으로 넣어주는 형식context vector를 만들다보니 인코더의 모든 소스 문장에 대한 정보가 압축되어 병목 현상이 발생하고 입력 문장 전체를 순서대로 받아야 하기 .. 2024. 6. 26.
[논문리뷰] MT-DNN 자, 오늘은 X:AI Seminar 2024에서 진행한 MT-DNN 논문 리뷰를 가져왔습니다.해당 논문은 2019년에 발표된 논문입니다. Multi-Task Deep Neural Networks for Natural Language Understanding저자 : Xiaodong Liu, Pengcheng He, Weizhu Chen, Jianfeng Gao [1] Introduction MT-DNN이란 Multi-Task Deep Neural Networks for Natural Language Understanding의 약자로 이름처럼 BERT 모델에  Multi-Task Learning을 수행해 성능을 개선한 모델입니다. MT-DNN은 다양한 Task의 Supervised Dataset을 활용해 학.. 2024. 5. 23.
[논문리뷰] BART 자, 오늘은 X:AI Seminar 2024에서 진행한 BART 논문 리뷰를 가져왔습니다.해당 논문은 2019년에 발표된 논문입니다. NLP 모델계의 중추 역할을 담당하고 있는 BERT와 GPT-1 의 두 모델의 각각 문제점을 짚고 이를 해결하려는 방향으로 BART 모델을 구현했다고 시사하고 있습니다. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension저자 : Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, Luke .. 2024. 5. 15.
[논문리뷰] BERT 자, 오늘은 X:AI Seminar 2024에서 진행한 BERT 논문 리뷰를 가져왔습니다.해당 논문은 2019년에 발표되어 ELMO, GPT-1의 모델과 비교를 하면서 얘기를 시사하고 있습니다. 논문 : BERT, Pre-training of Deep Bidirectional Transformers for Language Understanding저자 : Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova[1]  IntroductionBERT는 Bidirectional Encoder Representations from Transformer의 약자로 트랜스포머 모델의 인코더 부분만을 사용해서 양방향으로 학습을 시킨 언어 모델입니다. 당시에 연구되었던.. 2024. 4. 30.
[논문리뷰] Sequence to Sequence Model 자, 오늘은 X:AI Seminar 2024에서 진행한 S2S 논문 리뷰를 가져왔습니다.해당 논문은 2014년에 발표되어 Attention, Transformer 등의 모델이 등장하기 이전의 논문이라는 배경 정도 짚고 가겠습니다.논문 : Sequence to Sequence Learning with Neural Networks저자 : Ilya Sutskever, Oriol Vinyals, Quoc V. Le ICLR 2014 출판[1] DNN 기반 모델의 한계전통적인 DNN 기반의 언어 모델에서는 번역이 다음과 같은 사진처럼 이루어집니다. 입력과 출력 차원의 크기가 같다고 가정하고 현재 예시에서는 그 차원이 T가 되겠죠. 원리를 좀 더 살펴보면 x1이라는 단어가 입력되고 h0의 첫 번째 hidden ve.. 2024. 3. 19.