본문 바로가기

논문리뷰22

[논문리뷰] XL-Net 논문 리뷰 오늘은 XL-Net 논문 리뷰를 가져왔습니다. 해당 논문은 2019년에 발표된 논문입니다.XLNet: Generalized Autoregressive Pretraining for Language Understanding저자 : Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le[1] BackgroundNLP 분야에서 대규모 Unlabeled Text Data로 사전학습시키고 Downstream Task에 맞게 추가 파인튜닝하는 방법이 매우 성공적이었습니다. 그 중에서 대표적으로 AR(Auto Regressive)과 AE(Auto Encoding) 방식이 있습니다. (AR은 GPT, AE는 BERT) .. 2024. 7. 3.
[논문리뷰] Transformer 논문 리뷰 오늘은 Transformer 논문 리뷰를 가져왔습니다.  해당 논문은 2017년에 발표된 논문입니다. 논문 : Attention Is All You Need저자 : Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin[1] Background1-1. 기존 Seq2Seq 모델의 한계점 (RNN 등 사용)기존의 인코더 - 디코더 구조 : 인코더에서 고정된 크기의 context vector를 생성해 디코더의 입력으로 넣어주는 형식context vector를 만들다보니 인코더의 모든 소스 문장에 대한 정보가 압축되어 병목 현상이 발생하고 입력 문장 전.. 2024. 6. 26.
[논문리뷰] MT-DNN 논문 리뷰 자, 오늘은 X:AI Seminar 2024에서 진행한 MT-DNN 논문 리뷰를 가져왔습니다. 해당 논문은 2019년에 발표된 논문입니다. Multi-Task Deep Neural Networks for Natural Language Understanding저자 : Xiaodong Liu, Pengcheng He, Weizhu Chen, Jianfeng Gao [1] Introduction MT-DNN이란 Multi-Task Deep Neural Networks for Natural Language Understanding의 약자로 이름처럼 BERT 모델에  Multi-Task Learning을 수행해 성능을 개선한 모델입니다. MT-DNN은 다양한 Task의 Supervised Dataset을 활용해 .. 2024. 5. 23.
[논문리뷰] BART 논문 리뷰 자, 오늘은 X:AI Seminar 2024에서 진행한 BART 논문 리뷰를 가져왔습니다.해당 논문은 2019년에 발표된 논문입니다. NLP 모델계의 중추 역할을 담당하고 있는 BERT와 GPT-1 의 두 모델의 각각 문제점을 짚고 이를 해결하려는 방향으로 BART 모델을 구현했다고 시사하고 있습니다. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension저자 : Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, Luke .. 2024. 5. 15.
[논문리뷰] BERT 논문 리뷰 자, 오늘은 X:AI Seminar 2024에서 진행한 BERT 논문 리뷰를 가져왔습니다.해당 논문은 2019년에 발표되어 ELMO, GPT-1의 모델과 비교를 하면서 얘기를 시사하고 있습니다. 논문 : BERT, Pre-training of Deep Bidirectional Transformers for Language Understanding저자 : Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova[1]  IntroductionBERT는 Bidirectional Encoder Representations from Transformer의 약자로 트랜스포머 모델의 인코더 부분만을 사용해서 양방향으로 학습을 시킨 언어 모델입니다. 당시에 연구되었던.. 2024. 4. 30.
[논문리뷰] Sequence to Sequence Model 논문 리뷰 자, 오늘은 X:AI Seminar 2024에서 진행한 S2S 논문 리뷰를 가져왔습니다.해당 논문은 2014년에 발표되어 Attention, Transformer 등의 모델이 등장하기 이전의 논문이라는 배경 정도 짚고 가겠습니다.논문 : Sequence to Sequence Learning with Neural Networks저자 : Ilya Sutskever, Oriol Vinyals, Quoc V. Le ICLR 2014 출판[1] DNN 기반 모델의 한계 DNN이란 ? Deep Neural Network로 심층 신경망을 의미합니다. DNN은 복잡한 연산을 병렬로 수행해서 학습하기 때문에 음성 인식 등 다양한 분야에 쓰이며 두각을 드러냈습니다. 하지만 DNN은 치명적인 단점이 존재했죠. 입력 차원과 .. 2024. 3. 19.
728x90
반응형