본문 바로가기

트랜스포머3

[논문리뷰] Attention 논문 리뷰 Attention 논문 리뷰입니다.본 논문은 2014년도에 등장한 논문입니다. 논문 : NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE 저자 : Dzmitry Bahdanau Jacobs University Bremen, Germany KyungHyun Cho Yoshua Bengio∗ Universite de Montr ´ eal  [1] Background 해당 논문은 제목에서 알 수 있듯이 신경망을 활용한 기계번역 Task에 집중하고 있습니다. 확률적 관점에서 번역은 목표 문장을 찾는 개념과 같습니다. 어떤 문장 x가 등장했을 때 조건부 확률을 통해 x 다음에 나올 확률이 가장 높은 문장 y를 생성하는 방식으로 진행되죠. .. 2025. 1. 16.
[논문리뷰] SimVLM 논문 리뷰 오늘은 SimVLM 논문 리뷰를 가져왔습니다.해당 논문은 2022년에 ICLR에서 발표된 논문입니다.사실 논문 리뷰할 때마다 유튜브로 영상 찾아보고 관련 블로그도 찾아보는 편인데 이번 SimVLM은 논문 리뷰를 찾기 힘들어서 오로지 논문과 GhatGPT를 활용해 공부하였습니다. 그래서 설명에 약간 잘못된 부분이 있더라도 좋게 봐주시고 알려주시면 좋겠습니다 ㅎㅎSimVLM: Simple Visual Language Model Pretraining with Weak Supervision저자 : Zirui Wang, Jiahui Yu, Adams Wei Yu, Zihang Dai, Yulia Tsvetkov, Yuan Cao [1] Introduction 본 논문에서는 처음에 두 가지 이야기로 시작을 하는데 .. 2024. 8. 1.
[논문리뷰] Transformer 논문 리뷰 오늘은 Transformer 논문 리뷰를 가져왔습니다.  해당 논문은 2017년에 발표된 논문입니다. 논문 : Attention Is All You Need저자 : Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin[1] Background1-1. 기존 Seq2Seq 모델의 한계점 (RNN 등 사용)기존의 인코더 - 디코더 구조 : 인코더에서 고정된 크기의 context vector를 생성해 디코더의 입력으로 넣어주는 형식context vector를 만들다보니 인코더의 모든 소스 문장에 대한 정보가 압축되어 병목 현상이 발생하고 입력 문장 전.. 2024. 6. 26.
728x90
반응형