multimodal1 [논문리뷰] ALBEF 논문 리뷰 오늘은 ALBEF 논문 리뷰를 가져왔습니다. 해당 논문은 2021년에 Salesforce에서 발표한 논문입니다. Align before Fuse: Vision and Language Representation Learning with Momentum Distillation저자 : Junnan Li, Ramprasaath R. Selvaraju, Akhilesh D. Gotmare, Shafiq Joty, Caiming Xiong, Steven C.H. Hoi[1] Background이미지와 텍스트를 Multi Modal로 받아 Encoder를 활용해 학습을 시키는 경우는 크게 두 가지가 있습니다. 1. Transformer-based Multi-modal Encoder2. Unimodal Enco.. 2024. 7. 17. 이전 1 다음 728x90 반응형