본문 바로가기

vision3

[논문리뷰] mPLUG 논문 리뷰 오늘은 mPLUG 논문 리뷰를 가져왔습니다.해당 논문은 2022년에 EMNLP에서 발표된 논문입니다. mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections저자 : Chenliang Li, Haiyang Xu, Junfeng Tian, Wei Wang, Ming Yan, Bin Bi, Jiabo Ye, Hehong Chen, Guohai Xu, Zheng Cao, Ji Zhang, Songfang Huang, Fei Huang, Jingren Zhou, Luo Si [1] Introduction  mPLUG는 위 5가지 Vision Language Task에 좋은 성능을 내는 것이 목표입니다. 각 Tas.. 2024. 8. 18.
[논문리뷰] CoCa 논문 리뷰 오늘은 CoCa 논문 리뷰를 가져왔습니다.해당 논문은 2022년에 CVPR에서 발표된 논문입니다.CoCa: Contrastive Captioners are Image-Text Foundation Models저자 : Jiahui Yu, Zirui Wang, Vijay Vasudevan, Legg Yeung, Mojtaba Seyedhosseini, Yonghui Wu[1] Background1) Vision & Vision-Language Foundation ModelVision or Vision Language Task를 위한 모델은 모델 구조에 따라 3가지 유형이 존재합니다.Single - Encoder Model ImageNet, Instagram 등 Image Classification Datase.. 2024. 8. 6.
[논문리뷰] FILIP 논문 리뷰 오늘은FILIP 논문 리뷰를 가져왔습니다.해당 논문은 2022년에 ICLR에서 발표된 논문입니다.FILIP: Fine-grained Interactive Language-Image Pre-Training저자 : Lewei Yao, Runhui Huang, Lu Hou, Guansong Lu, Minzhe Niu, Hang Xu, Xiaodan Liang, Zhenguo Li, Xin Jiang, Chunjing Xu [1] Introduction본 논문에서는 기존에 등장했던 VLP (Vision Language Pre-training) 방법론인 CLIP과 ALIGN에 대해 시사하며 글을 시작합니다. CLIP과 ALIGN은 인터넷에서 수집한 수백만 개의 이미지, 텍스트 쌍에서 Vision, Text Rep.. 2024. 7. 23.