본문 바로가기

vision4

[논문리뷰] SPPNet 논문 리뷰 SPPNet 논문 리뷰입니다.본 논문은 2014년도에 등장한 논문입니다. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 저자 : Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun [1] Introduction이번에 소개할 논문은 SPPNet 입니다. 여기서 SPP란? Spatial Pyramid Pooling 을 의미합니다. 그리고 논문 제목에서 알 수 있듯이 Deep 합성곱 신경망에서 SPP를 사용했다고 하는데, 저 SPP가 뭔지 알아보는 것이 본 논문의 핵심이라고 할 수 있겠습니다. 일단, SPPNet이 등장한 배경부터 알아보겠습니다. SPPNet 등장 배.. 2025. 1. 8.

[논문리뷰] mPLUG 논문 리뷰 오늘은 mPLUG 논문 리뷰를 가져왔습니다.해당 논문은 2022년에 EMNLP에서 발표된 논문입니다. mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections저자 : Chenliang Li, Haiyang Xu, Junfeng Tian, Wei Wang, Ming Yan, Bin Bi, Jiabo Ye, Hehong Chen, Guohai Xu, Zheng Cao, Ji Zhang, Songfang Huang, Fei Huang, Jingren Zhou, Luo Si [1] Introduction mPLUG는 위 5가지 Vision Language Task에 좋은 성능을 내는 것이 목표입니다. 각 Tas.. 2024. 8. 18.

[논문리뷰] CoCa 논문 리뷰 오늘은 CoCa 논문 리뷰를 가져왔습니다.해당 논문은 2022년에 CVPR에서 발표된 논문입니다.CoCa: Contrastive Captioners are Image-Text Foundation Models저자 : Jiahui Yu, Zirui Wang, Vijay Vasudevan, Legg Yeung, Mojtaba Seyedhosseini, Yonghui Wu[1] Background1) Vision & Vision-Language Foundation ModelVision or Vision Language Task를 위한 모델은 모델 구조에 따라 3가지 유형이 존재합니다.Single - Encoder Model ImageNet, Instagram 등 Image Classification Datase.. 2024. 8. 6.

[논문리뷰] FILIP 논문 리뷰 오늘은FILIP 논문 리뷰를 가져왔습니다. 해당 논문은 2022년에 ICLR에서 발표된 논문입니다.FILIP: Fine-grained Interactive Language-Image Pre-Training저자 : Lewei Yao, Runhui Huang, Lu Hou, Guansong Lu, Minzhe Niu, Hang Xu, Xiaodan Liang, Zhenguo Li, Xin Jiang, Chunjing Xu [1] Introduction본 논문에서는 기존에 등장했던 VLP (Vision Language Pre-training) 방법론인 CLIP과 ALIGN에 대해 시사하며 글을 시작합니다. CLIP과 ALIGN은 인터넷에서 수집한 수백만 개의 이미지, 텍스트 쌍에서 Vision, Text Re.. 2024. 7. 23.

이전 1 다음

728x90

티스토리툴바