본문 바로가기
논문리뷰

[논문리뷰] FILIP 논문 리뷰

by 단깅수 2024. 7. 23.
728x90

오늘은FILIP 논문 리뷰를 가져왔습니다.

ChatGPT로 생성한 FILIP 이미지

 

해당 논문은 2022년에 ICLR에서 발표된 논문입니다.

FILIP: Fine-grained Interactive Language-Image Pre-Training

저자 : Lewei Yao, Runhui Huang, Lu Hou, Guansong Lu, Minzhe Niu, Hang Xu, Xiaodan Liang, Zhenguo Li, Xin Jiang, Chunjing Xu

[1] Introduction

본 논문에서는 기존에 등장했던 VLP (Vision Language Pre-training) 방법론인 CLIP과 ALIGN에 대해 시사하며 글을 시작합니다.

 

CLIP과 ALIGN은 인터넷에서 수집한 수백만 개의 이미지, 텍스트 쌍에서 Vision, Text Representation을 학습하고 뛰어난 제로샷 능력과 견고함을 통해 다양한 Vision - Language DownStream Task에서 성공을 거두었습니다. 특히 이러한 모델의 핵심 기술은 듀얼 스트림 모델을 활용해 이미지와 텍스트를 전체적으로, 종합적으로 보고 Contrastive(대조적인) 학습을 하는 데에 있습니다. 이러한 Architecture는 두 모달리티 (이미지, 텍스트)의 인코더를 분리하고 각 표현을 미리 계산할 수 있기 때문에 검색과 같은 DownStream Task에서 특히 효율적일 수 있습니다. 하지만 이러한 방법론은 전역적인 표현을 학습하므로 이미지 안의 세부적인 객체와 텍스트 단어 간 관계의 학습은 어려울 수 있고 세세하고 구체적인 정보를 잡아내는 기능이 부족합니다.

 

 

예를 들어 보겠습니다.  위와 같은 동물원 이미지와 "사자 옆의 작은 다람쥐가 앉아 있는 귀여운 모습"이라는 텍스트 쌍이 있다고 할 때, CLIP과 ALIGN은 전체 이미지와 전체 텍스트를 전역적으로 비교해 일반적인 연결고리를 찾습니다. 즉, 이미지 전체와 "사자 옆의 작은 다람쥐"라는 구체적인 정보 사이의 직접적인 연결을 찾기 보다는 이미지에 사자가 포함되어 있고 텍스트에서 사자에 대해 언급하는지를 확인한다는 겁니다. 결과적으로 이러한 모델들은 이미지에서 객체를 인식하고 텍스트와 연결시킬 수는 있지만 텍스트에서 언급된 작은 다람쥐와 앉아 있는 귀여운 상황을 구체적으로 연결하는 데에는 제한적일 수 있습니다. 따라서 FILIP은 이러한 한계를 극복하기 위해 더 세밀한 크로스 모달 상호 작용을 구현하는 새로운 접근 방식인 Fine-grained Interactive Language-Image Pre-Training을 제안합니다.


[2] Method

2-1) Cross Modal Late Interaction

본 논문에서는 위 그림과 같이 FILIP이라는 이름의 이미지 인코더와 텍스트 인코더간 상호작용을 통해 새로운 교차 모달리티 Pre-training 모델을 제안합니다. 여기서 이미지는 ViT(Vision Transformer) Encoder를 통과하며 추가 [CLS] 토큰 임베딩과 선형적으로 투영된 이미지 Patch의 연결로서 입력됩니다. 텍스트는 일반적인 Transformer Encoder를 통과하고 Byte Pair Encoding (BPE)이 사용되며 각 시퀀스는 [BOS] 토큰으로 시작해 [EOS] 토큰으로 끝납니다.

 

 여기서 Cross Modal Late Interaction이란 이미지와 텍스트 간 상호작용을 보다 세밀하게 분석하기 위한 방법론입니다. 기존의 CLIP, ALIGN 등의 방법들은 이미지나 텍스트 전체를 하나의 큰 특징으로 요약해 관계를 분석했지만 FILIP은 이미지와 텍스트 각각을 더 작은 단위로 쪼개 각 이미지 조각과 텍스트 조각 사이의 최대 유사도를 계산합니다. 예를 들어, 위 그림에서 첫 번째 조각에서는 검은 고양이의 귀라는 텍스트 시퀀스와 가장 유사도가 높겠죠. 이렇게 각 조각 사이에서 가장 높은 유사도를 찾아내 전체 이미지와 텍스트 사이의 유사도를 평균내 결정합니다. 이를 통해 미묘한 연결고리나 세부적인 차이점도 발견할 수 있고 전체 이미지와 텍스트 대신 중요한 부분만을 선택해 처리하면서 메모리 사용량이나 계산 시간도 절감할 수 있습니다.

 

2-2) Dataset Augmentation

 

FILIP은 모델의 효과를 극대화하기 위해 이미지와 텍스트 데이터 모두에 데이터 증강을 적용하였고 300M개의 이미지-텍스트 쌍을 포함하는 대규모 데이터셋을 수집하였으며 임의의 규칙에 따라 필터링을 적용하였습니다.

  • 이미지 증강 및 필터링
    • AutoAugment 방식으로 이미지를 자르거나 회전, 색상조절 등의 방법을 사용해서 증강
    • 이미지 중에서 짧은 쪽의 길이가 200 Pixel 미만이거나 종횡비가 3을 초과하는 이미지는 제거
  • 텍스트 증강 및 필터링
    • 역번역 방식으로 원문을 다른 언어로 번역한 후 다시 원래의 언어로 번역하는 과정을 거침. Transformer의 Encoder로 문장 이해 능력과 텍스트 증강을 통해 생성 Task 모두 뛰어나도록 설정
    • 영어 텍스트만을 사용하며, 의미 없는 파일명과 같은 텍스트 제거, 동일한 텍스트가 10회 이상 반복되는 이미지-텍스트 쌍 제거

[3] Experiments

2-1) Zero-Shot Image Classification

 

제로샷 이미지 분류 Task는 모델이 학습 단계에서 접하지 않은 이미지들을 분류하는 능력을 평가합니다. 이 실험에서는 12개의 다른 분류 데이터셋 Flickr30K와 MSCOCO를 활용해서 수행되었고 각 데이터셋에 대해 준비된 프롬프트 집합을 사용해 최종 결과를 도출하였습니다. 결과적으로 FILIP 모델은 CLIP 모델보다 평균적으로 높은 정확도를 보였으며, 특히 이미지넷 같은 대규모 데이터셋에서 뛰어난 성능을 나타내었습니다. 또한 항공기 이미지와 같은 특정 도메인에서 상당한 성능 향상을 이끌어냈습니다.

 

2-2) Image-Text Retrieval

 

FILIP 모델의 성능을 평가하기 위한 또 다른 실험은 Image Text Retrieval(검색) 입니다. 이 작업은 두 가지 하위 작업으로 나뉘는데 이미지에서 텍스트를 검색하는 작업, 텍스트에서 이미지를 검색하는 작업입니다. 그래서 본 논문의 저자들은 FILIP의 제로샷 성능과 Fine-tuning 시의 성능을 비교하였습니다. 대부분의 Task에서 성능 향상이 일어났지만 특히 제로샷으로 이미지를 통해 텍스트를 검색하는 성능이 매우 향상되었습니다.


[4] Ablation Study

Ablation Study에서는 각 구성 요소를 개별적으로 제거하거나 변경할 때 모델의 성능이 어떻게 달라지는 지를 관찰하였습니다. FILIP base 모델을 사용하여 YFCC100M 데이터셋의 필터링된 부분집합으로 훈련을 수행하고, MSCOCO 데이터셋에서 제로샷 이미지-텍스트 검색과 ImageNet에서 제로샷 분류 작업으로 모델의 성능을 측정했습니다.

 

본 논문에서는 세 가지 구성요소를 개별적으로 조정해주었다고 했는데 이 세 가지 구성요소는 이미지/텍스트 데이터 증강, Cross Modal Late Interaction, 모델 아키텍쳐를 의미합니다. 이 세 구성요소를 조정함으로써 Raw Image 내에서 텍스트가 원하는 이미지의 세부 부분을 정확히 찾아내는 반면 CLIP은 좀 부족한 걸 볼 수 있습니다. 이를 통해서도 FILIP의 이미지, 텍스트간 이해도가 높다는 걸 확인할 수 있겠네요.


[5] Conclusion and Future work

  • 기존의 방법론이었던 CLIP, ALIGN의 이미지-텍스트 이해도가 종합적인 내용은 고려하지만 세부적인 내용은 고려하지 못함을 지적하며 Cross Modal Late Interaction 방법론인 FILIP을 제안
    • 이미지는 ViT Encoder를 통해 입력, 세부적으로 쪼개서 각 조각 이미지와 텍스트 시퀀스 간 유사도 계산, 일반적인 이미지 증강
    • 텍스트는 Transformer Encoder를 통해 입력, [BOS]와 [EOS] 사이의 텍스트 시퀀스가 나오도록 설정, 역번역 증강
  • 임의의 필터링 규칙을 통해 300M의 이미지-텍스트 쌍 데이터셋을 활용해 사전학습
  • 제로샷 이미지 분류, 이미지-텍스트 검색, Ablation Study 등 다양한 실험을 하였고 특히 제로샷 이미지 분류, 검색 등 제로샷 성능이 탁월함
  • 앞으로 Text Encoder에 MLM 기법을 적용할 수 있고 Image Encoder 개선을 통해 추가 성능 향상을 노려볼 수 있음

[6] Reference

https://velog.io/@tm011899/FILIP-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0FINE-GRAINED-INTERACTIVE-LANGUAGE-IMAGE-PRE-TRAINING

 

https://arxiv.org/abs/2111.07783

 

Chat GPT

 

 

[논문리뷰] ALBEF 논문 리뷰

오늘은 ALBEF 논문 리뷰를 가져왔습니다. 해당 논문은 2021년에 Salesforce에서 발표한 논문입니다. Align before Fuse: Vision and Language Representation Learning with Momentum Distillation저자 : Junnan Li,  Ramprasaath R. Sel

dangingsu.tistory.com

 

728x90
반응형