본문 바로가기

딥러닝42

[논문리뷰] FILIP 논문 리뷰 오늘은FILIP 논문 리뷰를 가져왔습니다. 해당 논문은 2022년에 ICLR에서 발표된 논문입니다.FILIP: Fine-grained Interactive Language-Image Pre-Training저자 : Lewei Yao, Runhui Huang, Lu Hou, Guansong Lu, Minzhe Niu, Hang Xu, Xiaodan Liang, Zhenguo Li, Xin Jiang, Chunjing Xu [1] Introduction본 논문에서는 기존에 등장했던 VLP (Vision Language Pre-training) 방법론인 CLIP과 ALIGN에 대해 시사하며 글을 시작합니다. CLIP과 ALIGN은 인터넷에서 수집한 수백만 개의 이미지, 텍스트 쌍에서 Vision, Text Re.. 2024. 7. 23.
[논문리뷰] ALBEF 논문 리뷰 오늘은 ALBEF 논문 리뷰를 가져왔습니다. 해당 논문은 2021년에 Salesforce에서 발표한 논문입니다. Align before Fuse: Vision and Language Representation Learning with Momentum Distillation저자 : Junnan Li,  Ramprasaath R. Selvaraju,  Akhilesh D. Gotmare, Shafiq Joty,  Caiming Xiong,  Steven C.H. Hoi[1] Background이미지와 텍스트를 Multi Modal로 받아 Encoder를 활용해 학습을 시키는 경우는 크게 두 가지가 있습니다. 1. Transformer-based Multi-modal Encoder2. Unimodal Enco.. 2024. 7. 17.
[논문리뷰] T5 논문 리뷰 오늘은 T5 논문 리뷰를 가져왔습니다.해당 논문은 2019년에 발표된 논문입니다. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer저자 : Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu[0] Abstract전이학습은 NLP(자연어 처리) 분야에서 강력한 기술로 부상했습니다.전이학습이란?사전학습 + 파인튜닝 단계로 나누어서 진행하는 학습본 논문은 모든 텍스트 기반 언어 문제를 text-to-text 형태로 전환시키는 통합된 프레임워크를 도입하여.. 2024. 7. 15.
[논문리뷰] CLIP 논문 리뷰 오늘은 CLIP 논문 리뷰를 가져왔습니다. 해당 논문은 2021년에 OpenAI에서 발표한 논문입니다.Learning Transferable Visual Models From Natural Language Supervision저자 : Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever[1] Introduction & Background1) Image Classification컴퓨터 비전 (CV) 분야의 Task 중 하나인 Image Cl.. 2024. 7. 10.
[딥러닝] CNN, 합성곱 신경망 이번에 소개할 내용은 합성곱 신경망의 개념과 등장 배경, 구성 요소 등에 대한 내용이다. 합성곱 신경망이 등장하기 이전 딥러닝 모델은 MLP (Multi-layer Perceptron), 즉 퍼셉트론을 다층으로 쌓아서 사용했었다. 하지만 MLP 모델의 특성상 입력층, 출력층 모두 1차원이어야 하기 때문에 이미지 등 위치 정보가 중요한 데이터를 다루기에 적합하지 않다는 문제가 발생한다. 이 때 위치 정보를 살리기 위해서 합성곱 아이디어를 신경망 모델에 적용한 모델이 CNN이다. 합성곱 신경망 개요 오늘날 사용되는 많은 CNN 구조의 기본 뿌리는 LeNet에서 유래했다.  이미지 input을 받아서 행렬곱을 통해 위치적으로 중요한 부분에 더 큰 가중치를 두어 계산하는 방식으로 위치 정보를 보존하고 채널과 층.. 2024. 7. 8.
[프로젝트] 딥러닝을 활용한 치매 예측 및 예방 프로젝트 리뷰 2024년 1학기 딥러닝 과목을 수강하면서 진행했던 프로젝트에 대해 리뷰해보려고 한다.해당 프로젝트는 아이디어 기획 프로젝트이고 분야는 CV, Multi-Modal 이 되겠다. 주제 선정 배경사실 어떤 주제로 프로젝트를 시작해볼까에 대해 많은 고민이 있었다.주로 재미있어 보이는 주제로 할 것인가, 사회적으로 영향이 있고 의미있는 주제로 할 것인가에 대한 고민이었다.하지만 의료 분야를 한 번쯤은 다뤄보고 싶었고 얼마 전에 진행되었던 D & A 학회 선배 초청 강연회에서도의학 분야가 아무래도 인공지능이 들어서기에는 불확실성의 여지가 많아 발전이 더디고 있다는 말을 들어 관심이 더욱 갔다.그래서 사회적인 의미도 챙기면서 의학 분야에 대한 연구도 하면서 꿩먹고 알먹고 도랑치고 가재잡고 일석이조 계획을 세웠다. .. 2024. 7. 4.
[논문리뷰] XL-Net 논문 리뷰 오늘은 XL-Net 논문 리뷰를 가져왔습니다. 해당 논문은 2019년에 발표된 논문입니다. XLNet: Generalized Autoregressive Pretraining for Language Understanding저자 : Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le[1] Introduction기존 언어 모델 Pre - training은 크게 AR과 AE로 나눌 수 있음Auto Regressive(AR)이전 Token을 참고해 다음에 나올 Token이 무엇일지 예측대표적으로 ELMO, GPT-1이 이에 해당함주로 단 방향으로만 정보를 학습하기 때문에 양방향 문맥을 학습하지 못한다는 점에서.. 2024. 7. 3.
[논문리뷰] Transformer 논문 리뷰 오늘은 Transformer 논문 리뷰를 가져왔습니다.  해당 논문은 2017년에 발표된 논문입니다. 논문 : Attention Is All You Need저자 : Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin[1] Background1-1. 기존 Seq2Seq 모델의 한계점 (RNN 등 사용)기존의 인코더 - 디코더 구조 : 인코더에서 고정된 크기의 context vector를 생성해 디코더의 입력으로 넣어주는 형식context vector를 만들다보니 인코더의 모든 소스 문장에 대한 정보가 압축되어 병목 현상이 발생하고 입력 문장 전.. 2024. 6. 26.
728x90
반응형