본문 바로가기

전체 글75

[논문리뷰] Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation 논문 리뷰입니다.논문 : Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation (2023)저자 : Dawei Gao, Haibin Wang, Yaliang Li, Xiuyu Sun, Yichen Qian, Bolin Ding, Jingren Zhou[1] Introduction지난 글에서도 언급했듯이, LLM을 활용해 소스 코드를 자동으로 생성하는 Task는 큰 관심을 받고 있습니다. 그 중에서도 본 논문은 Text-to-SQL Task를 다루고 있습니다. 기존의 Text-to-SQL 연구는 파인튜닝 방식이.. 2026. 1. 12.
[논문리뷰] Personality-Guided Code Generation Using Large Language Models Personality-Guided Code Generation Using Large Language Models 논문 리뷰입니다.논문 : Personality-Guided Code Generation Using Large Language Models 저자 : Yaoqi Guo, Zhenpeng Chen, Jie M. Zhang, Yang Liu, Yun Ma[1] Introduction자연어 프롬프트로부터 소스 코드를 자동으로 생성하는 코드 생성 Task는 소프트웨어 개발을 간소화할 수 있는 잠재력 덕분에 학계 및 산업계에서 큰 관심을 받고 있습니다. 아마 저를 포함한 많은 분들이 ChatGPT, Gemini 등 LLM의 힘을 빌려서 코딩을 하고 계실거라 생각하는데요.또한, Codellama, Deep.. 2026. 1. 6.
[논문리뷰] DPO 논문 리뷰 DPO 논문 리뷰입니다. 논문 : Direct Preference Optimization: Your Language Model is Secretly a Reward Model저자 :Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, Chelsea Finn [1] IntroductionLLM을 학습시킬 때 방대한 데이터 양으로 학습시키지만 학습 데이터가 여러 사람의 생각과 의도가 섞여 있어 모델이 항상 우리가 원하는 방향으로 답을 내지는 않습니다. 예를 들어, 프로그래밍 코드를 짤 때 오류 코드를 보고 교정할 수도 있어야 하지만 코드를 작성할 때에는 전문가 수준으로 작성해야 하고 할루시네이션도 없어야 한다.. 2025. 8. 13.
[논문리뷰] Alpaca 논문 리뷰 Alpaca 논문 리뷰입니다. 논문 : Alpaca: A Strong, Replicable Instruction-Following Model저자 : Rohan Taori* and Ishaan Gulrajani* and Tianyi Zhang* and Yann Dubois* and Xuechen Li* and Carlos Guestrin and Percy Liang and Tatsunori B. Hashimoto [1] Introduction최근 몇 년간 LLM 분야에서 가장 주목받는 기술은 instruction-following task, 즉 지시를 이해하고 따르는 언어모델입니다. OpenAI의 GPT 3.5, ChatGPT, Anthropic의 Claude 등은 일상 속에서 자연어로 명령을 주고받으.. 2025. 7. 26.
[논문리뷰] CoT 논문 리뷰 CoT 논문 리뷰입니다. 논문 : Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 저자 : Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou [1] IntroductionChinchilla 논문에서도 언급됐던 내용인데, 최근 LLM의 급격한 발전이 이루어졌지만 단순히 모델 크기를 확장한다고 해서 무조건적으로 성능이 좋아지지는 않음을 본 논문에서도 지적하고 있습니다. 특정 질문에 대한 응답을 생성하는 데에는 탁월하지만, 복잡한 문제 해결 과정에서 중간 사고 단계를 생략하거나 비논리적인 답변을.. 2025. 7. 22.
[논문리뷰] ChinChilla 논문 리뷰 ChinChilla 논문 리뷰입니다. 논문 : Training Compute-Optimal Large Language Models 저자 : Jordan Hoffmann★, Sebastian Borgeaud★, Arthur Mensch★, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack.. 2025. 7. 15.
[논문리뷰] LoRA 논문 리뷰 LoRA 논문 리뷰입니다. 논문 : LoRA: Low-Rank Adaptation of Large Language Models저자 : Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen [1] Introduction 자연어 처리(NLP) 분야에서는 하나의 대규모 언어 모델을 다양한 하위 태스크에 적용하기 위해 파인튜닝(fine-tuning)을 수행하는 것이 일반적입니다. 하지만 최근처럼 GPT-3처럼 수십억~수천억 개의 파라미터를 가진 모델이 등장하면서, 모든 파라미터를 업데이트하는 기존 방식은 비효율적이고, 실제 운영 환경에서 부담이 큽니다. 파인튜닝의 비용 문.. 2025. 7. 8.
[논문리뷰] RAG 논문 리뷰 RAG 논문 리뷰입니다.논문 : Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks저자 : Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, Douwe Kiela [1] IntroductionGPT와 같은 대형 언어모델, 즉 LLM은 사전학습된 내용을 통해 여러 NLP Downstream Task에서 좋은 성능을 보이고 있습니다. 하지만 정말 정확한 지식이 필요한 분야(법률, 의료 .. 2025. 6. 30.
[논문리뷰] GAN 논문 리뷰 GAN 논문 리뷰입니다.논문 :Generative Adversarial Nets저자 : Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio, Département d’informatique et de recherche opérationnelle [1] Introduction딥러닝은 이미지, 음성, 자연어 등 다양한 데이터 도메인에서 탁월한 성능을 보이는 모델 개발을 가능하게 했습니다. 논문에서는 이러한 발전을 ‘풍부하고 구조화된 모델의 발견’이라고 표현하며, 특히 복잡한 데이터 분포를 잘 포착해내는 능력에 주목했습.. 2025. 5. 24.
[논문리뷰] VAE 논문 리뷰 VAE 논문 리뷰입니다.논문 : Auto-Encoding Variational Bayes저자 : Diederik P. Kingma, Max Welling [1] Background 1) Auto Encoder  VAE는 Variational Auto Encoder의 약자로 기본적으로 위와 같은 모델 구조를 가지고 있습니다. 그럼 일단 Auto Encoder가 뭔지부터 알아야겠죠.  Auto Encoder는 위처럼 이미지를 Encoder 에 입력하고 Input Image와 동일한 Output 을 Decoder 가 생성하도록 학습되는 모델입니다. 위 예시에서는 2 Image를 입력하고 latent vector를 만든 후 latent vector를 Decoder에 전달해 2 Image 를 생성합니다. 일반적인.. 2025. 2. 17.
[논문리뷰] Mask R-CNN 논문 리뷰 Mask R-CNN 논문 리뷰입니다.본 논문은 2018년도에 등장한 논문입니다.논문 : Mask R-CNN저자 : Kaiming He Georgia Gkioxari Piotr Dollar Ross Girshick[1] Background여느 Mask R-CNN 모델 리뷰와 동일하게 Instance segmentation과 R-CNN 계열 모델의 발전 과정을 살펴보고 들어가겠습니다. Instance Segmentation 본 논문의 Introduction 부분에 이 모델은 Instance Segmentation에서 강력한 모델을 만들겠다는 이야기를 합니다.   Instance Segmentation 이란, Object Detection과 Semantic Segmentation이 결합된 형태의 CV Task.. 2025. 2. 17.
[논문리뷰] EfficientNet 논문리뷰 EfficientNet 논문 리뷰입니다.본 논문은 2019년도에 등장한 논문입니다.논문 : EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks 저자 : Mingxing Tan, Quoc V. Le[1] Background전통적으로 CNN 모델의 성능을 높이기 위해서는 모델 규모를 키우는 것이 일반적인 방법입니다. 예를 들어, ResNet은 Layer의 개수를 늘려서 ResNet-18 에서 ResNet-200 까지도 증가시킬 수 있고, GPipe는 기본 모델을 4배 확장하여 ImageNet 데이터셋에서 top1 정확도 84.3%를 달성하기도 했다고 하네요. 이렇게 CNN 모델의 규모를 키우는 방법은 여러 가지가 있지만, 어떤 방.. 2025. 2. 5.
728x90
반응형