PPO1 [논문리뷰] DPO 논문 리뷰 DPO 논문 리뷰입니다. 논문 : Direct Preference Optimization: Your Language Model is Secretly a Reward Model저자 :Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, Chelsea Finn [1] IntroductionLLM을 학습시킬 때 방대한 데이터 양으로 학습시키지만 학습 데이터가 여러 사람의 생각과 의도가 섞여 있어 모델이 항상 우리가 원하는 방향으로 답을 내지는 않습니다. 예를 들어, 프로그래밍 코드를 짤 때 오류 코드를 보고 교정할 수도 있어야 하지만 코드를 작성할 때에는 전문가 수준으로 작성해야 하고 할루시네이션도 없어야 한다.. 2025. 8. 13. 이전 1 다음 728x90 반응형