CoT 논문 리뷰입니다.

논문 : Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
저자 : Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou
[1] Introduction
Chinchilla 논문에서도 언급됐던 내용인데, 최근 LLM의 급격한 발전이 이루어졌지만 단순히 모델 크기를 확장한다고 해서 무조건적으로 성능이 좋아지지는 않음을 본 논문에서도 지적하고 있습니다.
특정 질문에 대한 응답을 생성하는 데에는 탁월하지만, 복잡한 문제 해결 과정에서 중간 사고 단계를 생략하거나 비논리적인 답변을 생성하거나 할루시네이션이 발생하는 경향이 있습니다.
이를 해결하기 위해 본 논문에서는 Chain-of-Thought (CoT) Prompting 이라는 새로운 기법을 제안합니다.

이는 각 질문에 대해 단순히 정답만 제시하는 것이 아니라, 중간 추론 과정을 자연어로 서술하는 방식입니다.
이 프롬프트에는 세 가지 요소가 포함됩니다:
1. 입력 (Input)
2. 사고의 흐름 (Chain of Thought)
3. 출력 (Output)
예를 들어, 수학 문제에 대해 단순히 "42"라는 정답을 생성하는 것이 아니라 문제를 어떻게 해석하고 어떤 수식을 거쳐 그 답에 도달했는지를 단계별로 기술한다고 보면 됩니다.
CoT의 효과를 확인하기 위해 GSM8K, CommonsenseQA, SVAMP 등 다양한 벤치마크에서 결과를 분석했습니다.
[2] Chain-of-Thought Prompting
본 논문에서 설명하는 Chain-of-Thought는 위에서도 언급했듯이 문제 해결을 위한 논리적이고 단계적인 사고 과정을 자연어로 표현한 일련의 문장들을 말합니다.
이는 마치 사람이 '문제를 이렇게 생각해서 이렇게 풀었다' 라고 설명하듯이, 모델에게도 문제 해결의 경로를 따라가며 정답에 도달하도록 유도하는 방식입니다.
논문에서는 실제 수학 문제에서 모델이 원래는 오답을 냈던 상황에서도, 사고의 흐름을 따라가며 문제를 해결하도록 유도했을 때 정답률이 크게 향상되었음을 보여줍니다.
CoT는 다음과 같은 주요 특성이 존재합니다.
1. 복잡한 문제 분해
- CoT는 다단계 문제를 중간 단계로 쪼갬으로써 문제 해결을 더 구조적으로 수행하게 함
- 이로 인해 모델은 연산량을 논리적으로 분배하며 난이도에 맞게 사고를 확장할 수 있게 됨
2. 모델의 추론 과정 해석 가능
- 모델이 정답을 도출한 논리 경로를 자연어로 확인할 수 있기 때문에 모델의 '생각 흐름'을 해석하고 디버깅하는데 큰 도움이 됨
- 모델이 생성한 사고 흐름이 항상 내부 연산을 정말로 반영하지는 않지만 분석의 단서를 제공
3. 범용적인 적용 가능성
- 수학 문제뿐 아니라 상식 추론, 기호 조작 등 다양한 추론 기반 과제에 적용될 수 있음
- 사람이 언어로 풀 수 있는 문제라면 CoT 방식으로 접근 가능하다는 것이 큰 장점
4. Few-shot Prompting으로도 활용 가능
- 놀랍게도 대규모 사전학습 언어모델에서는 별도의 파인튜닝 없이도 CoT 예시 몇 개만 포함해 프롬프트를 구성하면 모델이 유사한 사고 흐름을 스스로 생성할 수 있음
[3] 수학 추론 문제

본 논문의 저자들은 언어모델이 수학 문제를 보다 정확히 풀기 위해서는 단순히 답만 보여주는 것이 아니라, 문제를 해결하는 사고의 흐름을 보여주는 것이 효과적이라고 보았습니다.
Q : Roger has 5 tennis balls. He buys 2 more cans of tennis balls. Each can has 3 tennis balls. How many tennis balls does he have now?
A : Roger started with 5 balls. 2 cans of 3 tennis balls each is 6 tennis balls. 5 + 6 = 11. The answer is 11.
위와 같이 단순히 "11"이라는 숫자를 제시하는 대신, 중간 연산 과정을 자연어로 설명하게 유도함으로써 사고하게 하는 방식이 Chain-of-Thought 입니다.
연구팀은 CoT 프롬프트의 효과를 검증하기 위해 다음의 수학 서술형 문제 벤치마크 5개를 활용했습니다.
1. GSM8K : 초등 수준 수학 문제
2. SVAMP : 다양한 구조를 가진 수학 문제
3. ASDiv : 주제와 형식이 다양한 수학 문제
4. AQuA : 대수 문제 중심의 객관식 데이터셋
5 MAWPS : 실제 수학 문제로 구성된 벤치마크
또한, 각 벤치마크에 대해 모델은 두 가지 방식으로 평가되었습니다.
- 표준 프롬프트 : 질문과 정답만을 포함하는 few-shot 예시 사용
- CoT 프롬프트 : 각 예시에 사고의 흐름을 포함시킨 형태
CoT 프롬프트의 효과를 다양한 모델에서 실험하기 위해 다음과 같은 모델들이 사용되었습니다.
- GPT-3 계열 : 350M ~ 175B
- LaMDA : 422M ~ 137B
- PaLM : 8B, 62B, 540B
- UL2 : 20B
- Codex

CoT 수치적 평가 결과는 다음과 같습니다.
1. CoT 효과는 모델 크기가 커질수록 더 두드러진다.
- 대략 100억 개 이상의 파라미터를 가진 모델부터 성능 향상이 본격적으로 시작되며, 그 아래 크기의 모델들은 오히려 유창하지만 논리적으로 부정확한 사고 경로를 생성해 성능 저하를 일으키기도 함
- 이러한 현상은 CoT가 단순한 출력 방식이 아니라 모델 내부의 사고 확장 능력을 필요로 한다는 점을 방증함
2. 문제 난이도가 높을수록 CoT의 이점이 커진다.
- GSM8K : 일반적으로 baseline 성능이 가장 낮았던 데이터셋이지만, CoT를 적용한 PaLM과 GPT에서는 성능이 2배 이상 상승
- MAWPS의 단순 문제 (SingleOp) : 단일 연산만 요구하는 문제에서는 CoT 도입 효과가 거의 없거나 오히려 약간의 손실이 발생
3. CoT는 별도의 파인튜닝 없이도 기존 SOTA와 경쟁이 가능하다.
- PaLM 540B + CoT - GSM8K, SVAMP, MAWPS에서 새로운 SOTA 달성
- AQuA, ASDiv에서는 기존 SOTA 대비 2% 이내 차이
[4] 상식 추론 문제
상식 추론은 우리가 일상에서 당연하게 여기는 지식을 기반으로 문제를 푸는 능력을 말합니다.
"사람이 문을 통과하려면 어떻게 해야 할까?"
"조금이라도 늦게 도착하면 비행기를 탈 수 있을까?"
위와 같이 명시적인 정보 없이도 배경 지식과 맥락을 통해 답을 유추해야 하는 문제들이 상식 추론 과제입니다.
1. CSQA (CommonsenseQA) - 세계 전반적인 배경 지식이 필요한 객관식 상식 문제
2. StrategyQA - 명시적 정보 없이 전략적 사고가 필요한 질문에 다중 단계를 거쳐 답하는 과제
3. BIG-bench : Date Understanding - 문맥을 읽고 날짜 계산 추론
4. BIG-bench : Sports Understanding - 스포츠 문장의 사실 여부 판단
5. SayCan - 자연어 명령을 로봇을 이산 행동 시퀀스로 변환

실험 결과는 다음과 같습니다.
1. CoT는 상식 추론에서 유효하다.
- 모델 스케일 증가만으로도 기본 성능은 올라갔으며 CoT를 추가하면 더 큰 폭의 향상이 나타났음
- 특히 PaLM 540B 모델에서는 전 영역에서 유의미한 성능 향상이 확인됨
2. 벤치마크 성능
- StrategyQA - 기존 최고 성능 (69.4%) / PaLM 540B + CoT (75.6%)
- Sports Understanding - 스포츠 애호가 성능 (84%) / PaLM 540B + CoT (95.4%)
[5] 기호 추론 문제
기호 추론은 언어적 의미보다는 규칙적인 기호 조작을 요구하는 과제를 말합니다.
예를 들어, 단어의 마지막 글자를 연결하거나 여러 명이 번갈아 동전을 뒤집었을 때 결과를 추론하는 과제 등입니다.
이러한 작업은 사람에게는 쉽지만 언어모델에게는 복잡한 논리적 추론과 기억력이 필요합니다.
실험에 사용된 과제는 다음 두 가지 입니다.
1. Last Letter Concatenation (마지막 글자 연결)
- 과제 : 이름의 각 단어 마지막 글자를 이어 붙이기
- 예시 : "Amy Brown" → "yn"
- 데이터 : 미국 상위 1,000개 이름을 조합해 이름 생성
- 난이도 : 기존 언어모델은 첫 글자 연결은 잘 수행하지만, 마지막 글자 연결은 더욱 어려움
2. Coin Flip (동전 뒤집기 추론)
- 과제 : 특정 인물이 동전을 뒤집거나 유지했을 때, 최종 상태를 추론
- 예시 : "Coin is heads. Phoebe filps. Osvaldo does not filp. Is it heads?" → "no"
- 난이도 : 상태 추적이 필요하고, 순서에 따라 결과가 바뀜
3. 평가 방식
- In-domain 평가 : 학습 예시와 같은 구조의 문제
- OOD(Out-of-Domain) 평가 : 학습 예시보다 긴 구조의 문제

실험 결과는 다음과 같습니다.
1. In-domain에서 거의 100%의 정확도
- CoT 프롬프트를 적용한 PaLM 540B 모델은 두 과제 모두에서 거의 완벽한 정확도를 기록함
- 특히 기존의 PaLM 540B는 Coin Flip 문제를 CoT 없이도 해결했지만, LaMDA 137B 같은 작은 모델은 CoT 없이는 실패함
2. 작은 모델은 여전히 실패
- 작은 모델들은 규칙이 주어졌음에도 불구하고 추론 구조를 일반화하지 못해 실패함
- 이는 100B 이상의 파라미터 규모에서 비로소 기호 조작 능력이 나타난다는 것을 보여줌
3. OOD 테스트에서도 CoT 효과 존재
- 표준 프롬프트는 OOD 문제에서 완전히 실패
- CoT는 점진적으로 성능 상승을 보이며, 길이 일반화에도 효과적
[6] 결론
- 등장 배경
- 대규모 언어모델(LLM)의 성능은 매년 비약적으로 향상 중
- 복잡한 추론 문제(수학 계산, 상식 추론, 기호 조작 등)에서는 여전히 일관성 없는 답변을 내놓는 경우가 많음
- 이러한 과제에서 언어모델이 보다 인간처럼 "생각"할 수 있도록 유도하는 방식으로 등장한 것이 CoT (Chain-of-Thought)
- 핵심 방법론
- CoT 핵심은 기존의 input-output 예시 대신 다음 세 요소를 포함한 프롬프트를 모델에 제공하는 것
- Input : 문제
- Chain of Thought : 중간 추론 과정 (자연어 설명)
- Output : 최종 정답
- 이 방식은 사전학습된 모델을 그대로 사용하며 별도의 파인튜닝 없이 few-shot 예시만으로 적용할 수 있다는 점에서 실용성과 확장성이 높음
- CoT 핵심은 기존의 input-output 예시 대신 다음 세 요소를 포함한 프롬프트를 모델에 제공하는 것
- 실험 결과
- 수학 추론 문제
- GSM8K 등 복잡한 수학 문제에서 CoT 프롬프트는 기존보다 2배 이상의 성능 향상을 보임
- 특히 PaLM 540B 모델은 기존 최고 성능을 능가하는 수준
- 상식 추론 문제
- StrategyQA, CSQA 등에서 모델의 배경지식 활용 능력 향상
- 예시만으로도 사람 수준 혹은 그 이상의 성능 확보
- 기호 추론 문제
- 동전 뒤집기, 글자 연결 등 구조적 논리가 필요한 과제에서도 탁월한 성능
- 특히 길이 일반화에 효과적
- 단순히 암기하는 것이 아니라 새로운 입력 구조에 논리를 확장함
- 수학 추론 문제
- 한계 및 향후 과제
- CoT의 성능이 본격적으로 나타나기 시작하는 모델 규모는 약 100B 파라미터 이상
- 실제 추론인지 불분명 : 인간처럼 추론을 하는지, 아니면 단지 그럴듯하게 흉내내는지 검증은 아직 어려움
- 데이터 구축 비용 : few-shot 예시는 수작업이 가능하지만 대규모 학습 데이터로 확장은 비용 부담
- 사고 흐름의 정확도 보장 불가 : 모델이 그럴듯한 중간 과정을 만들지만 논리적 오류나 사실 오류 발생 가능성 존재
'논문리뷰' 카테고리의 다른 글
| [논문리뷰] Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation (0) | 2026.01.12 |
|---|---|
| [논문리뷰] Personality-Guided Code Generation Using Large Language Models (0) | 2026.01.06 |
| [논문리뷰] DPO 논문 리뷰 (11) | 2025.08.13 |
| [논문리뷰] Alpaca 논문 리뷰 (8) | 2025.07.26 |
| [논문리뷰] ChinChilla 논문 리뷰 (6) | 2025.07.15 |
| [논문리뷰] LoRA 논문 리뷰 (4) | 2025.07.08 |
| [논문리뷰] RAG 논문 리뷰 (9) | 2025.06.30 |
| [논문리뷰] GAN 논문 리뷰 (0) | 2025.05.24 |