728x90
1. 배경
대규모 언어 모델(LLM)을 실제 서비스에 적용하기 위해서는, 단순한 정확도 외에도 사용자 선호도에 부합하는 응답을 생성하는 것이 매우 중요합니다. 이를 위해 등장한 기술이 **RLHF(강화학습 기반 인간 피드백)**이며, OpenAI, Anthropic 등의 기업들이 사용해왔습니다.
하지만 RLHF는 다음과 같은 한계를 갖습니다:
- 학습 불안정성
- 높은 자원 소비
- 사람 피드백(label)의 편향 가능성
이를 개선하기 위해, 사용자 피드백을 보다 상대적이고 집단 기반으로 처리하는 방식이 고안되었고, 그 대표적 기술이 바로 **GRPO(Group Relative Policy Optimization)**입니다.
2. 개념 또는 정의
**GRPO(Group Relative Policy Optimization)**는 여러 응답 그룹(group)을 상호 비교하면서 상대적인 선호도 기반으로 정책(policy)을 최적화하는 새로운 방식의 강화학습 알고리즘입니다.
기존 방식이 하나의 응답 쌍(좋음 vs 나쁨)만 비교했다면, GRPO는 응답을 여러 개 묶어서 그룹 단위로 평가하고, 그 안에서 상대적으로 더 나은 응답을 선택하여 학습에 반영합니다.
3. 어떤 기술인지 구체적으로 설명
GRPO는 다음과 같은 절차로 동작합니다:
- 응답 그룹 생성: 주어진 프롬프트(prompt)에 대해 다양한 후보 응답을 생성함 (예: 4~8개)
- 그룹 내부 평가: 각 그룹 내에서 응답들을 상호 비교하며, 사용자 또는 보상 모델(reward model)이 상대적 순위를 평가
- Relative Ranking 적용: 절대적인 정답이 아닌, 상대적 우위에 기반하여 응답 간의 선호도(weight)를 설정
- 정책 최적화: PPO(Proximal Policy Optimization) 알고리즘과 유사하게, 그룹 내 상대 보상 값을 활용하여 정책(policy)을 업데이트
- 안정성 확보: 정책 업데이트가 지나치게 튀지 않도록 KL divergence 제어 포함
4. 주요 기술 요소
| 구성 요소 | 설명 |
| Group Sampling | 여러 응답을 한 번에 생성하여 비교 학습 가능하도록 구성 |
| Relative Reward | 절대 점수가 아닌, 그룹 내 상대적 순위를 통한 보상 |
| Policy Update | PPO 기반 정책 최적화 알고리즘 사용 |
| KL Penalty | 원래 정책과의 차이를 제어하여 안정적 학습 유지 |
| Scalability | 다양한 입력 프롬프트와 그룹 크기에 확장 가능 |
5. 활용 방법 및 전망
- 활용 사례
- 사용자 피드백이 일관되지 않거나 수치화 어려운 상황에서 모델 튜닝
- LLM 응답 품질 향상 (예: 대화 자연성, 명확성, 윤리성)
- RLHF가 어려운 상황에서 대체 수단으로 사용
- 전망
- GRPO는 RLHF의 진화형으로 평가되며, 인간 피드백의 노이즈를 줄이고 학습 안정성을 높이는 데 기여
- 앞으로는 다양한 그룹 기반 학습(RAG, Agent 응답 조합 등)과 결합하여 멀티 에이전트 AI의 성능 최적화에도 적용될 가능성이 큼
- 특히 Anthropic, Google DeepMind, OpenAI 등에서 GRPO 개념 기반의 알고리즘 개발이 활발함
6. 유사 기술과의 비교
| 구분 | GRPO | PPO (기본) | DPO (Direct Preference Optimization) |
| 피드백 방식 | 응답 그룹 내 상대 평가 | 보상 모델이 정량적 점수 부여 | 응답 쌍 간 선호도 비교 |
| 보상 구조 | 그룹 내 상대 순위 기반 | 절대 보상 점수 기반 | 로지스틱 손실 기반 선호 점수 |
| 안정성 | 높음 (KL 제어, 그룹 평균 사용) | 중간 | 중간~높음 |
| 학습 복잡도 | 다소 높음 | 중간 | 낮음 |
| 확장성 | 높음 (멀티 응답, 멀티 에이전트에 유리) | 보통 | 낮음 |
정보기술연구모임
https://cafe.naver.com/itpewiki
728x90
'IT 자료 > Artificial intelligence' 카테고리의 다른 글
| COT (Chain of Thought) 기법 (1) | 2025.05.10 |
|---|---|
| 토큰(token) (0) | 2025.05.10 |
| CRITIC(Critique, Reflect, Improve, and Iterate with Chain-of-Thought) (0) | 2025.05.09 |
| MTP(Multi-Token Prediction) (0) | 2025.05.09 |
| Specialist Mix of Experts(SMoE) (0) | 2025.05.09 |