728x90

 

1. 배경

대규모 언어 모델(LLM)을 실제 서비스에 적용하기 위해서는, 단순한 정확도 외에도 사용자 선호도에 부합하는 응답을 생성하는 것이 매우 중요합니다. 이를 위해 등장한 기술이 **RLHF(강화학습 기반 인간 피드백)**이며, OpenAI, Anthropic 등의 기업들이 사용해왔습니다.

하지만 RLHF는 다음과 같은 한계를 갖습니다:

  • 학습 불안정성
  • 높은 자원 소비
  • 사람 피드백(label)의 편향 가능성

이를 개선하기 위해, 사용자 피드백을 보다 상대적이고 집단 기반으로 처리하는 방식이 고안되었고, 그 대표적 기술이 바로 **GRPO(Group Relative Policy Optimization)**입니다.


2. 개념 또는 정의

**GRPO(Group Relative Policy Optimization)**는 여러 응답 그룹(group)을 상호 비교하면서 상대적인 선호도 기반으로 정책(policy)을 최적화하는 새로운 방식의 강화학습 알고리즘입니다.

기존 방식이 하나의 응답 쌍(좋음 vs 나쁨)만 비교했다면, GRPO는 응답을 여러 개 묶어서 그룹 단위로 평가하고, 그 안에서 상대적으로 더 나은 응답을 선택하여 학습에 반영합니다.


3. 어떤 기술인지 구체적으로 설명

GRPO는 다음과 같은 절차로 동작합니다:

  1. 응답 그룹 생성: 주어진 프롬프트(prompt)에 대해 다양한 후보 응답을 생성함 (예: 4~8개)
  2. 그룹 내부 평가: 각 그룹 내에서 응답들을 상호 비교하며, 사용자 또는 보상 모델(reward model)이 상대적 순위를 평가
  3. Relative Ranking 적용: 절대적인 정답이 아닌, 상대적 우위에 기반하여 응답 간의 선호도(weight)를 설정
  4. 정책 최적화: PPO(Proximal Policy Optimization) 알고리즘과 유사하게, 그룹 내 상대 보상 값을 활용하여 정책(policy)을 업데이트
  5. 안정성 확보: 정책 업데이트가 지나치게 튀지 않도록 KL divergence 제어 포함

4. 주요 기술 요소

구성 요소 설명
Group Sampling 여러 응답을 한 번에 생성하여 비교 학습 가능하도록 구성
Relative Reward 절대 점수가 아닌, 그룹 내 상대적 순위를 통한 보상
Policy Update PPO 기반 정책 최적화 알고리즘 사용
KL Penalty 원래 정책과의 차이를 제어하여 안정적 학습 유지
Scalability 다양한 입력 프롬프트와 그룹 크기에 확장 가능

5. 활용 방법 및 전망

  • 활용 사례
    • 사용자 피드백이 일관되지 않거나 수치화 어려운 상황에서 모델 튜닝
    • LLM 응답 품질 향상 (예: 대화 자연성, 명확성, 윤리성)
    • RLHF가 어려운 상황에서 대체 수단으로 사용
  • 전망
    • GRPO는 RLHF의 진화형으로 평가되며, 인간 피드백의 노이즈를 줄이고 학습 안정성을 높이는 데 기여
    • 앞으로는 다양한 그룹 기반 학습(RAG, Agent 응답 조합 등)과 결합하여 멀티 에이전트 AI의 성능 최적화에도 적용될 가능성이 큼
    • 특히 Anthropic, Google DeepMind, OpenAI 등에서 GRPO 개념 기반의 알고리즘 개발이 활발함

6. 유사 기술과의 비교

구분 GRPO PPO (기본)  DPO (Direct Preference Optimization)
피드백 방식 응답 그룹 내 상대 평가 보상 모델이 정량적 점수 부여 응답 쌍 간 선호도 비교
보상 구조 그룹 내 상대 순위 기반 절대 보상 점수 기반 로지스틱 손실 기반 선호 점수
안정성 높음 (KL 제어, 그룹 평균 사용) 중간 중간~높음
학습 복잡도 다소 높음 중간 낮음
확장성 높음 (멀티 응답, 멀티 에이전트에 유리) 보통 낮음

정보기술연구모임
https://cafe.naver.com/itpewiki

728x90

+ Recent posts