DPO(Direct Preference Optimization, 직접 선호 최적화)

정보기술연구모임 2025. 5. 9. 08:19

2025. 5. 9. 08:19

728x90

1. 배경

대규모 언어 모델(LLM)은 사전학습과 지도학습(SFT)을 통해 기본적인 언어 처리 능력을 갖추게 되지만, 사용자 기대에 부합하는 응답을 생성하는 데는 한계가 있습니다. 기존에는 이를 극복하기 위해 RLHF(강화학습 기반 인간 피드백)를 사용했지만, 훈련 복잡도와 안정성 문제가 존재했습니다. 이를 해결하기 위한 새로운 대안으로 DPO(Direct Preference Optimization) 기법이 2023년부터 주목받고 있습니다.

2. 개념 및 정의

**DPO(Direct Preference Optimization)**는 사람의 응답 선호(preference) 정보를 직접 활용하여 언어 모델을 튜닝하는 알고리즘입니다. 기존의 강화학습 방식(RLHF) 없이도, 모델이 더 나은 응답을 선택하도록 확률 분포를 조정하는 방식으로 동작합니다.

즉, "좋은 응답 vs 나쁜 응답" 쌍을 주고, 모델이 좋은 응답을 선택하는 확률이 더 크도록 파라미터를 직접 최적화합니다.

3. 어떤 기술인가?

DPO는 다음과 같은 방식으로 구현됩니다.

선호쌍 데이터 준비: 동일한 질문에 대해 '좋은 응답'과 '나쁜 응답'이 짝지어진 데이터(Preference Pair)를 사용.
로지스틱 확률 비교: 두 응답에 대해 모델이 출력하는 확률을 비교하여, 좋은 응답의 확률이 더 높도록 유도.
Loss Function 정의: KL Divergence와 Logistic Loss를 혼합하여 최적화 함수 구성.
Backpropagation: 계산된 손실을 기반으로 모델 파라미터를 업데이트.

이 방식은 강화학습처럼 별도의 보상모델이나 샘플링 과정 없이 직접 튜닝 가능하다는 장점이 있습니다.

4. 주요 기술 요소

구성 요소	설명
Preference Pair	하나의 질문에 대해 "더 좋은 응답 vs 덜 좋은 응답"으로 구성된 쌍
Objective Function	로지스틱 기반 선호 확률 최적화 함수 사용
KL Penalty	기존 모델의 분포와 새로운 모델 간의 차이를 최소화하여 과적합 방지
Optimizer	Adam, LAMB 등 기존 딥러닝 최적화기법 사용
장점	강화학습 없이 구현 가능, 학습 안정성 높음, 튜닝 속도 빠름

5. 활용 방법 및 전망

활용 사례
- ChatGPT, Claude, Gemini 등의 최신 LLM 튜닝에 실제로 사용 중
- 사용자 선호 반영 응답 생성(예: 고객상담 챗봇, 윤리적 응답 최적화)
- Toxicity 감소, 응답 일관성 개선, 개인화된 AI 응답 제공
전망
- RLHF의 대체 또는 보완 기술로 주목받고 있으며, 2024년 이후 주요 AI 모델 튜닝 기법으로 자리 잡고 있음
- 간결한 구현 방식으로 인해 AI 스타트업 및 연구기관에서도 빠르게 도입되고 있음
- 장기적으로는 AI 모델의 지속적 사용자 피드백 학습 체계에 핵심이 될 가능성 있음

6. 유사 기술과의 비교

항목	DPO	RLHF	SFT
학습 방식	선호 기반 직접 최적화	강화학습 + 보상모델	정답(label) 기반 지도 학습
필요 데이터	좋은 응답 vs 나쁜 응답 쌍	응답과 피드백, 보상모델	입력-출력 쌍
구현 복잡도	낮음	높음	보통
안정성	높음	불안정할 수 있음	높음
학습 목적	선호도 반영	사용자 만족도 극대화	태스크 성능 최적화

정보기술연구모임
https://cafe.naver.com/itpewiki

728x90

'IT 자료 > Artificial intelligence' 카테고리의 다른 글

데이터 증류(Data Distillation) (0)	2025.05.09
합스부르크 AI (0)	2025.05.09
SFT(Supervised Fine-Tuning, 지도 학습 기반 미세조정) (0)	2025.05.09
국가 AI 컴퓨팅센터 (0)	2025.05.09
Super Agent (0)	2025.05.08

IT Language