RLHF
RLHF
RLHF
- Reinforcement Learning from Human Feedback의 약자
- OpenAI에서 chatGPT를 fine-tuning할 때 사용한 방법
- 다음과 같이 3단계로 구성됨
- Supervised Fine Tuning(SFT): 적은 양의 샘플 training set으로 fine-tuning
- Reward Model: SFT 모델이 생성한 답변들을 인간 labeler들이 랭킹을 매김. 이를 이용해 reward model 학습
- Proximal Policy Optimization(PPO): Reward model의 보상을 통해 SFT 모델을 마지막으로 학습
- 결국 인간이 개입해야 하고, 편향이 발생할 수 있다는 점은 단점