【生成AI:学習】RLHFとは？人間のフィードバックでAIを強化する仕組み：2025/9/26

AI開発

2025.09.27

はじめに
RLHFの基本ステップ
数式で見るRLHF
メリットと課題
まとめ

はじめに

ChatGPT のような対話AIが自然で安全な応答を返せる背景には、RLHF という仕組みがあります。
RLHFは「人間のフィードバックに基づく強化学習（Reinforcement Learning from Human Feedback）」の略で、AIの出力を人間が好む方向へ調整する方法です。

RLHFの基本ステップ

RLHFは大きく3段階に分けられます。

教師あり微調整（SFT）
人間が用意した模範データでベースモデルを微調整。
報酬モデルの学習（Reward Model）
複数候補の応答を人間が比較し、「どちらが良いか」をラベル付け。
→ それを学習して、応答の良し悪しをスコア化する関数 Rφ(x,y) を得る。
強化学習（PPOによる最適化）
報酬モデルを環境として扱い、ポリシー（モデル）を更新。　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　実際には PPO（Proximal Policy Optimization）を使い、学習が暴走しないように制御します。