LLM後学習
要約済み 1
-
hf-papers 4日前 3LLM強化学習、経験リプレイで推論コストを大幅削減Efficient RL Training for LLMs with Experience Replay
研究チームがLLMのRLポスト学習における経験リプレイの有効性を系統的に実証した。 厳密なオンポリシーサンプリングは生成コストが高い場合に非効率であることが判明、リプレイバッファ導入で推論計算を大幅削減しつつ性能を維持・向上。 RL学習の計算コスト削減に直結する知見として、LLM開発現場への即時応用が期待される。
解説 本論文は、一般的な強化学習で古くから使われる「経験リプレイ」——過去の生成結果(ロールアウト)をバッファに蓄積し、複数回の学習に再利用する技法——をLLMのRLポスト学習(RLHF・GRPOなど)へ適用する研究である。従来のLLM後学習では「最新のオンポリシーデータが不可欠」という通念が支配的で、経験リプレイはほぼ未探索だった。著者らはこの前提に異議を唱え、リプレイバッファの最適設計を「古いデータによる分散増大(staleness)」「サンプル多様性」「生成の高い計算コスト」の三者トレードオフとして定式化した。実験では、適切に設計されたリプレイバッファにより、推論(rollout生成)の計算量を大幅削減——場合によっては生成頻度を4分の1以下に——しながら、最終的なモデル性能を維持もしくは向上できることを実証した。さらに、方策エントロピー(出力の多様性)も保たれることを確認している。GPT-4oやClaudeとの直接比較ではなく、リプレイバッファあり/なしの比較研究だが、LLM訓練において生成コストが支配的なボトルネックとなる実環境で、学習効率を劇的に改善できる可能性を示した点で実用的意義は高い。