要約
LLM強化学習における繰り返しエラーを検出・抑制する新手法「MEDS」が提案された。 層ごとのロジットを「推論指紋」として保存し、密度ベースクラスタリングで頻出エラーパターンを特定・ペナルティ強化する。 既存RL手法を上回る性能を達成し、LLMの訓練効率と探索多様性の向上に貢献する可能性がある。
公式ソースだけを集めたAIニュースを日本語要約でお届け
The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping
LLM強化学習における繰り返しエラーを検出・抑制する新手法「MEDS」が提案された。 層ごとのロジットを「推論指紋」として保存し、密度ベースクラスタリングで頻出エラーパターンを特定・ペナルティ強化する。 既存RL手法を上回る性能を達成し、LLMの訓練効率と探索多様性の向上に貢献する可能性がある。
MEDSは、LLMの強化学習(RL)訓練において「同じ誤りを繰り返す」という失敗モードを解決する記憶強化型報酬整形フレームワークである。従来のエントロピー正則化は現在の方策の確率分布に乱数性を与えるだけで、過去のロールアウト(試行)で繰り返された特定の誤りパターンを明示的に抑制できない。MEDSは各ロールアウト時に中間層のロジット(出力重み)を「推論指紋」として蓄積し、密度ベースクラスタリング(DBSCAN等)で頻出する誤りクラスタを特定する。そのクラスタへの割り当て頻度に応じてペナルティを動的に強化することで、モデルが同じ失敗パターンに陥ることを抑制し、より広い探索空間をカバーさせる。実験では5つのデータセット・3種のベースモデルで評価し、pass@1で最大4.13ポイント、pass@128で最大4.37ポイントの改善を達成した。アーキテクチャ変更不要で既存のRL訓練パイプラインに統合できる点が実用的である。GPT-4oやClaudeとの直接比較は論文中に記載されていないが、ベースモデルに対する一貫した性能向上が示されており、コード生成・数学推論タスクでの適用が期待される。