要約
自動運転向け新フレームワーク「RAD-2」が、拡散モデルとRLを組み合わせた生成器-識別器構造を発表。 時間一貫性を活用したTC-GRPOで報酬の信用割り当て問題を解消し、既存拡散プランナー比で衝突率56%超削減を達成。 安全性と走行効率を両立する手法として、自動運転AIの実用化加速に貢献する可能性がある。
公式ソースだけを集めたAI最前線(日本語要約)
RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework
自動運転向け新フレームワーク「RAD-2」が、拡散モデルとRLを組み合わせた生成器-識別器構造を発表。 時間一貫性を活用したTC-GRPOで報酬の信用割り当て問題を解消し、既存拡散プランナー比で衝突率56%超削減を達成。 安全性と走行効率を両立する手法として、自動運転AIの実用化加速に貢献する可能性がある。
RAD-2は自動運転の経路計画において、拡散モデルベースの生成器とRL訓練済み識別器を統合したフレームワーク。生成器が多様な軌跡候補を生成し、識別器がクローズドループ評価に基づいて最適候補をリランキングする設計により、高次元軌跡空間に直接RLを適用する困難を回避する。主要技術として、時間的一貫性のあるサンプリングで報酬の信用割り当てを改善するTC-GRPO(時間一貫グループ相対方策最適化)と、縦方向成分のみを最適化して生成器分布を高報酬領域へ誘導するOGO(オンポリシー生成器最適化)を提案。また高スループットのBEV特徴空間クローズドループシミュレーター「BEV-Warp」を開発し大規模RL訓練を実現。評価ではResAD等の拡散ベース手法と比べ衝突率56%超削減、Senna-2やRAD等最新手法を上回り、オープンループでもADE=0.208m/FDE=0.553mと最小値を記録。実車デプロイでも安全性・走行滑らかさの向上を確認した。