階層制御
要約済み 1
-
hf-papers 3時間前 4新階層型ロボットシステム、π₀比42.7%向上を達成HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System
視覚接地を活用した階層型ロボット操作システム「HiVLA」が論文で発表された。 VLMプランナーとDiT行動エキスパートをバウンディングボックスで接続し、視覚認識と動作生成を明確に分離。 RoboTwin 2.0ベンチマークで平均成功率83.3%を記録し、既存手法π₀を大幅に上回った。
解説 HiVLAはVLMによる高レベル意味計画とDiT(拡散Transformer)による低レベル運動制御を明示的に分離した階層型VLAフレームワークである。VLMプランナー(Qwen3-VL 8B)がタスクをサブタスクに分解し、バウンディングボックスで対象物を視覚的に接地する構造をとる。低レベル側では「カスケード型クロスアテンション」機構を各DiTブロックに組み込み、①グローバルシーン文脈、②高解像度ローカルクロップ(絶対位置PE付き)、③サブタスク言語埋め込みを粗から細へ順次統合して精密動作を生成する。RoboTwin 2.0ベンチマークでは平均成功率83.3%を達成し、π₀比42.7%・H-RDT比17.7%の絶対改善を示した。GPT-4oのゼロショットサブタスク精度は42.85%に留まるのに対し、ドメイン特化ファインチューニング済み8Bモデルは98.57%に達しており、軽量モデルの特化訓練の有効性を実証。分離アーキテクチャはVLMの破滅的忘却を防ぎつつ各コンポーネントの独立改善を可能にし、散乱環境での小物操作や長期スキル合成タスクに特に優れる。