行動認識
要約済み 1
-
hf-papers 2日前 4VLAモデル評価ベンチマーク「LARY」登場、汎用視覚モデルが専用ロボットモデルを凌駕LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment
研究チームがVLAモデルの潜在行動表現を意味・物理の2軸で統一評価するベンチマーク「LARY」を発表。 汎用視覚基盤モデルが専用ロボット学習モデルを分類精度で大幅に上回る結果が示された。 ロボット学習における意味レベル抽象化の有効性を定量的に示し、評価基準の標準化に貢献。
解説 LARYは、大規模人間動画から学習した潜在行動表現(Latent Action)を統一的に評価する初のベンチマークである。評価は「意味的行動分類(Top-1精度)」と「物理制御回帰(MSE)」の2軸で構成され、120万本超の動画・62万枚の画像ペア・59.5万の運動軌跡・151行動カテゴリを含む大規模データセットを整備した。実験ではV-JEPA 2やDINOv3といった汎用視覚基盤モデルが分類精度76.62%を達成し、専用ロボット学習モデル(LAPA等、約20%)を大幅に凌駕。物理制御回帰でも潜在空間ベースのエンコーダはピクセル再構成ベース手法(FLUX、Wan等)に比べMSEで約50%改善した。コードブックサイズ・系列長・潜在次元のアブレーション実験から最適構成も特定されている。本研究は「希少なロボットデータで行動空間を直接学習する」従来手法から「汎用視覚表現を基盤として行動整合を行う」パラダイムへの転換を強く示唆しており、VLA研究の方向性に大きな示唆を与える。