表現学習
要約済み 2
-
arxiv-cs-ai 5時間前 3勾配エンタングル問題を解消する新手法EAGCが登場The Devil Is in Gradient Entanglement: Energy-Aware Gradient Coordinator for Robust Generalized Category Discovery
未知クラスを含むデータ分類タスク(GCD)で、最適化の競合「勾配エンタングルメント」を定量分析し解決策を提案。 アンカーモデルによる勾配整合とエネルギー認識弾性射影の2モジュール構成で、既知・未知クラスを同時改善。 既存手法を複数ベンチマークで上回る性能を達成し、プラグイン型で既存モデルへの統合も容易。
解説 一般化カテゴリ発見(GCD)は、ラベル付きデータを活用しながら、既知クラスと未知クラスの両方を含む未ラベルデータを分類するタスクである。多くの手法が教師あり損失と教師なし損失を同時最適化するが、本研究はその際に生じる「勾配エンタングルメント」(gradient entanglement)という問題を定量的に特定した点が新しい。具体的には、(1) 教師なし勾配が教師あり勾配を歪め、既知クラスの識別性が低下する、(2) 既知クラスと新規クラスの表現部分空間が重なり、新規クラスの分離性が悪化する、という2つの悪影響が示される。提案手法EAGCはこれを解消するプラグイン型モジュールで、アンカーモデルで基準勾配方向を固定するAGA(Anchor-based Gradient Alignment)と、クラス間エネルギー配分に応じて勾配を射影調整するEEP(Energy-aware Elastic Projection)から構成される。既存のGCDフレームワークに追加実装可能な設計で、CIFAR-100、ImageNet-100、Herbarium-19などの主要ベンチマークで従来手法を上回る結果を達成。GCDの限界を勾配レベルで体系的に分析・解決した実用的な研究である。 -
hf-papers 2日前 4VLAモデル評価ベンチマーク「LARY」登場、汎用視覚モデルが専用ロボットモデルを凌駕LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment
研究チームがVLAモデルの潜在行動表現を意味・物理の2軸で統一評価するベンチマーク「LARY」を発表。 汎用視覚基盤モデルが専用ロボット学習モデルを分類精度で大幅に上回る結果が示された。 ロボット学習における意味レベル抽象化の有効性を定量的に示し、評価基準の標準化に貢献。
解説 LARYは、大規模人間動画から学習した潜在行動表現(Latent Action)を統一的に評価する初のベンチマークである。評価は「意味的行動分類(Top-1精度)」と「物理制御回帰(MSE)」の2軸で構成され、120万本超の動画・62万枚の画像ペア・59.5万の運動軌跡・151行動カテゴリを含む大規模データセットを整備した。実験ではV-JEPA 2やDINOv3といった汎用視覚基盤モデルが分類精度76.62%を達成し、専用ロボット学習モデル(LAPA等、約20%)を大幅に凌駕。物理制御回帰でも潜在空間ベースのエンコーダはピクセル再構成ベース手法(FLUX、Wan等)に比べMSEで約50%改善した。コードブックサイズ・系列長・潜在次元のアブレーション実験から最適構成も特定されている。本研究は「希少なロボットデータで行動空間を直接学習する」従来手法から「汎用視覚表現を基盤として行動整合を行う」パラダイムへの転換を強く示唆しており、VLA研究の方向性に大きな示唆を与える。