NVIDIAが人型ロボット向けVLAモデル「GR00T N1.7」を公開

hf-blog 2026-04-17 15:45 ★4

NVIDIAが人型ロボット向けVLAモデル「GR00T N1.7」を公開

NVIDIA Isaac GR00T N1.7: Open Reasoning VLA Model for Humanoid Robots

ロボティクス VLAモデル具身知能オープンモデル

要約

NVIDIAが人型ロボット制御向けのオープンVLAモデル「GR00T N1.7」を公開した。 2万時間超の一人称動画で訓練し、推論と運動制御を分離する「Action Cascade」構造を採用、巧緻操作性能が倍増。オープンモデルとして公開されることで、ロボット研究・開発の民主化が加速する可能性がある。

解説・分析

NVIDIA Isaac GR00T N1.7は、人型ロボット向けの3Bパラメータ規模のVision-Language-Action（VLA）モデルで、商用利用可能なオープンモデルとして公開された。最大の特徴は「EgoScale」と呼ばれる訓練手法で、ロボットの遠隔操作データではなく、人間が装着した一人称視点カメラ（エゴセントリック動画）20,854時間分を活用する点にある。製造・小売・医療・家庭など20以上のタスクカテゴリをカバーしており、データ量を1,000時間から20,000時間にスケールさせると巧緻操作タスクの平均完了率が2倍以上に向上するというロボット器用さに関するスケーリング則を初めて示した。アーキテクチャは「Action Cascade」と称する二系統構造を採用。上位系（System 2）はCosmos-Reason2-2BをバックボーンとするVLMが画像・言語を処理してタスク分解と多段階推論を行い、下位系（System 1）は32層の拡散トランスフォーマー（DiT）がVLM出力とロボットの固有感覚情報を受け取り、リアルタイムで精密なモーターコマンドを生成する。22自由度ハンドでの部品組立など接触の多いタスクにも対応。前世代N1.6との後方互換性を保ちながら、Unitree G1等の主要プラットフォームへのドロップイン導入が可能な点で産業展開上の意義が大きい。

深掘り分析

🔒

この分析はProプラン限定です

Proプランに登録 →

原文を読む → https://huggingface.co/blog/nvidia/gr00t-n1-7

← 一覧に戻る

AIフロントライン