868時間の乳幼児映像から汎用視覚AIが誕生

hf-papers 2026-04-14 05:00 ★5

868時間の乳幼児映像から汎用視覚AIが誕生

Zero-shot World Models Are Developmentally Efficient Learners

世界モデル自己教師あり学習発達認知科学ゼロショット視覚理解

要約

研究者らが子供の一人称視点映像868時間のみで訓練した自己教師あり世界モデルを発表。タスク固有の学習なしに光学フロー・深度推定・物体分割・直感物理を高精度で解く。人間の認知発達と一致する学習軌跡が判明し、AGIへの新たなアプローチとして注目される。

解説・分析

本論文はZero-shot Visual World Model（ZWM）と呼ばれる自己教師ありニューラルネットワークを提案する。学習に用いるのは、乳幼児が装着したヘッドカメラで撮影されたBabyViewデータセットの約868時間のみ。核心となる設計は「Sparse Temporally-Factored Prediction（疎な時間分解予測）」と呼ばれる仕組みで、2フレーム間で第2フレームのわずか10%のパッチのみを手がかりに全体を予測させることで、外観と動きを暗黙的に分離する。タスク実行は「最小摂動による近似因果推論」で行い、入力に微小変化を与えた際の予測差分から光学フロー・深度・物体セグメンテーション・直感物理を一つのモデルでゼロショット抽出する。実験では深度推定でGemini-1.5・GPT-4oといった大規模VLMを上回り（UniQA-3D精度90%超）、物体分割でMAsk2Formerと同水準を達成。さらにモデルの学習進行曲線が乳幼児の視覚発達段階と対応し、fMRI・電気生理データとの神経アライメントも検証された。タスク固有モデル群を単一モデルで代替できる点は実用上も大きな意義を持つ。

深掘り分析

🔒

この分析はProプラン限定です

Proプランに登録 →

原文を読む → https://huggingface.co/papers/2604.10333

← 一覧に戻る

AIフロントライン