空間推論
要約済み 2
-
arxiv-cs-ai 1日前 3研究者ら、LLMの空間認知を体系評価するSCBenchを発表Spatial Competence Benchmark
大規模言語モデルの空間推論能力を測定する新ベンチマーク「SCBench」が提案された。 3階層の能力バケット構造と決定論的チェッカー・シミュレータによる厳密な出力検証が特徴。 LLMの弱点とされる空間認知の評価基盤として、モデル改善の指針となることが期待される。
解説 SCBench(Spatial Competence Benchmark)は、大規模言語・マルチモーダルモデルの「空間能力」を測定するベンチマーク。空間能力とは、環境の一貫した内部表現を保ちながら離散的な構造を推論し、制約下で行動計画を立てる能力を指す。既存の空間評価は3D変換やVQA(視覚的質問応答)などの単一プリミティブの探索に留まっていたが、SCBenchは3階層の能力バケットを設け、難易度を段階的に引き上げる。評価には「決定論的チェッカー」(正解が一意に定まる検証器)や「シミュレータベースの評価器」を用い、モデルが実行可能な出力を生成する必要がある点が特徴。実験では最先端の3モデル(具体的な名称は未公開だが frontier models)を評価したところ、能力階層を上がるにつれて精度が単調に低下することが判明。また、出力トークン上限を変えてスイープすると、精度向上は低予算域に集中し早期に飽和する傾向が見られた。失敗パターンの多くは「局所的には幾何学的に妥当だがグローバル制約を破る」ケースに集中しており、モデルが全体整合性を維持できないことが示された。タスク生成器・検証器・可視化ツールも公開されており、再現性と拡張性が高い。 -
hf-papers 1日前 4カメラ制御動画生成にVLMの空間推論を転用、25.7%改善CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation
研究チームがビジョン言語モデルの空間推論能力をカメラ制御動画生成へ応用するCT-1を発表。 ウェーブレット正則化損失と4700万フレーム超のCT-200Kデータセットで従来比25.7%性能向上を達成。 複雑なカメラ軌跡生成の精度向上により、映像制作・シミュレーション分野への応用拡大が期待される。
解説 CT-1(Camera Transformer 1)は、カメラの動きを柔軟かつ物理的に自然に制御した動画生成を実現する新モデルです。既存手法の課題として、テキストプロンプトからの曖昧なカメラ制御や、手動でのカメラ軌跡パラメータ入力の煩雑さがありました。CT-1はVision-Language Module(画像と言語を統合処理するモジュール)とDiffusion Transformer(拡散モデルベースの生成器)を組み合わせ、言語・視覚情報から正確なカメラ軌跡を推定します。特筆すべきはウェーブレット変換を使った正則化損失で、周波数領域でカメラ動作の複雑な分布を効率よく学習できる点です。さらに、4700万フレーム以上を含む大規模データセットCT-200Kを独自に構築し、学習基盤を強化しています。実験ではカメラ制御精度において従来手法を25.7%上回り、映画・VR・シミュレーション等の自動化パイプラインへの応用が期待されます。GPT-4oやGeminiのような汎用VLMとは異なり、カメラ軌跡推定に特化した設計が高精度を実現しています。