3D理解
要約済み 1
-
arxiv-cs-ai 1日前 3研究者ら、LLMの空間認知を体系評価するSCBenchを発表Spatial Competence Benchmark
大規模言語モデルの空間推論能力を測定する新ベンチマーク「SCBench」が提案された。 3階層の能力バケット構造と決定論的チェッカー・シミュレータによる厳密な出力検証が特徴。 LLMの弱点とされる空間認知の評価基盤として、モデル改善の指針となることが期待される。
解説 SCBench(Spatial Competence Benchmark)は、大規模言語・マルチモーダルモデルの「空間能力」を測定するベンチマーク。空間能力とは、環境の一貫した内部表現を保ちながら離散的な構造を推論し、制約下で行動計画を立てる能力を指す。既存の空間評価は3D変換やVQA(視覚的質問応答)などの単一プリミティブの探索に留まっていたが、SCBenchは3階層の能力バケットを設け、難易度を段階的に引き上げる。評価には「決定論的チェッカー」(正解が一意に定まる検証器)や「シミュレータベースの評価器」を用い、モデルが実行可能な出力を生成する必要がある点が特徴。実験では最先端の3モデル(具体的な名称は未公開だが frontier models)を評価したところ、能力階層を上がるにつれて精度が単調に低下することが判明。また、出力トークン上限を変えてスイープすると、精度向上は低予算域に集中し早期に飽和する傾向が見られた。失敗パターンの多くは「局所的には幾何学的に妥当だがグローバル制約を破る」ケースに集中しており、モデルが全体整合性を維持できないことが示された。タスク生成器・検証器・可視化ツールも公開されており、再現性と拡張性が高い。