研究者ら、LLMの空間認知を体系評価するSCBenchを発表
Spatial Competence Benchmark
ベンチマーク
空間推論
LLM評価
3D理解
要約
大規模言語モデルの空間推論能力を測定する新ベンチマーク「SCBench」が提案された。
3階層の能力バケット構造と決定論的チェッカー・シミュレータによる厳密な出力検証が特徴。
LLMの弱点とされる空間認知の評価基盤として、モデル改善の指針となることが期待される。
無料登録でニュースレターを受け取る
毎週AIニュースのTop5をお届けします(無料)
無料登録 →
Proプランで深掘り分析・全アーカイブを読む
月額300円 / 年額2,400円 / Founding Member 5,000円(買い切り)
Proプランを見る →
原文を読む →
https://arxiv.org/abs/2604.09594
SCBench(Spatial Competence Benchmark)は、大規模言語・マルチモーダルモデルの「空間能力」を測定するベンチマーク。空間能力とは、環境の一貫した内部表現を保ちながら離散的な構造を推論し、制約下で行動計画を立てる能力を指す。既存の空間評価は3D変換やVQA(視覚的質問応答)などの単一プリミティブの探索に留まっていたが、SCBenchは3階層の能力バケットを設け、難易度を段階的に引き上げる。評価には「決定論的チェッカー」(正解が一意に定まる検証器)や「シミュレータベースの評価器」を用い、モデルが実行可能な出力を生成する必要がある点が特徴。実験では最先端の3モデル(具体的な名称は未公開だが frontier models)を評価したところ、能力階層を上がるにつれて精度が単調に低下することが判明。また、出力トークン上限を変えてスイープすると、精度向上は低予算域に集中し早期に飽和する傾向が見られた。失敗パターンの多くは「局所的には幾何学的に妥当だがグローバル制約を破る」ケースに集中しており、モデルが全体整合性を維持できないことが示された。タスク生成器・検証器・可視化ツールも公開されており、再現性と拡張性が高い。