研究者ら、LLMの空間認知を体系評価するSCBenchを発表

arxiv-cs-ai 2026-04-14 04:00 ★3

研究者ら、LLMの空間認知を体系評価するSCBenchを発表

Spatial Competence Benchmark

ベンチマーク空間推論 LLM評価 3D理解

要約

大規模言語モデルの空間推論能力を測定する新ベンチマーク「SCBench」が提案された。 3階層の能力バケット構造と決定論的チェッカー・シミュレータによる厳密な出力検証が特徴。 LLMの弱点とされる空間認知の評価基盤として、モデル改善の指針となることが期待される。

解説・分析

SCBench（Spatial Competence Benchmark）は、大規模言語・マルチモーダルモデルの「空間能力」を測定するベンチマーク。空間能力とは、環境の一貫した内部表現を保ちながら離散的な構造を推論し、制約下で行動計画を立てる能力を指す。既存の空間評価は3D変換やVQA（視覚的質問応答）などの単一プリミティブの探索に留まっていたが、SCBenchは3階層の能力バケットを設け、難易度を段階的に引き上げる。評価には「決定論的チェッカー」（正解が一意に定まる検証器）や「シミュレータベースの評価器」を用い、モデルが実行可能な出力を生成する必要がある点が特徴。実験では最先端の3モデル（具体的な名称は未公開だが frontier models）を評価したところ、能力階層を上がるにつれて精度が単調に低下することが判明。また、出力トークン上限を変えてスイープすると、精度向上は低予算域に集中し早期に飽和する傾向が見られた。失敗パターンの多くは「局所的には幾何学的に妥当だがグローバル制約を破る」ケースに集中しており、モデルが全体整合性を維持できないことが示された。タスク生成器・検証器・可視化ツールも公開されており、再現性と拡張性が高い。

AIフロントライン

研究者ら、LLMの空間認知を体系評価するSCBenchを発表

要約

解説・分析

関連する読者