要約
研究チームがLLMの汎用推論能力を測る新ベンチマーク「General365」を発表した。 K-12レベルの知識に限定し専門知識不要の純粋な推論力を評価、26モデルを検証。 最高性能のGemini 2.5 Proでも62.8%にとどまり、現行LLMの推論限界を浮き彫りにした。
公式ソースだけを集めたAIニュースを日本語要約でお届け
General365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks
研究チームがLLMの汎用推論能力を測る新ベンチマーク「General365」を発表した。 K-12レベルの知識に限定し専門知識不要の純粋な推論力を評価、26モデルを検証。 最高性能のGemini 2.5 Proでも62.8%にとどまり、現行LLMの推論限界を浮き彫りにした。
General365は、LLMの「汎用推論能力」を測定するために設計された新しいベンチマークです。数学・物理などの専門知識に偏りがちな既存ベンチマーク(AIME、GPQAなど)とは異なり、必要な背景知識をK-12(中高校生)レベルに限定することで、知識量ではなく純粋な推論力を分離して評価できる点が最大の特徴です。
ベンチマークは365個の手動作成シード問題と1,095個のバリアント問題から構成され、「複雑な制約」「分岐・列挙」「空間・時間推論」「再帰・バックトラッキング」「意味的干渉」「暗黙情報推論」「最適戦略」「確率・不確実性」の8カテゴリを網羅しています。
26モデルを評価した結果、最高性能はGemini-3-Proの62.8%で、大半のモデルは合格ライン(60%)を下回りました。Claude Sonnet 4.5は48.6%、GPT-5-Thinkingは58.6%、DeepSeek-V3.2-Thinkingは54.9%でした。特に「意味的干渉」と「最適戦略」カテゴリが全モデルで最大のボトルネックとなっており、LLMが常識的バイアスや長期的な戦略計画に弱いことが示されました。また、Gemini-3-Proは他の上位モデルより大幅に少ない約14kトークンでSOTA性能を達成しており、推論効率の優位性も確認されています。既存ベンチマーク(BBH、BBEH)が飽和状態にある中、General365はLLMの真の推論限界を浮き彫りにする実用的な評価基盤として貢献します。