LLM評価
要約済み 7
-
hf-papers 2時間前 3推論特化LLM、交渉シミュレで逆効果と判明When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation
研究者らが推論特化型LLMをマルチエージェント交渉シミュレーションに用いると人間行動の再現性が低下することを実証した。 「最適解探索」に最適化された推論モデルは「人間的行動のサンプリング」と目的が相反し、通常LLMより非人間的な挙動を示す。 社会科学シミュレーションや交渉AIの設計において、モデル選定の重要性を再考させる知見として注目される。
解説 本論文は、o1やDeepSeek-R1などの推論強化型LLM(Reasoning Model)をマルチエージェント交渉シミュレーションに用いると、人間の行動再現精度が低下するという逆説的な現象を体系的に分析する。著者らはこの問題を「Solver-Sampler Mismatch(ソルバー・サンプラー不一致)」と命名する。推論モデルは数学・論理パズルに見られる「唯一の最適解を求める」タスク(Solver)に最適化されているが、交渉シミュレーションでは「人間が示す多様な行動分布を忠実に再現する」(Sampler)ことが求められる。この二つの目的は根本的に相容れない。実験では、GPT-4oやClaudeなどの標準的LLMに比べ、推論モデルは交渉エージェントとして一辺倒な妥協点収束や非人間的な意思決定パターンを示した。また、人間被験者データとの行動分布比較でも推論モデルの乖離が顕著だった。この知見は、社会科学シミュレーション・経済実験・ゲーム理論研究においてLLMエージェントを使う際のモデル選択に重要な指針を与える。単に「賢い」モデルが良いシミュレーターになるとは限らないという設計上の示唆は、マルチエージェントシステム構築者にとって実用的価値が高い。 -
hf-papers 1日前 4LLM、科学実験の結果予測で人間専門家と同水準SciPredict: Can LLMs Predict the Outcomes of Scientific Experiments in Natural Sciences?
新ベンチマーク「SciPredict」が物理・生物・化学33分野でLLMの科学予測能力を評価した。 フロンティアモデルの正答率は14〜26%と人間専門家の約20%に匹敵するが、信頼度と精度の相関がゼロ。 「どの予測が信頼できるか自己判断できない」という根本的限界が明らかになり、科学応用への課題を示す。
解説 SciPredict は、LLMが自然科学の実験結果を予測できるかを評価する新ベンチマーク。2025年3月以降に発表された論文から専門家(54.5%がPhD)が7,380時間かけて405タスクを作成し、データ漏洩を防いでいる。評価対象はOpenAI(o3, o4-mini等)、Anthropic(Claude Opus/Sonnet)、Google(Gemini 2.5 Pro等)、Meta(Llama)、Alibaba(Qwen)など15モデル。最も重要な知見は「キャリブレーション(校正)の欠如」で、高信頼度の回答も低信頼度の回答も正答率が約20%と変わらない。一方、人間専門家は「予測可能」と判断したタスクで80%、「不可能」と判断したタスクで5%と明確な相関を示す。また、モデルが自ら生成した背景知識(Self-Generated BK)はむしろ性能を下げ、専門家が用意した背景知識は平均3%の改善に留まった。化学分野が最も難しく、全モデル・人間ともに低スコア。現状のLLMは「どの予測を信じるべきか」を判断できず、実験ガイダンスへの実用的な応用には課題が多いと結論付けている。 -
arxiv-cs-ai 1日前 3研究者ら、LLMの空間認知を体系評価するSCBenchを発表Spatial Competence Benchmark
大規模言語モデルの空間推論能力を測定する新ベンチマーク「SCBench」が提案された。 3階層の能力バケット構造と決定論的チェッカー・シミュレータによる厳密な出力検証が特徴。 LLMの弱点とされる空間認知の評価基盤として、モデル改善の指針となることが期待される。
解説 SCBench(Spatial Competence Benchmark)は、大規模言語・マルチモーダルモデルの「空間能力」を測定するベンチマーク。空間能力とは、環境の一貫した内部表現を保ちながら離散的な構造を推論し、制約下で行動計画を立てる能力を指す。既存の空間評価は3D変換やVQA(視覚的質問応答)などの単一プリミティブの探索に留まっていたが、SCBenchは3階層の能力バケットを設け、難易度を段階的に引き上げる。評価には「決定論的チェッカー」(正解が一意に定まる検証器)や「シミュレータベースの評価器」を用い、モデルが実行可能な出力を生成する必要がある点が特徴。実験では最先端の3モデル(具体的な名称は未公開だが frontier models)を評価したところ、能力階層を上がるにつれて精度が単調に低下することが判明。また、出力トークン上限を変えてスイープすると、精度向上は低予算域に集中し早期に飽和する傾向が見られた。失敗パターンの多くは「局所的には幾何学的に妥当だがグローバル制約を破る」ケースに集中しており、モデルが全体整合性を維持できないことが示された。タスク生成器・検証器・可視化ツールも公開されており、再現性と拡張性が高い。 -
arxiv-cs-ai 1日前 2LLM不確かさ評価、中性論理の限界をテンソルで克服From Scalars to Tensors: Declared Losses Recover Epistemic Distinctions That Neutrosophic Scalars Cannot Express
研究者がLLM不確かさ評価の中性論理スカラーに重大な欠陥を発見した テンソルと宣言損失で逆説・無知・偶発性の「吸収問題」を解決し認識論的区別を回復 LLMの信頼性・不確かさ定量化の精度向上に貢献する可能性がある
解説 本論文は中性論理(Neutrosophic Logic)をLLMの不確かさ評価に適用した研究の拡張である。中性論理とは真値T・不確定性I・偽値Fを独立した次元として扱い、合計が1を超える「ハイパー真値」(T+I+F>1.0)を許容する論理体系。先行研究では複雑な認識論的事例の35%でハイパー真値が観察されたが、本研究ではAnthropicやMeta、DeepSeekなど5社5モデルに実験を拡大し、84%の事例でハイパー真値が確認された。より重要な貢献は「吸収問題」の発見である。スカラーT/I/Fでは、逆説(contradictory)・無知(ignorance)・偶発的不確かさ(contingency)の3つの本質的に異なる認識状態が全てT=0, I=1, F=0という同一の出力に収束してしまう。この欠陥を克服するため、著者らはスカラーをテンソル(多次元行列)に拡張し「宣言損失(declared losses)」という手法で各状態を区別可能にした。ただし提案手法の実用的検証は限定的で、理論的枠組みの提示に留まる部分が多い。 -
hf-papers 1日前 4新ベンチマークGeneral365、最強LLMでも正答率62%止まりGeneral365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks
研究チームがLLMの汎用推論能力を測る新ベンチマーク「General365」を発表した。 K-12レベルの知識に限定し専門知識不要の純粋な推論力を評価、26モデルを検証。 最高性能のGemini 2.5 Proでも62.8%にとどまり、現行LLMの推論限界を浮き彫りにした。
解説 General365は、LLMの「汎用推論能力」を測定するために設計された新しいベンチマークです。数学・物理などの専門知識に偏りがちな既存ベンチマーク(AIME、GPQAなど)とは異なり、必要な背景知識をK-12(中高校生)レベルに限定することで、知識量ではなく純粋な推論力を分離して評価できる点が最大の特徴です。 ベンチマークは365個の手動作成シード問題と1,095個のバリアント問題から構成され、「複雑な制約」「分岐・列挙」「空間・時間推論」「再帰・バックトラッキング」「意味的干渉」「暗黙情報推論」「最適戦略」「確率・不確実性」の8カテゴリを網羅しています。 26モデルを評価した結果、最高性能はGemini-3-Proの62.8%で、大半のモデルは合格ライン(60%)を下回りました。Claude Sonnet 4.5は48.6%、GPT-5-Thinkingは58.6%、DeepSeek-V3.2-Thinkingは54.9%でした。特に「意味的干渉」と「最適戦略」カテゴリが全モデルで最大のボトルネックとなっており、LLMが常識的バイアスや長期的な戦略計画に弱いことが示されました。また、Gemini-3-Proは他の上位モデルより大幅に少ない約14kトークンでSOTA性能を達成しており、推論効率の優位性も確認されています。既存ベンチマーク(BBH、BBEH)が飽和状態にある中、General365はLLMの真の推論限界を浮き彫りにする実用的な評価基盤として貢献します。 -
arxiv-cs-ai 2日前 3量子コード生成LLMの統一ベンチマーク「QuanBench+」登場QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation
研究チームがQiskit・PennyLane・Cirq対応の統一量子コード生成ベンチマーク「QuanBench+」を発表。 42タスクでLLMの性能をPass@1/5とKLダイバージェンスで評価、フィードバック修復込みで最大83.3%を達成。 量子コンピューティング×LLMの実用化に向け、マルチフレームワーク対応の課題解決に貢献。
解説 QuanBench+は、LLMによる量子プログラム生成を評価するための統一ベンチマークフレームワーク。従来の評価は単一フレームワーク(主にQiskit)に限定されており、モデルが「量子アルゴリズムを理解しているのか」「フレームワークの構文に慣れているだけなのか」を区別できない問題があった。本研究はQiskit・PennyLane・Cirqという主要3フレームワークにまたがる42の対応タスクを設計し、量子アルゴリズム実装・ゲート分解・状態準備という3カテゴリをカバーする。評価指標はPass@1(1回で正解する確率)とPass@5(5回試行中少なくとも1回正解する確率)を採用し、確率的出力にはKLダイバージェンス(確率分布間の差異を測る指標)による許容判定を導入している。また、実行エラーや誤答後にモデルが自己修正する「フィードバック修復」後のPass@1も計測。ワンショット最高スコアはQiskit 59.5%・Cirq 54.8%・PennyLane 42.9%で、修復後は83.3%・76.2%・66.7%まで向上。GPT-4oやClaudeなど主要モデルを横断評価しており、フレームワーク間での性能ギャップが明確に示された。量子ソフトウェア開発支援AIの実用化に向けた重要な評価基盤となる。 -
arxiv-cs-ai 2日前 4LLMの数学推論、入力変形で最大100%精度低下と判明Robust Reasoning Benchmark
研究チームが14種の入力摂動手法でLLMの推論頑健性を評価するベンチマークを公開した。 AIME 2024を改変したテストで8モデルを検証し、オープンウェイト系は平均55%・最大100%の精度崩壊を確認。 高精度ベンチマーク結果の信頼性に疑問を投げかけ、堅牢な評価手法の必要性を示した。
解説 本論文は、LLM(大規模言語モデル)の数学的推論能力が「標準的なテキストフォーマット」に過剰適合していることを体系的に示す研究です。著者らは14種類の摂動(perturbation)技法—例えば数式の表記変換、記号の置き換え、問題文の言い回し変更など—からなるパイプラインを構築し、AIME 2024データセットに適用してロバストネス評価用ベンチマークを作成しました。 評価対象は最先端の8モデル。フロンティアモデル(GPT-4oやClaudeシリーズ等のクローズドモデル)は摂動に対してある程度の耐性を示した一方、7Bから120Bパラメータのオープンウェイト推論モデル群は壊滅的な精度低下(平均55%・一部摂動で100%低下)を記録しました。 さらに「ワーキングメモリ容量」の影響を切り離すため、単一コンテキストウィンドウ内で複数の無摂動問題を連続して解かせる実験も実施。これにより、パース失敗(入力の機械的な読み取り誤り)と下流の推論失敗を分離しています。 実用上の意義は大きく、オープンソースモデルの実世界展開における脆弱性を定量化し、今後の訓練・評価設計に対して具体的な改善方向性を示している点が重要です。