ツール活用

1件の記事

要約済み 1

hf-papers 2日前 3
LLM科学推論の新ベンチマーク、最高精度45%止まりと判明
InfiniteScienceGym: An Unbounded, Procedurally-Generated Benchmark for Scientific Analysis

手続き的生成で無限拡張できるLLM科学分析ベンチマーク「InfiniteScienceGym」が発表された。シードからリポジトリ・表・QAを自動生成し、回答不能問題も含む厳格な評価が可能。既存モデルは全て45%以下にとどまり、回答拒否の判断力が最大の課題と浮き彫りになった。

解説 InfiniteScienceGymは、LLMの科学的データ解析能力を評価するための手続き的生成ベンチマーク。既存の科学ベンチマークは公開論文や人手アノテーションに依存するため、出版バイアス（掲載されやすい結果への偏り）、既知知識バイアス（訓練データ汚染）、ラベルノイズ、大容量ストレージという4つの問題を抱える。本手法はシード値を入力とし、現実的なディレクトリ構造・ファイル・表形式データを持つ自己完結型の模擬科学リポジトリを決定論的に生成する。さらに特権的QAジェネレータが「回答可能な質問」と「回答不能な質問」の両方を正解付きで生成するため、証拠に基づく推論能力・適切な回答拒否能力・ツール活用能力を制御された環境で評価できる。評価実験では、独自モデル・オープンウェイトモデルを問わず全モデルが全体精度45%以下に留まり、特に回答不能質問の識別が苦手であることが判明した。また能力が高いモデルはトークン消費量を増やすのではなくツールをより効果的に活用する傾向が示された。静的な大規模コーパスの配布が不要な点も実用上の利点。

ベンチマーク科学推論 LLM評価手続き的生成ツール活用