ツール活用
要約済み 1
-
hf-papers 2日前 3LLM科学推論の新ベンチマーク、最高精度45%止まりと判明InfiniteScienceGym: An Unbounded, Procedurally-Generated Benchmark for Scientific Analysis
手続き的生成で無限拡張できるLLM科学分析ベンチマーク「InfiniteScienceGym」が発表された。 シードからリポジトリ・表・QAを自動生成し、回答不能問題も含む厳格な評価が可能。 既存モデルは全て45%以下にとどまり、回答拒否の判断力が最大の課題と浮き彫りになった。
解説 InfiniteScienceGymは、LLMの科学的データ解析能力を評価するための手続き的生成ベンチマーク。既存の科学ベンチマークは公開論文や人手アノテーションに依存するため、出版バイアス(掲載されやすい結果への偏り)、既知知識バイアス(訓練データ汚染)、ラベルノイズ、大容量ストレージという4つの問題を抱える。本手法はシード値を入力とし、現実的なディレクトリ構造・ファイル・表形式データを持つ自己完結型の模擬科学リポジトリを決定論的に生成する。さらに特権的QAジェネレータが「回答可能な質問」と「回答不能な質問」の両方を正解付きで生成するため、証拠に基づく推論能力・適切な回答拒否能力・ツール活用能力を制御された環境で評価できる。評価実験では、独自モデル・オープンウェイトモデルを問わず全モデルが全体精度45%以下に留まり、特に回答不能質問の識別が苦手であることが判明した。また能力が高いモデルはトークン消費量を増やすのではなくツールをより効果的に活用する傾向が示された。静的な大規模コーパスの配布が不要な点も実用上の利点。