手続き的生成
要約済み 1
-
hf-papers 3日前 3LLM科学推論ベンチマーク、最高精度45%未満と判明InfiniteScienceGym: An Unbounded, Procedurally-Generated Benchmark for Scientific Analysis
研究者らが手続き生成型の科学推論ベンチマーク「InfiniteScienceGym」を発表。 シードから科学リポジトリとQAを自動生成し、回答不能問題も含む無限拡張可能な設計。 既存LLMの正答率は45%未満で、回答不能問題の識別が最大の弱点として浮き彫りに。
解説 InfiniteScienceGymは、LLMが実験データから推論する能力を評価するための手続き的生成ベンチマークである。既存の評価データセットはすでに公開された研究論文から構築されるため、出版バイアス(研究結果が良好な論文のみが出版される偏り)や既知知識バイアス、ラベルノイズ、大容量ストレージ問題を内包している。本手法ではシード値から決定的にリポジトリ構造・ファイル・表形式データを生成し、回答可能な問題と回答不能な問題の両方を自動生成する点が特徴的である。これによりモデルの証拠基盤推論、回答棄権(根拠なく回答することを避ける能力)、ツール活用推論を制御環境下で評価できる。GPT-4o、Claude、Geminiなどを含む商用・オープンウェイトモデルを評価した結果、全モデルが全体精度45%未満に留まった。特に回答不能問題の識別が最大の弱点として判明した。また、高性能モデルほどトークン消費量が多いのではなく、ツールをより効果的に活用する傾向があることが示された。静的な大規模データセットを配布せずに無制限の評価インスタンスを生成できる点は実用上も重要な貢献である。