要約
新ベンチマーク「SciPredict」が物理・生物・化学33分野でLLMの科学予測能力を評価した。 フロンティアモデルの正答率は14〜26%と人間専門家の約20%に匹敵するが、信頼度と精度の相関がゼロ。 「どの予測が信頼できるか自己判断できない」という根本的限界が明らかになり、科学応用への課題を示す。
公式ソースだけを集めたAIニュースを日本語要約でお届け
SciPredict: Can LLMs Predict the Outcomes of Scientific Experiments in Natural Sciences?
新ベンチマーク「SciPredict」が物理・生物・化学33分野でLLMの科学予測能力を評価した。 フロンティアモデルの正答率は14〜26%と人間専門家の約20%に匹敵するが、信頼度と精度の相関がゼロ。 「どの予測が信頼できるか自己判断できない」という根本的限界が明らかになり、科学応用への課題を示す。
SciPredict は、LLMが自然科学の実験結果を予測できるかを評価する新ベンチマーク。2025年3月以降に発表された論文から専門家(54.5%がPhD)が7,380時間かけて405タスクを作成し、データ漏洩を防いでいる。評価対象はOpenAI(o3, o4-mini等)、Anthropic(Claude Opus/Sonnet)、Google(Gemini 2.5 Pro等)、Meta(Llama)、Alibaba(Qwen)など15モデル。最も重要な知見は「キャリブレーション(校正)の欠如」で、高信頼度の回答も低信頼度の回答も正答率が約20%と変わらない。一方、人間専門家は「予測可能」と判断したタスクで80%、「不可能」と判断したタスクで5%と明確な相関を示す。また、モデルが自ら生成した背景知識(Self-Generated BK)はむしろ性能を下げ、専門家が用意した背景知識は平均3%の改善に留まった。化学分野が最も難しく、全モデル・人間ともに低スコア。現状のLLMは「どの予測を信じるべきか」を判断できず、実験ガイダンスへの実用的な応用には課題が多いと結論付けている。