生物研究AIを本格評価、LABBench2が公開

arxiv-cs-ai 2026-04-14 04:00 ★3

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

ベンチマーク生物学 AIエージェント科学研究評価指標

研究者チームがAIの生物研究能力を測る新ベンチマーク「LABBench2」を公開した。約1,900タスクで構成され、知識暗記ではなく実際の研究作業遂行能力を定量評価。 AIによる科学的発見の加速を目指す開発者・研究機関にとって重要な指標となる。

LABBench2は、AIが生物学研究において実際にどれだけ有用な作業を遂行できるかを測定するために設計された評価ベンチマークの改良版です。前身であるLAB-Bench（Language Agent Biology Benchmark）を発展させ、約1,900タスクを収録しています。

従来のベンチマークが知識の暗記や単純な推論能力の測定に留まっていたのに対し、LABBench2は「実際の研究作業」の遂行能力に焦点を当てています。これは、文献検索・プロトコル設計・データ解析・仮説生成など、研究者が日常的に行う作業を模した実践的なタスク群を含むことを意味します。

AIの科学分野への応用としては、科学データへの基盤モデル訓練、エージェント型自律仮説生成システム、AI駆動型自律ラボ（ロボット実験設備と連携したAI）など多岐にわたっており、これらの進捗を適切に計測する必要性が高まっています。

GPT-4oやClaude、Geminiなどの大規模言語モデル（LLM）の比較評価に活用できる点で研究者・開発者にとって実用的な意義があります。AIによる科学加速を目指す研究コミュニティに対し、より現実的な能力評価の基準を提供する取り組みとして注目されます。

AIフロントライン