科学研究

arxiv-cs-ai 1日前 3

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

研究者チームがAIの生物研究能力を測る新ベンチマーク「LABBench2」を公開した。約1,900タスクで構成され、知識暗記ではなく実際の研究作業遂行能力を定量評価。 AIによる科学的発見の加速を目指す開発者・研究機関にとって重要な指標となる。

解説 LABBench2は、AIが生物学研究において実際にどれだけ有用な作業を遂行できるかを測定するために設計された評価ベンチマークの改良版です。前身であるLAB-Bench（Language Agent Biology Benchmark）を発展させ、約1,900タスクを収録しています。従来のベンチマークが知識の暗記や単純な推論能力の測定に留まっていたのに対し、LABBench2は「実際の研究作業」の遂行能力に焦点を当てています。これは、文献検索・プロトコル設計・データ解析・仮説生成など、研究者が日常的に行う作業を模した実践的なタスク群を含むことを意味します。 AIの科学分野への応用としては、科学データへの基盤モデル訓練、エージェント型自律仮説生成システム、AI駆動型自律ラボ（ロボット実験設備と連携したAI）など多岐にわたっており、これらの進捗を適切に計測する必要性が高まっています。 GPT-4oやClaude、Geminiなどの大規模言語モデル（LLM）の比較評価に活用できる点で研究者・開発者にとって実用的な意義があります。AIによる科学加速を目指す研究コミュニティに対し、より現実的な能力評価の基準を提供する取り組みとして注目されます。

ベンチマーク生物学 AIエージェント科学研究評価指標

anthropic-news 2ヶ月前 4

AnthropicがAllen InstituteとHHMIと提携、生物学研究を加速

Anthropic partners with Allen Institute and Howard Hughes Medical Institute to accelerate scientific discovery

AnthropicがAllen InstituteとHHMIと科学研究加速に向けた提携を発表した。タンパク質設計・脳神経科学分野でAIエージェントを活用し、数ヶ月の解析を数時間に短縮。科学研究へのAI活用が本格化し、生命科学領域での発見サイクルが大幅に変わる可能性。

Anthropic 科学研究パートナーシップ AIエージェント

anthropic-news 3ヶ月前 3

スタンフォードとMIT、Claudeで研究を劇的に加速

How scientists are using Claude to accelerate research and discovery

スタンフォード大とMITがAnthropicのClaudeを活用した研究自動化ツールを実運用に導入。ゲノム解析を数ヶ月から20分に短縮、CRISPR実験の見落とし発見も自動検出。 LLMが科学的発見の「知的パートナー」として研究現場に定着しつつある。

Claude 科学研究バイオメディカル CRISPR ゲノム解析

anthropic-news 3ヶ月前 4

Anthropic、米エネルギー省と複数年のAI研究提携を締結

Working with the US Department of Energy to unlock the next era of scientific discovery

AnthropicがDOEと「Genesis Mission」と称する複数年のAI活用パートナーシップを発表。エネルギー・バイオ・科学生産性の3分野でClaudeとAIエージェントを17国立研究所に提供。 50年分の科学データを活用し、米国の科学的競争力強化に貢献する大規模な取り組み。

Anthropic 政府連携科学研究 Claude

要約済み 4