科学研究
要約済み 4
-
arxiv-cs-ai 1日前 3生物研究AIを本格評価、LABBench2が公開LABBench2: An Improved Benchmark for AI Systems Performing Biology Research
研究者チームがAIの生物研究能力を測る新ベンチマーク「LABBench2」を公開した。 約1,900タスクで構成され、知識暗記ではなく実際の研究作業遂行能力を定量評価。 AIによる科学的発見の加速を目指す開発者・研究機関にとって重要な指標となる。
解説 LABBench2は、AIが生物学研究において実際にどれだけ有用な作業を遂行できるかを測定するために設計された評価ベンチマークの改良版です。前身であるLAB-Bench(Language Agent Biology Benchmark)を発展させ、約1,900タスクを収録しています。 従来のベンチマークが知識の暗記や単純な推論能力の測定に留まっていたのに対し、LABBench2は「実際の研究作業」の遂行能力に焦点を当てています。これは、文献検索・プロトコル設計・データ解析・仮説生成など、研究者が日常的に行う作業を模した実践的なタスク群を含むことを意味します。 AIの科学分野への応用としては、科学データへの基盤モデル訓練、エージェント型自律仮説生成システム、AI駆動型自律ラボ(ロボット実験設備と連携したAI)など多岐にわたっており、これらの進捗を適切に計測する必要性が高まっています。 GPT-4oやClaude、Geminiなどの大規模言語モデル(LLM)の比較評価に活用できる点で研究者・開発者にとって実用的な意義があります。AIによる科学加速を目指す研究コミュニティに対し、より現実的な能力評価の基準を提供する取り組みとして注目されます。 -
anthropic-news 2ヶ月前 4AnthropicがAllen InstituteとHHMIと提携、生物学研究を加速Anthropic partners with Allen Institute and Howard Hughes Medical Institute to accelerate scientific discovery
AnthropicがAllen InstituteとHHMIと科学研究加速に向けた提携を発表した。 タンパク質設計・脳神経科学分野でAIエージェントを活用し、数ヶ月の解析を数時間に短縮。 科学研究へのAI活用が本格化し、生命科学領域での発見サイクルが大幅に変わる可能性。
-
anthropic-news 3ヶ月前 3スタンフォードとMIT、Claudeで研究を劇的に加速How scientists are using Claude to accelerate research and discovery
スタンフォード大とMITがAnthropicのClaudeを活用した研究自動化ツールを実運用に導入。 ゲノム解析を数ヶ月から20分に短縮、CRISPR実験の見落とし発見も自動検出。 LLMが科学的発見の「知的パートナー」として研究現場に定着しつつある。
-
anthropic-news 3ヶ月前 4Anthropic、米エネルギー省と複数年のAI研究提携を締結Working with the US Department of Energy to unlock the next era of scientific discovery
AnthropicがDOEと「Genesis Mission」と称する複数年のAI活用パートナーシップを発表。 エネルギー・バイオ・科学生産性の3分野でClaudeとAIエージェントを17国立研究所に提供。 50年分の科学データを活用し、米国の科学的競争力強化に貢献する大規模な取り組み。