AIエージェント

arxiv-cs-ai 1日前 3

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

研究者チームがAIの生物研究能力を測る新ベンチマーク「LABBench2」を公開した。約1,900タスクで構成され、知識暗記ではなく実際の研究作業遂行能力を定量評価。 AIによる科学的発見の加速を目指す開発者・研究機関にとって重要な指標となる。

解説 LABBench2は、AIが生物学研究において実際にどれだけ有用な作業を遂行できるかを測定するために設計された評価ベンチマークの改良版です。前身であるLAB-Bench（Language Agent Biology Benchmark）を発展させ、約1,900タスクを収録しています。従来のベンチマークが知識の暗記や単純な推論能力の測定に留まっていたのに対し、LABBench2は「実際の研究作業」の遂行能力に焦点を当てています。これは、文献検索・プロトコル設計・データ解析・仮説生成など、研究者が日常的に行う作業を模した実践的なタスク群を含むことを意味します。 AIの科学分野への応用としては、科学データへの基盤モデル訓練、エージェント型自律仮説生成システム、AI駆動型自律ラボ（ロボット実験設備と連携したAI）など多岐にわたっており、これらの進捗を適切に計測する必要性が高まっています。 GPT-4oやClaude、Geminiなどの大規模言語モデル（LLM）の比較評価に活用できる点で研究者・開発者にとって実用的な意義があります。AIによる科学加速を目指す研究コミュニティに対し、より現実的な能力評価の基準を提供する取り組みとして注目されます。

ベンチマーク生物学 AIエージェント科学研究評価指標

openai-news 7日前 4

OpenAI、エンタープライズAIの次フェーズを正式発表

The next phase of enterprise AI

OpenAIがエンタープライズ向けAI戦略の次フェーズを公式に発表した。 Frontier・ChatGPT Enterprise・Codexを中核に各業界での導入が本格加速。企業全体で自律動作するAIエージェントへの移行が新たな主軸となる。

OpenAI エンタープライズAI AIエージェント ChatGPT Enterprise

hf-blog 12日前 3

AIエージェントにスタートアップ経営させるベンチマーク登場

YC-Bench: Can Your AI Agent Run a Startup Without Going Bankrupt?9 days ago•6

20万ドル・1年間のスタートアップ経営をAIに任せる「YC-Bench」が公開された。 12モデル中、資金を増やせたのはClaude Opus・GLM-5・GPT-5.4の3モデルのみ。推論と実行の乖離や持続的記憶の活用が、エージェント実用化の鍵と示した。

解説既存ベンチマークでは測れない「数百ターンにわたる戦略的一貫性」を評価する新しいベンチマーク。Claude Opus 4.6が127万ドルで首位、Sonnet 4.6は正しい戦略を導出しつつ実行できず破産するという「推論-実行ギャップ」を明確に示した。エージェント開発者にとって、長期記憶管理と敵対的入力への耐性が今後の重要課題であることを定量的に裏付ける実用的な知見を提供している。

ベンチマーク AIエージェント長期推論スタートアップシミュレーション

openai-news 14日前 3

Gradient Labs、銀行向けAIエージェントを発表

Gradient Labs gives every bank customer an AI account manager

Gradient LabsがGPT-4.1とGPT-4o miniを活用し、銀行のカスタマーサポートを自動化するAIエージェントを開発・発表。低遅延・高信頼性を実現し、問い合わせ対応や口座管理などのワークフローを自動処理する。全銀行顧客にAIアカウントマネージャーを提供することで、金融サービスのパーソナライズ化が加速する見通し。

AIエージェントフィンテック GPT-4.1 銀行カスタマーサポート

openai-news 1ヶ月前 3

OpenAI、AIエージェントのプロンプトインジェクション対策手法を公開

Designing AI agents to resist prompt injection

OpenAIがChatGPTエージェントをプロンプトインジェクション攻撃から守る設計手法を公開。リスクの高い操作の制限・機密データ保護・ソーシャルエンジニアリング耐性が柱。エージェント開発者にとって実装指針となる安全設計のベストプラクティス集として注目。

セキュリティプロンプトインジェクション OpenAI AIエージェント

anthropic-news 2ヶ月前 4

AnthropicがAllen InstituteとHHMIと提携、生物学研究を加速

Anthropic partners with Allen Institute and Howard Hughes Medical Institute to accelerate scientific discovery

AnthropicがAllen InstituteとHHMIと科学研究加速に向けた提携を発表した。タンパク質設計・脳神経科学分野でAIエージェントを活用し、数ヶ月の解析を数時間に短縮。科学研究へのAI活用が本格化し、生命科学領域での発見サイクルが大幅に変わる可能性。

Anthropic 科学研究パートナーシップ AIエージェント

要約済み 6