スタートアップシミュレーション
要約済み 1
-
hf-blog 12日前 3AIエージェントにスタートアップ経営させるベンチマーク登場YC-Bench: Can Your AI Agent Run a Startup Without Going Bankrupt?9 days ago•6
20万ドル・1年間のスタートアップ経営をAIに任せる「YC-Bench」が公開された。 12モデル中、資金を増やせたのはClaude Opus・GLM-5・GPT-5.4の3モデルのみ。 推論と実行の乖離や持続的記憶の活用が、エージェント実用化の鍵と示した。
解説 既存ベンチマークでは測れない「数百ターンにわたる戦略的一貫性」を評価する新しいベンチマーク。Claude Opus 4.6が127万ドルで首位、Sonnet 4.6は正しい戦略を導出しつつ実行できず破産するという「推論-実行ギャップ」を明確に示した。エージェント開発者にとって、長期記憶管理と敵対的入力への耐性が今後の重要課題であることを定量的に裏付ける実用的な知見を提供している。