要約
AnthropicのClaude 3.5 SonnetがSWE-bench Verifiedで49%を達成し、従来の最先端を4ポイント上回った。 Bashツールと編集ツールの2種類のみを用いたシンプルな構成で、モデル自身が問題解決方針を自律決定する設計が高精度を実現。 実用的なソフトウェアエンジニアリングタスクへのAI活用の可能性を示し、エージェント型コーディング分野に大きな影響を与えそうだ。
公式ソースだけを集めたAIニュースを日本語要約でお届け
Raising the bar on SWE-bench Verified with Claude 3.5 Sonnet
AnthropicのClaude 3.5 SonnetがSWE-bench Verifiedで49%を達成し、従来の最先端を4ポイント上回った。 Bashツールと編集ツールの2種類のみを用いたシンプルな構成で、モデル自身が問題解決方針を自律決定する設計が高精度を実現。 実用的なソフトウェアエンジニアリングタスクへのAI活用の可能性を示し、エージェント型コーディング分野に大きな影響を与えそうだ。