ソフトウェア工学
要約済み 1
-
anthropic-engineering 1年前 4AnthropicのClaude 3.5 Sonnet、コーディング評価で世界最高記録を更新Raising the bar on SWE-bench Verified with Claude 3.5 Sonnet
AnthropicのClaude 3.5 SonnetがSWE-bench Verifiedで49%を達成し、従来の最先端を4ポイント上回った。 Bashツールと編集ツールの2種類のみを用いたシンプルな構成で、モデル自身が問題解決方針を自律決定する設計が高精度を実現。 実用的なソフトウェアエンジニアリングタスクへのAI活用の可能性を示し、エージェント型コーディング分野に大きな影響を与えそうだ。