AIフロントライン

公式ソースだけを集めたAIニュースを日本語要約でお届け

anthropic-engineering 2025-01-05 15:00 ★4

AnthropicのClaude 3.5 Sonnet、コーディング評価で世界最高記録を更新

Raising the bar on SWE-bench Verified with Claude 3.5 Sonnet

ベンチマーク Claude ソフトウェア工学

要約

AnthropicのClaude 3.5 SonnetがSWE-bench Verifiedで49%を達成し、従来の最先端を4ポイント上回った。 Bashツールと編集ツールの2種類のみを用いたシンプルな構成で、モデル自身が問題解決方針を自律決定する設計が高精度を実現。 実用的なソフトウェアエンジニアリングタスクへのAI活用の可能性を示し、エージェント型コーディング分野に大きな影響を与えそうだ。

Pro

深掘り分析

🔒

この分析はProプラン限定です

Proプランに登録 →

関連記事