AIフロントライン

公式ソースだけを集めたAIニュースを日本語要約でお届け

エージェント安全性

1件の記事

要約済み 1

anthropic-engineering 21日前 4
AnthropicがClaude Codeに自動承認モードを追加
Claude Code auto mode: a safer way to skip permissions

Anthropicは、Claude Codeの権限プロンプトを自動判定する「Autoモード」を新たに搭載した。入力層のインジェクション検出と出力層のSonnet分類器による2層防御を採用し、誤検知率0.4%・危険操作見逃し率17%を公式に開示。承認疲れを93%の許可率から解消しつつ、完全な人間確認の代替ではないと明言した透明性ある設計が注目される。

Claude Code エージェント安全性開発ツール