AIフロントライン

公式ソースだけを集めたAI最前線(日本語要約)

hf-papers 2026-04-17 03:01 ★4

研究者、LLMジェイルブレーク攻撃を80%削減する新防御手法を発表

ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack

LLMセーフティ ジェイルブレーク防御 メカニスティック解釈可能性 活性化工学

要約

過去形への言い換えでLLMの安全フィルターを回避する「時制ジェイルブレーク」に対し、回路解析ベースの防御手法「ASGuard」が発表された。 脆弱なアテンションヘッドを特定して活性化スケーリングで修正する手法で、4つのモデルで攻撃成功率を最大80%削減。 汎用性能を損なわずにセキュリティを強化するパレート最適を実現し、LLM安全対策の実装に直接応用できる。

解説・分析

ASGuardは「時制ジェイルブレーク」—過去形に言い換えるだけでLLMの安全拒否を回避できる脆弱性—を機構的に解析・修正するフレームワーク。EAP-IGという回路解析手法で有害クエリへの拒否に関与するアテンションヘッドを因果的に特定し、チャネルごとのスケーリングベクトルで活性化を再調整する。さらに予防的ファインチューニング(PFT)でスケーリング介入を固定したまま学習させ、脆弱な回路に依存しない堅牢な拒否機構を習得させる3段階構成。Llama-3.1-8B・Qwen2.5-7B・Gemma-2-9B・OLMo-2-7Bの4モデルで評価し、攻撃成功率を最大43ポイント削減(42%→8%)しながらMMLUを完全維持。SFTは0%まで抑制できるが過剰拒否率が98.5%に達するのに対し、ASGuardは安全性と有用性の両立を実現。GCGやLogiBreakなど別手法の攻撃にも汎化し、RepBendやCircuit Breakerを上回るパレート最適な性能を示した。

関連する読者

研究者 開発者