レッドチーミング
要約済み 1
-
arxiv-cs-ai 2日前 4拡散型LLMの安全機構、再マスク攻撃で無効化されるRe-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models
研究者がLLaDA-8B・Dream-7Bなど拡散型言語モデルの安全拒否機能を突破する攻撃手法を発表。 勾配計算不要で安全トークンを再マスクし肯定接頭辞を注入するだけで、最大81.8%の攻撃成功率を達成。 個別実装ではなくdLLMアーキテクチャ自体の構造的欠陥であり、業界全体での対策が急務。
解説 本論文は拡散型言語モデル(dLLM)の安全アライメントに潜む構造的脆弱性を明らかにした研究です。dLLMはBERTのようなマスク埋め込みを用い、64ステップのデノイズ過程でテキストを生成します。安全機構は「一度確定したトークンは変更されない」という前提に依存しており、拒否応答を示すトークンは最初の8〜16ステップで確定します。 攻撃手法「Re-Mask and Redirect」は2段階:①拒否トークンを強制的に再マスクして未確定状態に戻す、②「もちろん、以下の手順を説明します」のような12トークンの肯定的接頭辞を注入する。これだけでHarmBenchにおいてLLaDA-8B-Instructに76.1%、Dream-7B-Instructに81.8%の攻撃成功率(ASR)を達成。勾配最適化(Gumbel-softmax)を追加すると逆にASRが41.5%まで低下し、シンプルな手法の優位性が確認されました。 GPT-4oやClaudeなどの自己回帰型LLMでは過去トークンを書き換える機構が存在しないため同様の攻撃は成立せず、dLLM特有の問題です。実用上、LLaDAやDreamを業務利用する際はコンテンツフィルタなど追加の安全対策が不可欠であることを示唆しています。