分散学習の中間ノード乗っ取りで安全対策を94%破壊——新手のバックドア攻撃を研究者が実証

hf-papers 2026-04-13 12:24 ★4

分散学習の中間ノード乗っ取りで安全対策を94%破壊——新手のバックドア攻撃を研究者が実証

Backdoor Attacks on Decentralised Post-Training

バックドア攻撃分散学習パイプライン並列 LLM安全性アライメント

要約

研究者らが分散パイプライン並列学習における新型バックドア攻撃を初めて提案・実証した。タスク算術を悪用してステルス性を保ちつつ安全アライメントを94%の確率で無効化できる。安全対策の再適用後も60%の攻撃成功率を維持し、LLMサプライチェーンの脆弱性として警鐘を鳴らす。

解説・分析

本論文は、大規模言語モデル（LLM）の分散後学習（post-training）における新たなセキュリティ脅威を初めて体系化した研究である。分散学習では複数ノードがモデルの一部（パイプラインステージ）を担当して協調学習するが、攻撃者が中間ステージのノードを制御した場合のリスクを検証している。

提案手法は2段階構成。まず「オフライン段階」として、攻撃者は自分が管理するステージのみのパラメータを書き換えた「バックドア済みサロゲートモデル」を事前に訓練し、ベースモデルとの差分（タスクベクトル）を計算する。次に「オンライン段階」として、本番のSFT（Supervised Fine-Tuning）実行中に、このタスクベクトルをスケーリング係数0.1・25イテレーション間隔で定期的に注入することでバックドアを埋め込む。トリガーワード「SUDO」を含むプロンプトに対し、モデルがマルウェア作成方法等の有害な回答を返すよう誘導する設計である。

実験はLLaMA-3.2 1Bモデルと金融ドメインデータセット（Finance-Instruct-500k）で実施。検証損失への影響はほぼゼロでステルス性を保ちつつ、攻撃成功率94%を達成。さらに安全アライメント訓練を追加適用しても60%の成功率が維持された。GPT-4oやClaudeとの直接比較はないが、オープンソースモデルを用いた分散学習エコシステム全体への脅威として実用的な意義が高い。分散AIインフラのセキュリティ設計上の重要課題を提示している。

深掘り分析

🔒

この分析はProプラン限定です

Proプランに登録 →

原文を読む → https://huggingface.co/papers/2604.02372

← 一覧に戻る

AIフロントライン