LLM安全性

hf-papers 1日前 4

Large Language Models Generate Harmful Content Using a Distinct, Unified Mechanism

研究者らがLLMの有害コンテンツ生成を担うパラメータを特定、全体のわずか0.0005%に集約されていることを発見した。この重みセットは有害コンテンツの種類を問わず汎用的に機能し、無害な能力とは明確に分離されている。アライメント学習がこの構造を変質させることで「創発的ミスアライン」が生じる可能性があり、AI安全研究に大きな示唆を与える。

解説本研究はLLMが有害コンテンツを生成する際の内部メカニズムを重みプルーニング（特定パラメータを除去して因果関係を検証する手法）で解明した。全パラメータのわずか0.0005%という極小の重みセットが有害生成を担い、この集合はマルウェア・ヘイトスピーチ・物理的危害など異なる害カテゴリー間で共有されている（汎用統一メカニズム）。重要なのは、有害生成の重みと無害タスクの重みがほぼ重複しないため、外科的な除去が可能な点だ。アラインメント学習（SFT/DPO/RLなど）はこのメカニズムをさらに圧縮・構造化し、拒否応答というゲートの背後に畳み込む。この圧縮こそが「創発的ミスアライン（Emergent Misalignment）」の原因であり、特定ドメインでのファインチューニングが圧縮重みを介して無関係な害カテゴリーまで波及することを実験的に示した。さらに有害コンテンツの生成能力と理解・検出・拒否能力は異なる重みセットで担われており、生成を抑制しても理解は95%保持されるという二重解離が確認された。GPT-4oやClaudeとの直接比較は行っていないが、OLMo・Llama等の複数モデルで一貫した結果が得られており、アラインメント手法の再設計や堅牢なセーフガード開発に直結する重要な知見を提供する。

LLM安全性メカニスティック解釈ジェイルブレイクアラインメント重みプルーニング

hf-papers 1日前 4

分散学習の中間ノード乗っ取りで安全対策を94%破壊——新手のバックドア攻撃を研究者が実証

Backdoor Attacks on Decentralised Post-Training

研究者らが分散パイプライン並列学習における新型バックドア攻撃を初めて提案・実証した。タスク算術を悪用してステルス性を保ちつつ安全アライメントを94%の確率で無効化できる。安全対策の再適用後も60%の攻撃成功率を維持し、LLMサプライチェーンの脆弱性として警鐘を鳴らす。

解説本論文は、大規模言語モデル（LLM）の分散後学習（post-training）における新たなセキュリティ脅威を初めて体系化した研究である。分散学習では複数ノードがモデルの一部（パイプラインステージ）を担当して協調学習するが、攻撃者が中間ステージのノードを制御した場合のリスクを検証している。提案手法は2段階構成。まず「オフライン段階」として、攻撃者は自分が管理するステージのみのパラメータを書き換えた「バックドア済みサロゲートモデル」を事前に訓練し、ベースモデルとの差分（タスクベクトル）を計算する。次に「オンライン段階」として、本番のSFT（Supervised Fine-Tuning）実行中に、このタスクベクトルをスケーリング係数0.1・25イテレーション間隔で定期的に注入することでバックドアを埋め込む。トリガーワード「SUDO」を含むプロンプトに対し、モデルがマルウェア作成方法等の有害な回答を返すよう誘導する設計である。実験はLLaMA-3.2 1Bモデルと金融ドメインデータセット（Finance-Instruct-500k）で実施。検証損失への影響はほぼゼロでステルス性を保ちつつ、攻撃成功率94%を達成。さらに安全アライメント訓練を追加適用しても60%の成功率が維持された。GPT-4oやClaudeとの直接比較はないが、オープンソースモデルを用いた分散学習エコシステム全体への脅威として実用的な意義が高い。分散AIインフラのセキュリティ設計上の重要課題を提示している。

バックドア攻撃分散学習パイプライン並列 LLM安全性アライメント

hf-blog 5ヶ月前 2

LLM拒否機構の精密除去法、性能劣化を最小化

Projected AbliterationOct 25, 2025•42

LLMの拒否行動を除去するabliteration手法の改良版が研究者により発表された。拒否方向を直交成分のみに制限し、Gemma 3 12Bで有効性を実証。拒否と有害性が別々に符号化されている知見はLLM安全研究に新たな示唆を与える。

解説 LLMの拒否メカニズムを線形代数的に分解し、有用性に関わる成分を保持しつつ拒否のみを除去する手法。従来のabliterationではモデル品質が大幅に劣化する問題があったが、投影により損傷を最小化した。Claude・GPT等の商用モデルには直接適用されないが、オープンモデルの安全性研究やred-teaming、機械的解釈可能性の観点で研究者に有用。安全アライメントが単一方向でなく分布的に符号化されているという知見は、今後の安全性設計に示唆を与える。

LLM安全性 abliteration モデル編集 refusal除去機械的解釈可能性

hf-blog 1年前 3

LLM安全機構を無効化する新手法「アブリテレーション」公開

Uncensor any LLM with abliterationJun 13, 2024•838

LLMの拒否行動を制御する残差ストリーム上の「拒否方向」を特定・除去する手法が公開された。再学習不要で重み直交化により安全フィルタを恒久的に無効化し、DPOファインチューニングで性能低下を回復する。 AI安全機構の構造的脆弱性を示す研究として、LLM開発者・セキュリティ研究者コミュニティに広く影響を与える。

解説 Arditi et al.の研究に基づき、LLMの拒否行動が残差ストリーム上の単一方向で制御されていることを実証した実践的ブログ記事。再学習なしで安全機構を除去できる点は、Claude・GPT-4o等の商用モデルのアライメント手法の脆弱性を浮き彫りにする。開発者にとってはTransformerLensを用いた活性化介入の実装例として有用だが、同時にセーフティ研究者にとっては現行のRLHFベース安全訓練の限界を示す重要な警鐘である。

機械的解釈可能性アライメント LLM安全性ファインチューニング

要約済み 4