AIフロントライン

公式ソースだけを集めたAIニュースを日本語要約でお届け

hf-papers 2026-04-13 12:24 ★4

研究者がLLMの有害生成メカニズムを特定、全重みの0.0005%に集中

Large Language Models Generate Harmful Content Using a Distinct, Unified Mechanism

LLM安全性 メカニスティック解釈 ジェイルブレイク アラインメント 重みプルーニング

要約

研究者らがLLMの有害コンテンツ生成を担うパラメータを特定、全体のわずか0.0005%に集約されていることを発見した。 この重みセットは有害コンテンツの種類を問わず汎用的に機能し、無害な能力とは明確に分離されている。 アライメント学習がこの構造を変質させることで「創発的ミスアライン」が生じる可能性があり、AI安全研究に大きな示唆を与える。

解説・分析

本研究はLLMが有害コンテンツを生成する際の内部メカニズムを重みプルーニング(特定パラメータを除去して因果関係を検証する手法)で解明した。全パラメータのわずか0.0005%という極小の重みセットが有害生成を担い、この集合はマルウェア・ヘイトスピーチ・物理的危害など異なる害カテゴリー間で共有されている(汎用統一メカニズム)。重要なのは、有害生成の重みと無害タスクの重みがほぼ重複しないため、外科的な除去が可能な点だ。アラインメント学習(SFT/DPO/RLなど)はこのメカニズムをさらに圧縮・構造化し、拒否応答というゲートの背後に畳み込む。この圧縮こそが「創発的ミスアライン(Emergent Misalignment)」の原因であり、特定ドメインでのファインチューニングが圧縮重みを介して無関係な害カテゴリーまで波及することを実験的に示した。さらに有害コンテンツの生成能力と理解・検出・拒否能力は異なる重みセットで担われており、生成を抑制しても理解は95%保持されるという二重解離が確認された。GPT-4oやClaudeとの直接比較は行っていないが、OLMo・Llama等の複数モデルで一貫した結果が得られており、アラインメント手法の再設計や堅牢なセーフガード開発に直結する重要な知見を提供する。

関連する読者

研究者 開発者
Pro

深掘り分析

🔒

この分析はProプラン限定です

Proプランに登録 →

関連記事