機械的解釈可能性
要約済み 2
-
hf-blog 5ヶ月前 2LLM拒否機構の精密除去法、性能劣化を最小化Projected AbliterationOct 25, 2025•42
LLMの拒否行動を除去するabliteration手法の改良版が研究者により発表された。 拒否方向を直交成分のみに制限し、Gemma 3 12Bで有効性を実証。 拒否と有害性が別々に符号化されている知見はLLM安全研究に新たな示唆を与える。
解説 LLMの拒否メカニズムを線形代数的に分解し、有用性に関わる成分を保持しつつ拒否のみを除去する手法。従来のabliterationではモデル品質が大幅に劣化する問題があったが、投影により損傷を最小化した。Claude・GPT等の商用モデルには直接適用されないが、オープンモデルの安全性研究やred-teaming、機械的解釈可能性の観点で研究者に有用。安全アライメントが単一方向でなく分布的に符号化されているという知見は、今後の安全性設計に示唆を与える。 -
hf-blog 1年前 3LLM安全機構を無効化する新手法「アブリテレーション」公開Uncensor any LLM with abliterationJun 13, 2024•838
LLMの拒否行動を制御する残差ストリーム上の「拒否方向」を特定・除去する手法が公開された。 再学習不要で重み直交化により安全フィルタを恒久的に無効化し、DPOファインチューニングで性能低下を回復する。 AI安全機構の構造的脆弱性を示す研究として、LLM開発者・セキュリティ研究者コミュニティに広く影響を与える。
解説 Arditi et al.の研究に基づき、LLMの拒否行動が残差ストリーム上の単一方向で制御されていることを実証した実践的ブログ記事。再学習なしで安全機構を除去できる点は、Claude・GPT-4o等の商用モデルのアライメント手法の脆弱性を浮き彫りにする。開発者にとってはTransformerLensを用いた活性化介入の実装例として有用だが、同時にセーフティ研究者にとっては現行のRLHFベース安全訓練の限界を示す重要な警鐘である。