LLM安全機構を無効化する新手法「アブリテレーション」公開

hf-blog 2024-06-13 11:37 ★3

LLM安全機構を無効化する新手法「アブリテレーション」公開

Uncensor any LLM with abliterationJun 13, 2024•838

機械的解釈可能性アライメント LLM安全性ファインチューニング

要約

LLMの拒否行動を制御する残差ストリーム上の「拒否方向」を特定・除去する手法が公開された。再学習不要で重み直交化により安全フィルタを恒久的に無効化し、DPOファインチューニングで性能低下を回復する。 AI安全機構の構造的脆弱性を示す研究として、LLM開発者・セキュリティ研究者コミュニティに広く影響を与える。

解説・分析

Arditi et al.の研究に基づき、LLMの拒否行動が残差ストリーム上の単一方向で制御されていることを実証した実践的ブログ記事。再学習なしで安全機構を除去できる点は、Claude・GPT-4o等の商用モデルのアライメント手法の脆弱性を浮き彫りにする。開発者にとってはTransformerLensを用いた活性化介入の実装例として有用だが、同時にセーフティ研究者にとっては現行のRLHFベース安全訓練の限界を示す重要な警鐘である。

AIフロントライン

LLM安全機構を無効化する新手法「アブリテレーション」公開

要約

解説・分析

関連する読者