LLM拒否機構の精密除去法、性能劣化を最小化
Projected AbliterationOct 25, 2025•42
LLM安全性
abliteration
モデル編集
refusal除去
機械的解釈可能性
要約
LLMの拒否行動を除去するabliteration手法の改良版が研究者により発表された。
拒否方向を直交成分のみに制限し、Gemma 3 12Bで有効性を実証。
拒否と有害性が別々に符号化されている知見はLLM安全研究に新たな示唆を与える。
無料登録でニュースレターを受け取る
毎週AIニュースのTop5をお届けします(無料)
無料登録 →
Proプランで深掘り分析・全アーカイブを読む
月額300円 / 年額2,400円 / Founding Member 5,000円(買い切り)
Proプランを見る →
原文を読む →
https://huggingface.co/blog/grimjim/projected-abliteration
LLMの拒否メカニズムを線形代数的に分解し、有用性に関わる成分を保持しつつ拒否のみを除去する手法。従来のabliterationではモデル品質が大幅に劣化する問題があったが、投影により損傷を最小化した。Claude・GPT等の商用モデルには直接適用されないが、オープンモデルの安全性研究やred-teaming、機械的解釈可能性の観点で研究者に有用。安全アライメントが単一方向でなく分布的に符号化されているという知見は、今後の安全性設計に示唆を与える。