要約
アライメント調整済みLLMが政治的センシティブな話題で示す知識抑制を修正する手法が発表された。 わずか786Kパラメータ(ベースモデルの0.02%)の小型アダプタで抑制を修正し、未知事実に最大39%汎化。 モデル本体を変えずに抑制された知識を引き出せ、LLMの透明性・解釈可能性研究に貢献。
公式ソースだけを集めたAI最前線(日本語要約)
Correcting Suppressed Log-Probabilities in Language Models with Post-Transformer Adapters
アライメント調整済みLLMが政治的センシティブな話題で示す知識抑制を修正する手法が発表された。 わずか786Kパラメータ(ベースモデルの0.02%)の小型アダプタで抑制を修正し、未知事実に最大39%汎化。 モデル本体を変えずに抑制された知識を引き出せ、LLMの透明性・解釈可能性研究に貢献。
アライメント調整されたLLMは人間の価値観に合わせた訓練により、内部に知識を保持しながらも特定トピック(特にイデオロギー的に敏感な政治的事実)に関する対数確率(各トークンが出力される確率の対数値)を意図的に低く抑制する現象が知られている。本研究はこの抑制を、わずか786Kパラメータの小型アダプタで修正できることを示した。アダプタはTransformerの隠れ状態(各層の内部ベクトル表現)を入力として受け取り、ベースモデルのパラメータを凍結したまま訓練される。Qwen3の4B・8B・14Bの3スケールで31件のイデオロギー識別的事実を対象に検証。アンカー学習(既存知識の対数確率を保護する正則化手法)によりゼロ知識回帰を実現。SwiGLUゲート型と線形ボトルネック型で性能差はなし(Fisher exact検定p>0.09)。生成時に全トークン位置へ適用すると出力が崩壊するが、現在トークン位置のみに限定すると有効に機能する。既存のGPT-4oやClaudeとの直接比較はないが、既存の大規模ファインチューニング不要でアライメントの副作用を標的修正できる点が独自の意義をもつ。アライメント研究と解釈可能性研究の接点に位置する。