アライメント

arxiv-cs-ai 7時間前 3

A Layer-wise Analysis of Supervised Fine-Tuning

研究チームがSFTの各層への影響を情報理論・幾何学・最適化の3指標で体系的に分析した成果を発表。中間層（全体の20〜80%）は学習が安定し、最終層は高感度という層依存パターンを発見。中間層のみを更新するMid-Block手法を提案。 LoRAと比べ最大10.2%の精度向上を達成し、効率的なファインチューニング戦略として注目される。

解説本論文は、LLMのアライメントに不可欠なSFT（教師ありファインチューニング）において、各層が果たす役割を情報理論的指標（エントロピーなど）・幾何学的指標（表現空間の形状）・最適化指標（勾配の大きさなど）の3種類で包括的に分析した研究である。1Bから32Bまで複数のモデルスケールで実験し、層の深さに応じた明確なパターンを発見した。具体的には、全層の20〜80%に相当する中間層はSFT前後で安定しており、一方で最終層（後半20%付近）が特に高感度で、指示追従能力の形成に重要な役割を担うことが明らかになった。この知見を活用して提案された「Mid-Block Efficient Tuning」は、感度の高い中間層のみをターゲットとして選択的に更新するアプローチである。従来のLoRAが全体または均等な範囲にパラメータ更新を適用するのに対し、本手法はアーキテクチャ上の局所性を利用することで更新パラメータ数を削減しながらも精度を向上させる。OLMo2-7Bを用いた数学推論ベンチマークGSM8Kでは標準LoRAを最大10.2%上回った。アライメント能力が全層に分散して獲得されるのではなく特定の層に局在するという本知見は、今後の効率的なファインチューニング設計に重要な指針を与える。

SFT 効率的ファインチューニング層別解析アライメント LoRA

hf-papers 1日前 4

分散学習の中間ノード乗っ取りで安全対策を94%破壊——新手のバックドア攻撃を研究者が実証

Backdoor Attacks on Decentralised Post-Training

研究者らが分散パイプライン並列学習における新型バックドア攻撃を初めて提案・実証した。タスク算術を悪用してステルス性を保ちつつ安全アライメントを94%の確率で無効化できる。安全対策の再適用後も60%の攻撃成功率を維持し、LLMサプライチェーンの脆弱性として警鐘を鳴らす。

解説本論文は、大規模言語モデル（LLM）の分散後学習（post-training）における新たなセキュリティ脅威を初めて体系化した研究である。分散学習では複数ノードがモデルの一部（パイプラインステージ）を担当して協調学習するが、攻撃者が中間ステージのノードを制御した場合のリスクを検証している。提案手法は2段階構成。まず「オフライン段階」として、攻撃者は自分が管理するステージのみのパラメータを書き換えた「バックドア済みサロゲートモデル」を事前に訓練し、ベースモデルとの差分（タスクベクトル）を計算する。次に「オンライン段階」として、本番のSFT（Supervised Fine-Tuning）実行中に、このタスクベクトルをスケーリング係数0.1・25イテレーション間隔で定期的に注入することでバックドアを埋め込む。トリガーワード「SUDO」を含むプロンプトに対し、モデルがマルウェア作成方法等の有害な回答を返すよう誘導する設計である。実験はLLaMA-3.2 1Bモデルと金融ドメインデータセット（Finance-Instruct-500k）で実施。検証損失への影響はほぼゼロでステルス性を保ちつつ、攻撃成功率94%を達成。さらに安全アライメント訓練を追加適用しても60%の成功率が維持された。GPT-4oやClaudeとの直接比較はないが、オープンソースモデルを用いた分散学習エコシステム全体への脅威として実用的な意義が高い。分散AIインフラのセキュリティ設計上の重要課題を提示している。

バックドア攻撃分散学習パイプライン並列 LLM安全性アライメント

openai-news 9日前 3

OpenAI、独立した安全性研究者育成フェローシップを開始

Announcing the OpenAI Safety Fellowship

OpenAIが外部研究者を対象とするAI安全性・アライメント研究支援プログラムを発表。独立した研究者が自律的にAI安全性課題に取り組める環境と資金を提供するパイロット制度。次世代の安全性研究者の育成を通じ、業界全体のAIリスク対策強化につながると期待される。

安全性アライメントフェローシップ OpenAI 研究育成

openai-news 27日前 4

OpenAI、社内AIエージェントの思考監視システムを公開

How we monitor internal coding agents for misalignment

OpenAIが社内コーディングエージェントの不整合検出に向け、思考連鎖（CoT）監視の手法を詳報。実運用環境での展開を通じ、AIの意図しない挙動やリスクをリアルタイムで特定する仕組みを紹介。 AI安全性の実践的アプローチとして、エージェント開発・運用現場に直接役立つ知見を提供。

AI安全性エージェント監視 OpenAI アライメント

hf-blog 1年前 3

LLM安全機構を無効化する新手法「アブリテレーション」公開

Uncensor any LLM with abliterationJun 13, 2024•838

LLMの拒否行動を制御する残差ストリーム上の「拒否方向」を特定・除去する手法が公開された。再学習不要で重み直交化により安全フィルタを恒久的に無効化し、DPOファインチューニングで性能低下を回復する。 AI安全機構の構造的脆弱性を示す研究として、LLM開発者・セキュリティ研究者コミュニティに広く影響を与える。

解説 Arditi et al.の研究に基づき、LLMの拒否行動が残差ストリーム上の単一方向で制御されていることを実証した実践的ブログ記事。再学習なしで安全機構を除去できる点は、Claude・GPT-4o等の商用モデルのアライメント手法の脆弱性を浮き彫りにする。開発者にとってはTransformerLensを用いた活性化介入の実装例として有用だが、同時にセーフティ研究者にとっては現行のRLHFベース安全訓練の限界を示す重要な警鐘である。

機械的解釈可能性アライメント LLM安全性ファインチューニング

要約済み 5