モデルセキュリティ
要約済み 1
-
hf-papers 10時間前 4わずか2ビット反転で精度99.8%低下、DNNの新脆弱性が判明Maximal Brain Damage Without Data or Optimization: Disrupting Neural Networks via Sign-Bit Flips
セキュリティ研究により、わずかなビット反転でDNNを壊滅的に破壊できる脆弱性が明らかになった。 ResNet-50で2ビット反転により精度99.8%低下、LLMでは推論精度ゼロに達する攻撃手法。 符号ビット保護という実用的防御で対応可能であり、モデルセキュリティの新課題を提示している。
解説 提案手法DNL(Deep Neural Lesion)は、ニューラルネットワークのパラメータの符号ビット(数値の正負を決める最上位ビット)を反転させることで、モデルを壊滅的に破壊できることを示す研究です。従来の敵対的攻撃と異なり、学習データを一切使用せず、勾配最適化も不要なため、モデルの重みにアクセスさえできれば即座に実行可能です。拡張版の1P-DNL(1-Pass DNL)はランダム入力での1回のフォワード・バックワードパスのみで攻撃対象の選定精度をさらに向上させます。実験では、ResNet-50に2ビット反転で精度を99.8%低下、Mask R-CNNやYOLOv8-segでも1〜2ビットでCOCO検出スコアが崩壊。MoEアーキテクチャのQwen3-30B-A3B-Thinkingでは異なるExpert(専門処理モジュール)に各1ビット計2ビット反転するだけで推論精度が78%からゼロに落ちました。防御面では脆弱なビットのごく一部を選択的に保護するだけで効果的な対策になることも示しており、ハードウェアレベルの耐障害設計の重要性を強く示唆しています。