敵対的攻撃
要約済み 2
-
hf-papers 1日前 4モバイルAIエージェント、敵対的攻撃に42%誤誘導と判明Mobile GUI Agents under Real-world Threats: Are We There Yet?
研究チームがモバイルGUIエージェントの安全性を評価するフレームワーク「AgentHazard」を発表。 SNS投稿や広告を介した攻撃で全エージェントが平均42%の誤誘導率を示し、実用展開への課題が浮き彫りに。 視覚機能が脆弱性を高めるという逆説的知見は、エージェント開発者に設計の再考を迫る。
解説 本論文はモバイルGUIエージェント(スマートフォンのUIを自律操作するAIエージェント)が現実世界の脅威に対して安全かを問う研究。提案フレームワーク「AgentHazard」は、(1)UIハイジャックによるリアルタイム敵対的コンテンツ注入ツール、(2)12アプリ122タスクの動的評価環境、(3)3000件超の静的攻撃シナリオデータセット、の3要素で構成される。攻撃は平均わずか10トークンの誤誘導テキストをSNS投稿や広告などの正規UIコンポーネントに埋め込む「非特権攻撃」であり、root権限不要で実行可能な点がリアリスティックである。実験ではGPT-4oベースのM3Aが約60%、GPT-4o-miniベースのAriaUIも約60%の誤誘導率を示した。特筆すべき発見として、視覚モダリティを加えると誤誘導率がさらに上昇(テキストのみ37.8%→マルチモーダル62.0%)することが確認された。GPT-5でも11.5%の誤誘導率が残り、問題がモデル固有でなく構造的であることを示す。敵対的SFTで誤誘導率は74.6%→30.6%に下がるが、依然として高く、アーキテクチャレベルの対策(信頼スコア付きUIリージョン管理、破壊的操作への承認要求など)の必要性を訴えている。 -
arxiv-cs-ai 2日前 3時系列予測モデルへのリアルタイム敵対的攻撃手法「INTARG」を提案INTARG: Informed Real-Time Adversarial Attack Generation for Time-Series Regression
研究チームが時系列回帰モデルを標的としたオンライン敵対的攻撃フレームワーク「INTARG」を発表。 高信頼・高誤差な予測タイムステップを選択的に攻撃する効率化戦略と有界バッファ制約への対応が特徴。 予測モデルの脆弱性評価や堅牢性向上の研究に向けた実用的な攻撃基盤を提供する。
解説 INTARGは時系列予測モデルを対象とした敵対的攻撃フレームワークで、現実的なオンライン・有界バッファ制約(過去データを全保存できない環境)に対応した点が新しい。既存の敵対的攻撃手法の多くは画像等を対象としており、時系列設定ではすべてのタイムステップに攻撃を加えたり完全な履歴データを保持したりする必要があり、実運用では非現実的だった。提案手法は「モデルが高い信頼度で予測し、かつ予測誤差が大きくなりやすいタイムステップ」を選択的に狙うインフォームド戦略を採用することで、限られたバジェット内で攻撃効果を最大化する。これは電力需要予測、金融、異常検知など精度が運用判断に直結する領域での脆弱性評価に実用的意義がある。実験ではDL系時系列モデルに対して従来のランダム攻撃や全ステップ攻撃と比較し、少ない摂動で大きな予測誤差増大を達成したことが示されている。防御側への示唆として、信頼度推定を攻撃者に悪用される恐れがあるため、予測の不確実性をどう扱うかが重要な研究課題となる。