情報検索
要約済み 2
-
arxiv-cs-ai 5時間前 3階層的RAGでサイバー脅威の自動分析精度が向上Hierarchical Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text
MITRE ATT&CKフレームワークへの攻撃手法IDの自動付与に階層的RAGを適用した新手法が発表された 戦術→技術の2段階検索により、従来のフラットRAGの限界を克服し精度・効率を大幅改善 CTI(サイバー脅威インテリジェンス)分析の自動化を加速し、セキュリティアナリストの負担軽減に貢献
解説 本論文はサイバー脅威インテリジェンス(CTI)テキストをMITRE ATT&CKの攻撃手法IDに対応付ける自動注釈タスクを扱う。既存RAGアプローチは全手法を均等に扱う「フラット検索」方式であり、ATT&CKが戦術(Tactic)と手法(Technique)の2層構造を持つ点を活用できていなかった。提案手法H-TechniqueRAGは第1段階で攻撃者の高レベル目標である「戦術」を特定し、第2段階でその戦術配下の「技術」のみに検索を絞り込む2段階階層検索を実現する。階層的な分類体系を帰納バイアスとして組み込むことで検索空間を大幅削減しつつ精度を向上させる。実験ではGPT-4oやClaudeなどのLLMベース既存手法と比較し優れた注釈精度と効率を達成したとされる。SOCアナリストの作業負荷軽減や脅威防衛の自動化に直結する実用的な成果であり、CTI分析パイプラインへの組み込みが期待される。 -
hf-papers 6時間前 4Deep Research AI評価基準「DR³-Eval」登場、Claude Sonnet 4が首位DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation
研究者らが現実性・再現性・制御性を兼ね備えたDeep Research評価フレームワーク「DR³-Eval」を発表した。 マルチモーダルなユーザーファイルと静的コーパスを用いた現実的な評価環境を実現し、主要モデルの幻覚問題も浮き彫りに。 Claude Sonnet 4が最高65.6%で首位に立ち、AIエージェント開発の標準ベンチマークとなる可能性がある。
解説 DR³-Evalは、Deep Research Agent(DRA)を評価する新ベンチマーク。ライブウェブ依存による再現性欠如や、テキスト限定タスクによる現実性不足という既存評価の課題を解決する。ボランティアから収集した実文書・画像・動画・音声を含むユーザーファイルと、有益文書・妨害文書・雑音文書からなる静的サンドボックスコーパスを組み合わせた100タスクを構築。「逆構築法(Reverse Construction)」で証拠から遡ってクエリを生成することで、解答経路が一意に定まる設計を実現。評価は情報回収率(IR)・引用網羅率(CC)・事実正確性(FA)・指示遵守率(IF)・分析深度(DQ)の5指標で行う。実験ではClaude Sonnet 4が平均65.6%で首位、Gemini-2.5-Proが57.0%、GPT-4.1が50.9%と続いた。主要な失敗要因は検索エラーではなく幻覚(ハルシネーション)であり、長期推論中に証拠への接地が失われることが課題と判明。サンドボックスがライブウェブの現実的な代替となることも統計的に検証された。