LLM監視
要約済み 1
-
arxiv-cs-ai 3日前 3LLM対話の整合性をリアルタイム監視する新手法が登場Bi-Predictability: A Real-Time Signal for Monitoring LLM Interaction Integrity
研究者がLLMの多ターン対話の劣化をリアルタイムで検出する新手法「双方向予測可能性(P)」を発表。 情報理論的指標をトークン統計から算出する軽量なIDTアーキテクチャを採用し、段階的な対話劣化を連続的に検知。 LLMの信頼性・安全性監視の実用化に向けた軽量ソリューションとして注目される。
解説 本論文は、LLMの多ターン対話における構造的整合性をリアルタイムで監視する「双方向予測可能性(Bi-Predictability, P)」を提案する。従来のパープレキシティは一方向のトークン信頼度しか測定できず、セマンティックエントロピーは大量のサンプリングが必要なため計算コストが高く、いずれもリアルタイム監視には不適だった。本手法はトークンの出現頻度統計から直接計算される情報理論的指標であり、文脈→応答の方向だけでなく応答→文脈の逆方向も含めた双方向の予測可能性を評価することで、対話の構造的結合度を定量化する。「情報デジタルツイン(IDT)」という軽量アーキテクチャを導入し、文脈・応答・次トークン予測にわたってPを継続的に推定する。これにより、高リスクな自律エージェントや対話システムにおいて、LLM応答の意味的判定なしに劣化を早期検出できる実用的な監視基盤を実現する。