arXiv cs.AI/cs.CL/cs.LG

5時間前 ★4

Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models

圧縮センシング理論を応用し、LLMの計算経路をタスク・トークンごとに動的に選択する新フレームワークが発表された。プルーニングとプロンプト圧縮を統合し、スパース回復によって不要な計算を削減する推論効率化を実現。モデルサイズを維持しつつ推論コストを削減できる可能性があり、LLMの実用展開コスト低減に貢献が期待される。

LLM圧縮動的推論構造的プルーニング

5時間前 ★3

LLM長期記憶をゲームで評価する新ベンチマーク登場

MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios

研究者らがゲーム型インタラクティブシナリオでLLMの長期記憶を評価する「MemGround」を発表。 3層階層的な記憶能力をQA・MFU・MFCOなど多次元指標で定量評価し、動的追跡や階層的推論も計測可能。静的タスク中心だった既存評価の限界を補い、実用的なエージェント開発の指針となりうる。

ベンチマーク長期記憶 LLM評価ゲーム型AI

5時間前 ★3

LLM搭載IMEで深いパーソナライズ入力を実現——オンデバイス展開も対応

HUOZIIME: An On-Device LLM-enhanced Input Method for Deep Personalization

研究チームがLLMを統合したモバイル向け入力メソッド「HUOZIIME」を発表した。階層的メモリ機構でユーザー固有の入力パターンを継続学習し、個人に最適化された変換を実現。オンデバイス動作に向けた最適化により、クラウド不要でプライバシーを保ちながら低遅延を達成する。

IME オンデバイスAI パーソナライズモバイルAI 入力システム

5時間前 ★3

原子力制御室向けAIエージェント基盤「NuHF Claw」が登場

NuHF Claw: A Risk Constrained Cognitive Agent Framework for Human Centered Procedure Support in Digital Nuclear Control Rooms

原子力発電所の制御室オペレーターを支援するリスク制約型AIエージェントフレームワーク「NuHF Claw」が発表された。リアルタイムで認知状態を推定しつつ確率論的安全評価と連携、ハルシネーション抑制機構を内蔵する。安全クリティカル分野へのAIエージェント適用における新たな設計指針を示す研究として注目される。

安全クリティカルシステム LLMエージェント原子力認知リスク管理人間信頼性解析

5時間前 ★3

LLM、論文のデータ漏洩を自動検出——6モデルが一致した診断

Can Large Language Models Detect Methodological Flaws? Evidence from Gesture Recognition for UAV-Based Rescue Operation Based on Deep Learning

研究者らがLLMを用いてML論文の方法論的欠陥を自動検出できるか検証した。 6種類のLLMがジェスチャー認識論文の被験者レベルのデータ漏洩を正確に特定。査読・再現性検証の自動化に向けた有力なアプローチとして注目される。

LLMエージェント研究品質評価データリークピアレビュー自動化

5時間前 ★3

査読スコアとコメントに大きな乖離、「丁寧さ原則」を解明

Decoupling Scores and Text: The Politeness Principle in Peer Review

ICLR2021〜2025の3万件超の査読データを分析した研究が発表された。スコアベースの採否予測は91%の精度だが、テキストベースでは81%に留まることが判明。礼儀正しいコメントが実際の評価を隠す構造的バイアスが示され、AI査読ツール開発に影響を与えそうだ。

査読分析自然言語処理学術評価

5時間前 ★3

LLMで海難救助通信を自動解析するフレームワーク登場

SeaAlert: Critical Information Extraction From Maritime Distress Communications with Large Language Models

海上遭難通信からリアルタイムに重要情報を抽出するLLMフレームワーク「SeaAlert」が発表された。 GMDSS規格の短文・雑音通信やASR誤りに対応し、合成データで学習データ不足を克服。海上救助の初動対応を支援し、安全分野におけるLLM実用化の可能性を示す。

海上安全情報抽出 LLM応用

5時間前 ★4

推論モデルのSFT劣化問題、新フレームワーク「TESSY」で解決

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

教師モデルの合成データでSFTを行うと推論モデルの性能が低下する問題を解決するTESSYフレームワークが発表された。教師と学生モデルを交互に活用し、スタイル分布の乖離を防ぎながらQwen3-8Bなどの推論能力を向上させる。 GPT-OSS-120Bを教師に用いたコード生成タスクで有効性を実証し、高品質SFTデータ合成の新たな指針となる。

推論モデルファインチューニング合成データ知識蒸留

5時間前 ★3

マルチAIエージェントで臨床エビデンス抽出を自動化

EviSearch: A Human in the Loop System for Extracting and Auditing Clinical Evidence for Systematic Reviews

研究チームがPDFから直接、臨床エビデンス表を生成するマルチエージェントシステム「EviSearch」を発表。 PDF照会・検索・調停の3モジュールがセル単位の出典情報を保証し、人間監査を効率化する。腫瘍学試験ベンチマークでテキスト解析ベースラインを大幅に上回り、医療AI分野に新たな手法を提示。

医療AI マルチエージェントエビデンス抽出システマティックレビュー Human-in-the-Loop

5時間前 ★3

階層的RAGでサイバー脅威の自動分析精度が向上

Hierarchical Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text

MITRE ATT&CKフレームワークへの攻撃手法IDの自動付与に階層的RAGを適用した新手法が発表された戦術→技術の2段階検索により、従来のフラットRAGの限界を克服し精度・効率を大幅改善 CTI(サイバー脅威インテリジェンス)分析の自動化を加速し、セキュリティアナリストの負担軽減に貢献

サイバーセキュリティ MITRE ATT&CK CTI 情報検索

5時間前 ★2

LoRAとICL組み合わせ手法、中国語修辞認識で3冠

Chinese Essay Rhetoric Recognition Using LoRA, In-context Learning and Model Ensemble

CCL 2025の中国語作文修辞認識評価で、LoRAとIn-context Learningを融合した手法が全3トラック1位を獲得した。 JSON形式の出力構造化とキーの中国語化によりLLMへの修辞知識統合を実現し、認識精度を向上。教育・作文支援分野におけるLLM活用の有効性を示す成果として注目される。

教育AI NLP LoRA 修辞認識モデルアンサンブル

5時間前 ★3

SAGEA、逆推論搭載の多言語LLM「Celer 2.6」を公開

SAGE Celer 2.6 Technical Card

SAGEAが5B/10B/27Bの3サイズ展開する汎用LLM「Celer 2.6」を公開した。逆推論（IR）パイプラインによる自己検証機構で幻覚や連鎖誤差を低減する設計が特徴。ヒンディー語・ネパール語向け独自トークナイザを搭載し、南アジア市場への展開を狙う。

LLM 多言語モデルマルチモーダル推論強化南アジア言語

5時間前 ★2

建設PJ議事録をRAGで時系列検索、意思決定追跡を効率化

Chronological Knowledge Retrieval: A Retrieval-Augmented Generation Approach to Construction Project Documentation

大規模建設プロジェクトの議事録から意思決定履歴を時系列で検索するRAGシステムが提案された。セマンティック検索とLLMを組み合わせ、時刻注釈付きの回答を自然言語で取得できる対話型UIを実現。建設・製造など文書量が膨大な業界でのLLM実務活用の可能性を示すケーススタディとなる。

建設業議事録検索 RAG 時系列検索ドメイン特化

5時間前 ★3

RAGの精度を高める新フレームワーク登場、反復推論で安定化

Stateful Evidence-Driven Retrieval-Augmented Generation with Iterative Reasoning

ステートレス検索と平坦なコンテキスト表現というRAGの根本的課題を解決する新フレームワークが発表された。取得文書を構造化推論ユニットに変換し、証拠プールで支持・非支持情報を永続的に管理する独自設計を採用。ノイズの多い検索環境でも安定した回答精度を実現し、RAGを活用する開発者に実践的な改善指針を提供する。

RAG改善質問応答反復推論証拠集約

5時間前 ★2

Llama・Mistral・Qwen、ネパール語対応力を比較検証

Benchmarking Linguistic Adaptation in Comparable-Sized LLMs: A Study of Llama-3.1-8B, Mistral-7B-v0.1, and Qwen3-8B on Romanized Nepali

約8BパラメータのLLM3種（Llama-3.1、Mistral-7B、Qwen3）をローマ字ネパール語で体系的に比較した研究が発表。ゼロショットとQLoRAファインチューニングの両条件下で、流暢性・音声的一貫性・意味整合性など7指標を測定。低資源言語への適応能力の差異を明らかにし、多言語LLM開発の指針となる知見を提供。

低資源言語NLP 多言語LLM ファインチューニングベンチマーク

5時間前 ★3

RAGでLLMの脆弱性分析精度を向上、幻覚も抑制

Tug-of-War within A Decade: Conflict Resolution in Vulnerability Analysis via Teacher-Guided Retrieval-Augmented Generations

LLMによる脆弱性（CVE）分析の知識競合・陳腐化を解決するRAGフレームワーク「CRVA-TGRAG」が発表された。教師モデル誘導型の2段階アーキテクチャにより、CVE検出精度の向上と誤情報生成の抑制を同時に実現。セキュリティ分野でのLLM実用化における信頼性課題に対し、具体的な解決策を提示する研究として注目される。

セキュリティ脆弱性分析 RAG 知識競合 CVE

5時間前 ★2

アライメントLLMの知識抑制、超小型アダプタで修正成功

Correcting Suppressed Log-Probabilities in Language Models with Post-Transformer Adapters

アライメント調整済みLLMが政治的センシティブな話題で示す知識抑制を修正する手法が発表された。わずか786Kパラメータ（ベースモデルの0.02%）の小型アダプタで抑制を修正し、未知事実に最大39%汎化。モデル本体を変えずに抑制された知識を引き出せ、LLMの透明性・解釈可能性研究に貢献。

アライメントアダプタ対数確率政治バイアス知識抑制

5時間前 ★3

勾配エンタングル問題を解消する新手法EAGCが登場

The Devil Is in Gradient Entanglement: Energy-Aware Gradient Coordinator for Robust Generalized Category Discovery

未知クラスを含むデータ分類タスク（GCD）で、最適化の競合「勾配エンタングルメント」を定量分析し解決策を提案。アンカーモデルによる勾配整合とエネルギー認識弾性射影の2モジュール構成で、既知・未知クラスを同時改善。既存手法を複数ベンチマークで上回る性能を達成し、プラグイン型で既存モデルへの統合も容易。

一般化カテゴリ発見勾配干渉表現学習プラグイン最適化

5時間前 ★3

LLM活用の音声英語フィードバック生成、SFTが最良と判明

Listen, Correct, and Feed Back: Spoken Pedagogical Feedback Generation

音声英語学習者向けの教育フィードバック生成データセット「SPFG」が新たに構築・公開された SFT・DPO・KTOの3手法でLLMを比較評価した結果、SFTが最も安定した性能向上を示した文法訂正と学習者適応フィードバックの同時生成を実現し、語学教育AIの実用化に道を開く

音声言語教育文法誤り訂正教育的フィードバック LLMファインチューニング

2日前 ★3

CNNの予測不確実性を理論保証付きで定量化する新手法

Uncertainty Quantification in CNN Through the Bootstrap of Convex Neural Networks

研究チームがCNNの予測不確実性定量化に向け、凸化ニューラルネットを活用したブートストラップ枠組みを発表した。従来手法と異なりブートストラップの統計的一致性を理論的に保証し、ウォームスタートで再学習コストも大幅削減。転移学習への拡張も実現しており、医療診断や自動運転など信頼性が求められる実応用での活用が期待される。

不確実性定量化 CNN ブートストラップ凸最適化転移学習

2日前 ★4

LLMで認知症診断精度が向上、臨床データの汎化に新手法

Schema-Adaptive Tabular Representation Learning with LLMs for Generalizable Multimodal Clinical Reasoning

研究チームがLLMを用いたスキーマ適応型表形式学習手法を発表し、認知症診断で最高性能を達成。異なるデータセット間で構造が異なる表形式データを自然言語変換しセマンティック埋め込みに変換する技術。 NACC・ADNIの複数データセットをまたいだ汎化性能を実現し、医療AIの実臨床応用を前進させる。

tabular learning clinical AI multimodal dementia diagnosis schema generalization

2日前 ★3

SFT層別分析でLoRAを超える新手法、中間層のみで精度10%向上

A Layer-wise Analysis of Supervised Fine-Tuning

研究チームがSFTの各層への影響を情報理論・幾何学・最適化の3指標で体系的に分析した成果を発表。中間層（全体の20〜80%）は学習が安定し、最終層は高感度という層依存パターンを発見。中間層のみを更新するMid-Block手法を提案。 LoRAと比べ最大10.2%の精度向上を達成し、効率的なファインチューニング戦略として注目される。

SFT 効率的ファインチューニング層別解析アライメント LoRA

2日前 ★3

推論特化LLM、交渉シミュレーションで人間らしさ失う——研究が警鐘

When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation

研究者らが推論強化LLMはマルチエージェント交渉シミュレーションで行動模倣精度が低下すると報告。戦略的最適化を優先するあまり、人間らしい妥協的行動が再現できなくなる「ソルバー・サンプラー不一致」を3環境で実証。社会科学シミュレーションや交渉AIの設計において、推論モデルの使い分けが重要な課題となる。

マルチエージェント交渉シミュレーション推論モデル行動経済学エージェントAI

2日前 ★3

LoRAを多項式展開で強化する新手法PERAが登場

Polynomial Expansion Rank Adaptation: Enhancing Low-Rank Fine-Tuning with High-Order Interactions

研究者らがLoRAの線形構造を多項式展開で拡張する新手法「PERA」を発表した。ランクや推論コストを増やさずに高次の非線形相互作用をモデル化し、表現力を大幅向上。ファインチューニングの精度向上が求められる開発現場に新たな選択肢を提供する。

PEFT LoRA拡張 LLMファインチューニング多項式展開

2日前 ★3

医療時系列分類に新手法、欠損データを直接処理

DBGL: Decay-aware Bipartite Graph Learning for Irregular Medical Time Series Classification

不規則な観測間隔や欠損値を持つ医療時系列データを精度良く分類する手法「DBGL」が提案された。患者と変数を二部グラフで表現し、時間減衰エンコーディングで欠損パターンと変数間依存を同時学習。人工的なデータ整列が不要なため、実臨床データへの適用が容易になる可能性がある。

医療AI グラフニューラルネットワーク時系列分類臨床データ

2日前 ★2

小規模LMへの行動蒸留、全手法で改善なし

Disposition Distillation at Small Scale: A Three-Arc Negative Result

0.6B〜2.3BパラメータのLMに行動性向を蒸留する試みで、3つのアプローチすべてが失敗に終わった。 SFT/DPO・注意ヘッド介入・サイドカーの全手法で効果なし、当初の成果は測定誤差・採点ミスだった。小規模モデルへのアライメント蒸留の限界を示す否定的結果として、研究の方向性に重要な示唆を与える。

否定的結果行動性向蒸留小規模言語モデル再現性

2日前 ★3

正規化フリーTransformerの深層学習失敗、理論で解明

Subcritical Signal Propagation at Initialization in Normalization-Free Transformers

LayerNormをtanh系関数で置換した正規化フリーTransformerがなぜ深層で学習困難になるかを理論的に証明した研究が発表された。平均偏ヤコビアンノルム(APJN)という指標を用い、初期化時に信号が伸張指数的に減衰する「臨界未満」状態になることを示した。 Dynamic TanhなどLayerNorm代替アーキテクチャの設計指針に重要な理論的根拠を与える成果。

理論トランスフォーマー正規化信号伝播

2日前 ★3

物理制約DLで太陽光発電予測が大幅向上

Thermodynamic Liquid Manifold Networks: Physics-Bounded Deep Learning for Solar Forecasting in Autonomous Off-Grid Microgrids

自律型オフグリッドPVシステム向けに物理制約を組み込んだ深層学習モデルが発表された。クーマン線形化とリーマン多様体で22の気象変数を処理し、夜間発電予測の物理的矛盾を排除。再生可能エネルギーのマイクログリッド管理における予測精度向上への貢献が期待される。

太陽光発電予測物理制約付き深層学習オフグリッドシステム気象モデリング

2日前 ★4

MTPがTransformerの計画能力を引き出す仕組みを理論的に解明

How Transformers Learn to Plan via Multi-Token Prediction

研究者らが複数トークン予測（MTP）によりTransformerが推論タスクで優れた計画能力を発揮するメカニズムを実証・理論的に解明した。 2層Transformerの解析でMTPが逆向き推論を誘発し、勾配分離特性によりより明確な学習信号を提供することを証明。 LLMの推論能力向上に向けた学習手法の設計指針として、モデル開発・研究に広く影響を与えると期待される。

Multi-token Prediction Planning Transformer理論推論グラフ探索

2日前 ★3

研究者ら、AIの自己監視は「構造統合」なしでは無効と実証

Self-Monitoring Benefits from Structural Integration: Lessons from Metacognition in Continuous-Time Multi-Timescale Agents

連続時間マルチタイムスケールエージェントで自己監視の効果を検証した研究が発表された。補助損失として追加するだけでは定数出力に崩壊し、性能向上はほぼゼロと判明。モジュールをアーキテクチャに組み込む「構造的統合」が自己監視機能の前提条件と示した。

強化学習メタ認知連続時間エージェント補助損失複数時間スケール

2日前 ★3

AI生命探知に致命的欠陥、宇宙サンプルで誤検出多発

Can AI Detect Life? Lessons from Artificial Life

機械学習による地球外サンプルの生命探知手法に重大な欠陥があることが実験で明らかになった。人工生命シミュレーションを用いた検証で、非生命サンプルを約100%の確信度で生命と誤検出することを確認。宇宙探査へのAI活用に警鐘を鳴らし、分布外データへの対応が今後の重要課題として浮上した。

アストロバイオロジー OOD汎化人工生命生命検出

2日前 ★3

LLMで論文フィードバックを自動生成、ICLR1.9万件で学習

GoodPoint: Learning Constructive Scientific Paper Feedback from Author Responses

研究チームがLLMを用いて科学論文への建設的フィードバックを自動生成する手法「GoodPoint」を発表。 ICLR論文約1.9万件の著者応答データを活用し、有効性と著者行動の2軸でフィードバックを評価・最適化。査読の質向上や研究者の負担軽減につながる可能性があり、AI支援レビューの実用化に前進。

論文レビューフィードバック生成 RLHF 学術AI データセット

2日前 ★3

時系列予測モデルへのリアルタイム敵対的攻撃手法「INTARG」を提案

INTARG: Informed Real-Time Adversarial Attack Generation for Time-Series Regression

研究チームが時系列回帰モデルを標的としたオンライン敵対的攻撃フレームワーク「INTARG」を発表。高信頼・高誤差な予測タイムステップを選択的に攻撃する効率化戦略と有界バッファ制約への対応が特徴。予測モデルの脆弱性評価や堅牢性向上の研究に向けた実用的な攻撃基盤を提供する。

敵対的攻撃時系列予測ロバスト性

2日前 ★4

新AI手法、カオス系の支配方程式を高速自動発見

Fast and principled equation discovery from chaos to climate

ノイズの多い観測データから複雑系の支配方程式を自動発見する新手法「Bayesian-ARGOS」が発表された。頻度論的スクリーニングとベイズ推論を組み合わせ、SINDy等の最先端手法を7つのカオス系で上回る性能を達成。気候モデリングや物理シミュレーションなど、科学的法則のAI自動発見に向けた重要な前進となる。

方程式発見カオス系ベイズ推論スパース回帰科学的機械学習

2日前 ★3

LLMで地下流動シミュレーションを自動化、専門知識不要に

AutoSurrogate: An LLM-Driven Multi-Agent Framework for Autonomous Construction of Deep Learning Surrogate Models in Subsurface Flow

AutoSurrogateは自然言語指示のみで深層学習代替モデルを自律構築するLLM駆動の4エージェントシステム。計算コストの高い地下流動シミュレーションを高精度な代替モデルで効率化する。 ML専門知識を持たないドメイン科学者でも活用可能にし、科学分野へのAI普及を加速。

マルチエージェント AutoML 地下流動科学シミュレーション LLMエージェント

2日前 ★3

低帯域でも動く分散学習アーキテクチャ「ResBM」登場

ResBM: Residual Bottleneck Models for Low-Bandwidth Pipeline Parallelism

研究チームが大規模分散学習の高帯域通信依存を解消する新アーキテクチャ「ResBM」を発表。残差エンコーダ・デコーダでアクティベーションを圧縮し、既存手法より簡潔にパイプライン並列化を実現。低コストなネットワーク環境でのLLM学習を可能にし、分散学習の民主化に貢献しうる成果。

分散学習パイプライン並列低帯域幅通信アーキテクチャ設計

2日前 ★2

研究者、AI推論の熱問題を模倣学習で解決

Active Imitation Learning for Thermal- and Kernel-Aware LFM Inference on 3D S-NUCA Many-Cores

3D積層CPU上のLFM推論で生じる熱集中とキャッシュ遅延を解決する新スケジューリング手法が発表された能動的模倣学習によりOracleデモから効率的に方策を習得し、スレッド移行とV/f制御を最適化エッジ・オンプレ環境でのAI推論における熱安全性と性能の両立に道を開く研究として注目される

HPC CPU推論熱管理スケジューリング模倣学習

3日前 ★3

生物研究AIを本格評価、LABBench2が公開

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

研究者チームがAIの生物研究能力を測る新ベンチマーク「LABBench2」を公開した。約1,900タスクで構成され、知識暗記ではなく実際の研究作業遂行能力を定量評価。 AIによる科学的発見の加速を目指す開発者・研究機関にとって重要な指標となる。

ベンチマーク生物学 AIエージェント科学研究評価指標

3日前 ★4

Attention機構と拡散モデルが実は同一構造と判明

The Diffusion-Attention Connection

TransformerのAttentionと拡散マップを統一する新理論が発表された。 QK「双発散」を定義し、Attention・拡散マップ・磁気拡散を単一の枠組みから導出することを証明。 Transformerの理論的基盤を深め、新アーキテクチャ設計への応用が期待される。

Transformer 拡散モデルマルコフ幾何理論的統一アテンション機構

3日前 ★2

AIログ分析の標準手法、7ステップパイプラインを提案

Seven simple steps for log analysis in AI systems

研究者がAIシステム向けログ分析の7ステップパイプラインを論文で公開。 Inspect Scoutライブラリを活用した具体的な実装例とベストプラクティスを提供。標準手法が不在だったAIログ分析の体系化に向け、開発者の実務を支援。

ログ分析 AIシステム評価再現性

3日前 ★3

モバイルAIエージェントを「人間に偽装」するベンチマーク登場

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

研究チームが自律GUIエージェントの「人間化」能力を定式化し、新ベンチマークを発表。モバイルタッチ操作の高品質データセットと検出指標を構築し、学習ベースの行動模倣手法を提案。エージェント検出・防御技術の研究促進と、AIの信頼性評価に新たな基準をもたらす。

GUIエージェント Turingテスト人間化モバイル検出回避

3日前 ★3

100KBマイコンで継続的物体検出、新手法AHCが登場

AHC: Meta-Learned Adaptive Compression for Continual Object Detection on Memory-Constrained Microcontrollers

研究者らがメモリ100KB以下の超小型マイコン向け継続学習型物体検出手法「AHC」を発表。 MAMLベースのメタ学習で5ステップ適応・破滅的忘却を抑制し、階層的圧縮で軽量推論を実現。極限のリソース制約下でのエッジAI展開に道を開く成果として注目される。

継続学習エッジAI モデル圧縮メタ学習物体検出

3日前 ★3

博士論文がXAIPの新境地、ハイブリッドシステムへ応用

Explainable Planning for Hybrid Systems

説明可能なAI計画（XAIP）をハイブリッドシステムに適用した包括的な博士論文が公開された。連続・離散が混在する実世界問題を精密にモデル化し、AIの意思決定プロセスを人間が理解可能にする手法を提案。安全性が求められる自律システムの信頼性向上に貢献し、産業応用への道を開く研究成果として注目される。

説明可能AI 自動計画ハイブリッドシステム XAIP 自律システム

3日前 ★3

プロアクティブAIエージェント、人間介入後も支援継続

Help Without Being Asked: A Deployed Proactive Agent System for On-Call Support with Continuous Self-Improvement

大規模クラウドサービス向けに、人間のサポート介入後もAIが能動的に関与し続ける「Vigil」システムが発表された。従来のリアクティブ型と異なり、チケット対応のライフサイクル全体に関与し、未解決ケースから継続学習して品質を向上。オンコール業務の負荷軽減とサポート品質の自律改善を両立する実用システムとして注目される。

プロアクティブエージェントオンコール支援クラウドサービス LLM 自己改善

3日前 ★3

OOWM、OOP活用でLLMのロボット計画推論を刷新

OOWM: Structuring Embodied Reasoning and Planning via Object-Oriented Programmatic World Modeling

Chain-of-Thoughtの限界を克服する新フレームワーク「OOWM」が発表された。 OOPとUMLで状態空間・オブジェクト階層・因果依存関係を構造的に表現し、既存LLM手法を上回る性能を達成。 LLMによる具現化エージェントの設計指針として、記号的推論の有効性を示す重要な研究成果。

embodied AI world model chain-of-thought robotics LLM

3日前 ★3

GUI画像でUX自動評価するエージェントOpenFlo登場

OpeFlo: Automated UX Evaluation via Simulated Human Web Interaction with GUI Grounding

研究チームがWebのUX評価を自動化するエージェント「OpenFlo」を発表した。 DOMではなくGUI画像を解析してブラウザを操作し、実ユーザーの行動を模倣する点が特徴。 SUS・SEQ・Think Aloudなど標準手法に基づくレポートを自動生成し、UX評価コストを大幅に削減できる。

UX評価 GUIエージェント Webオートメーションユーザビリティ

3日前 ★4

LLMエージェントがPDE物理シミュレーションを自動探索

Agentic Exploration of PDE Spaces using Latent Foundation Models for Parameterized Simulations

マルチエージェントLLMと潜在基盤モデルを組み合わせた流体物理の自動探索フレームワークを発表。潜在空間で流場を圧縮表現し、高コストな数値計算を代替するサロゲートモデルとして機能する。 AIによる大規模・自律的な物理現象解析が可能になり、科学シミュレーションの効率化に道を開く。

マルチエージェントLLM 偏微分方程式潜在基盤モデルサロゲートモデル流体シミュレーション

3日前 ★3

実世界対応のモバイルエージェント評価基盤「MobiFlow」登場

MobiFlow: Real-World Mobile Agent Benchmarking through Trajectory Fusion

研究チームが任意のAndroidアプリに対応するエージェント評価フレームワーク「MobiFlow」を発表。マルチ軌跡融合技術で状態空間を圧縮し、動的なUI操作を精度高く評価できる仕組みを実現。既存手法の実世界乖離問題を解消し、モバイルエージェント研究の標準基盤となる可能性。

モバイルエージェントベンチマーク GUI自動化評価フレームワーク

3日前 ★3

AIエージェントの「自己喪失」問題、複数アンカー記憶で解決へ

Persistent Identity in AI Agents: A Multi-Anchor Architecture for Resilient Memory and Continuity

コンテキスト超過時にAIエージェントが同一性を失う問題に対し、新たなアーキテクチャが提案された。人間の分散記憶を模倣したRAG+RLMハイブリッド検索により、記憶を自動ルーティングするsoul.pyを実装。エージェント開発における「連続性の欠如」という根本課題に、実用的な解法を示した点で注目される。

エージェント長期記憶 RAG アイデンティティオープンソース

3日前 ★4

査読AIエージェント、Gemini 2.5 Proを超える精度を達成

DeepReviewer 2.0: A Traceable Agentic System for Auditable Scientific Peer Review

DeepReviewer 2.0が科学論文の査読を自動化するエージェント型システムとして発表された。根拠アノテーションと証拠付き出力を生成し、ICLR 2025の134件でGemini 2.5 Proを上回る問題検出率を記録。研究者の査読負担を大幅に削減し、科学的知見の信頼性向上に貢献する可能性がある。

自動査読エージェントAI 科学論文評価トレーサビリティ LLM応用

3日前 ★3

研究者ら、LLMの空間認知を体系評価するSCBenchを発表

Spatial Competence Benchmark

大規模言語モデルの空間推論能力を測定する新ベンチマーク「SCBench」が提案された。 3階層の能力バケット構造と決定論的チェッカー・シミュレータによる厳密な出力検証が特徴。 LLMの弱点とされる空間認知の評価基盤として、モデル改善の指針となることが期待される。

ベンチマーク空間推論 LLM評価 3D理解

3日前 ★3

中国研究チーム、皮膚科診断AIエージェント「DERM-3R」を発表

DERM-3R: A Resource-Efficient Multimodal Agents Framework for Dermatologic Diagnosis and Treatment in Real-World Clinical Settings

リソース制約環境向けの皮膚科診断マルチモーダルAIフレームワーク「DERM-3R」が発表された。細粒度病変認識・多視点表現・全身的再評価の3課題を解決し、実臨床ワークフローを模倣した設計を採用。医療現場での実用的なAI診断支援への道を開く研究として注目される。

皮膚科AI マルチモーダル伝統医学医療AI エージェント

3日前 ★3

知識グラフ推論に新手法CID-TKG登場

CID-TKG: Collaborative Historical Invariance and Evolutionary Dynamics Learning for Temporal Knowledge Graph Reasoning

時間的知識グラフの未来イベント予測を改善する新フレームワーク「CID-TKG」が研究者らにより提案された。歴史的不変グラフと進化的ダイナミクスグラフを協調学習し、関係分解でグラフ間の意味的乖離を緩和。既存手法が見落とす短期・長期パターンを統合し、KG推論の予測精度向上に貢献する。

時間的知識グラフグラフ推論時系列学習知識ベースリンク予測

3日前 ★3

LLMでアルファ因子を自動発見するフレームワーク「Hubble」登場

Hubble: An LLM-Driven Agentic Framework for Safe and Automated Alpha Factor Discovery

研究チームが、LLMを活用した定量金融向けアルファ因子自動探索フレームワーク「Hubble」を発表した。 ASTベースのサンドボックスと独自演算子言語で安全性を担保しつつ、RankIC・情報比などで候補因子を厳密評価する。クォンツ運用の自動化・高度化に向け、LLMの金融実務応用を大きく前進させる可能性がある。

定量金融アルファ因子 LLMエージェント進化的探索自動化

3日前 ★2

LLM不確かさ評価、中性論理の限界をテンソルで克服

From Scalars to Tensors: Declared Losses Recover Epistemic Distinctions That Neutrosophic Scalars Cannot Express

研究者がLLM不確かさ評価の中性論理スカラーに重大な欠陥を発見したテンソルと宣言損失で逆説・無知・偶発性の「吸収問題」を解決し認識論的区別を回復 LLMの信頼性・不確かさ定量化の精度向上に貢献する可能性がある

中性論理 LLM評価不確実性認識論テンソル

4日前 ★3

GNNを審判役にLLMのグラフ学習を強化する新手法

GNN-as-Judge: Unleashing the Power of LLMs for Graph Learning with GNN Feedback

研究チームがGNNをラベル品質の審判役として活用し、LLMのグラフ学習を強化する「GNN-as-Judge」を発表。 GNNの構造的バイアスで疑似ラベルのノイズを抑制し、少数ショット半教師あり学習を実現する。ラベル不足環境でのLLMファインチューニングの課題を解決し、実用的なグラフAI応用に貢献。

グラフニューラルネットワーク LLM 半教師あり学習テキスト属性グラフ few-shot学習

4日前 ★4

研究者ら警告——LLM生成テキストが次世代モデルを劣化させる

Drift and selection in LLM text ecosystems

生成AIの出力が公開テキストに混入し次世代モデルの学習データとなる再帰的サイクルを数学的に解明した研究が発表された。フィルタなし再利用（ドリフト）は希少表現を消滅させ、コーパスを浅い定常分布へ収束させることが示された。品質・正確性・新規性を基準とした選択的フィルタリングが、言語の多様性と深さを維持するために不可欠と結論づけた。

モデル崩壊データ汚染 n-gram 情報理論 AIエコシステム

4日前 ★3

LLMで医師間対話を合成生成、プライバシー問題を解決

SynDocDis: A Metadata-Driven Framework for Generating Synthetic Physician Discussions Using Large Language Models

研究チームがLLMを用いて医師間ディスカッションデータを合成生成するフレームワーク「SynDocDis」を発表。匿名化メタデータと構造化プロンプトで臨床的に正確な対話を生成し、医師評価で平均4.4/5を獲得。プライバシー規制で入手困難な医療対話データの不足を補い、医療AIの学習データ問題に貢献。

合成データ生成医療AI 臨床対話プライバシー保護 LLM

4日前 ★3

研究者ら、EMAだけの文脈圧縮の限界を情報理論で解明

EMA Is Not All You Need: Mapping the Boundary Between Structure and Content in Recurrent Context

EMA（指数移動平均）のみを用いた循環文脈が言語モデリングに失敗することを実証的に示した基礎研究が発表された。 EMAは時間的構造を捉えられるが、トークン同一性を破壊するためLM損失が改善しないことを情報理論的に証明。ゲートや内容検索機構の必要性を裏付け、次世代RNN・SSMアーキテクチャ設計に重要な指針を提供する。

循環ニューラルネット系列モデル EMA 言語モデル情報理論

4日前 ★4

拡散型LLMの安全機構、再マスク攻撃で無効化される

Re-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models

研究者がLLaDA-8B・Dream-7Bなど拡散型言語モデルの安全拒否機能を突破する攻撃手法を発表。勾配計算不要で安全トークンを再マスクし肯定接頭辞を注入するだけで、最大81.8%の攻撃成功率を達成。個別実装ではなくdLLMアーキテクチャ自体の構造的欠陥であり、業界全体での対策が急務。

拡散言語モデル安全性 Jailbreak レッドチーミング

4日前 ★4

研究者ら、TTS推論コストを大幅削減するWANDを発表

WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models

自己回帰型音声合成モデルの計算・メモリ効率を高めるWANDフレームワークが発表された。窓型注意機構と知識蒸留を組み合わせ、KVキャッシュを最大66.2%削減しながら品質を維持。リアルタイムTTSや端末上での音声合成など、低リソース環境への展開を大きく前進させる。

TTS 自己回帰モデルアテンション機構知識蒸留効率化

4日前 ★4

LLM医療推論を体系化、新ベンチマークMR-Bench登場

Medical Reasoning with Large Language Models: A Survey and MR-Bench

研究チームがLLMの医療推論能力を包括的にサーベイし、新ベンチマーク「MR-Bench」を提案。臨床推論を仮説形成・演繹・帰納の反復プロセスとして概念化し、7つの技術経路に分類。統一実験環境でのモデル比較により、医療AIの現状課題と今後の開発指針を明確化した。

医療AI LLM推論ベンチマーク臨床意思決定サーベイ

4日前 ★2

未知テキストを自動棄却する分類手法が登場

Uncertainty Estimation for the Open-Set Text Classification systems

オープンセットテキスト分類向けの不確実性推定フレームワークが新たに提案された。テキスト固有の曖昧さと分布的な曖昧さを区別する2種類の不確実性を統合推定する設計。著者帰属・意図分類など3種のベンチマークで有効性を実証し、未知クラス検出の精度向上に貢献。

不確実性推定オープンセット認識テキスト分類 OOD検知

4日前 ★2

研究者ら、バイアス軽減が埋め込み空間に与える影響を可視化

A Representation-Level Assessment of Bias Mitigation in Foundation Models

BERTとLlama2を対象に、バイアス軽減処理が埋め込み空間の構造をどう変化させるかを内部解析した研究が発表された。ジェンダーと職業の関連性を幾何学的変換として捉え、軽減前後のモデルを比較・定量評価する手法を提案。公平性向上の取り組みを「解釈可能な形」で検証できる枠組みを示し、AI監査ツールの開発に貢献する。

バイアス軽減公平性埋め込み空間 BERT Llama2

4日前 ★3

TTS音声品質をAIが自動評価、HuBERT活用で精度73.7%達成

Neural networks for Text-to-Speech evaluation

TTS音声の品質評価を自動化する複数のニューラルモデルが新たに提案された。相対評価にHuBERT基盤のNeuralSBS（精度73.7%）、絶対評価にWhisperとBERTのアンサンブルを採用。人手評価に依存してきたTTS開発のボトルネックを解消し、音声AI開発の効率化に貢献する。

TTS 音声品質評価 MOS HuBERT Whisper

4日前 ★3

温度設定でLLMの推論力が14倍差、研究が明らかに

Temperature-Dependent Performance of Prompting Strategies in Extended Reasoning Large Language Models

拡張推論LLMにおける温度設定とプロンプト戦略の相互作用を体系的に分析した研究が公開された。ゼロショットは中間温度(T=0.4〜0.7)で最高59%の精度、CoTは極端な温度で優位になることが判明。拡張推論の効果はT=0.0の6倍からT=1.0では14.3倍に拡大し、温度設定の重要性を示す。

プロンプトエンジニアリング推論モデル温度パラメータ数学ベンチマーク Chain-of-Thought

4日前 ★4

拡散型LLMの並列デコード精度を高める新手法ABS登場

Attention-Based Sampler for Diffusion Language Models

研究者らが拡散言語モデル向けの新デコード戦略「ABS」を発表した。アテンション行列の列和を用いたトークン順序付けで対数尤度最大化を理論的に近似、既存手法を凌駕。自己回帰モデルに代わる並列デコードの実用化を加速し、推論速度向上への道を開く。

拡散言語モデルデコード戦略アテンション機構並列推論

4日前 ★3

木構造スパースFFN、1B超モデルで有効性実証

Dynamic sparsity in tree-structured feed-forward layers at scale

トランスフォーマーのMLP層を木構造の条件付き疎計算に置換する手法が1Bパラメータ超でも有効と確認された。 FFNユニットの活性化率5%未満で密なベースラインと同等性能を達成し、計算コストを大幅削減。大規模モデルの推論効率化に道を開く成果として、LLM開発者の注目を集めそうだ。

スパースモデル条件付き計算トランスフォーマー MoE 効率化

4日前 ★2

LLMとBERTでアラビア語感情分類を比較、解釈の多様性が明らかに

Sentiment Classification of Gaza War Headlines: A Comparative Analysis of Large Language Models and Arabic Fine-Tuned BERT Models

ガザ戦争関連アラビア語見出し約1.1万件でLLM3種とBERTモデル6種の感情分類能力を比較研究。 MARBERTは強い偏向を示す一方、LLMは分布が広く多様な解釈をする傾向が判明。感情分類をモデルアーキテクチャによる解釈行為と捉える新たな分析視点を提示した。

感情分析アラビア語NLP BERT LLM比較メディア分析

4日前 ★4

研究者ら、複数ユーザーによるLLMエージェント利用を初めて理論化

Multi-User Large Language Model Agents

LLMエージェントを複数ユーザーが同時利用する状況を多主体意思決定問題として初めて形式化した研究が登場。役割・権限・プライバシーが異なるユーザー間の利益相反や情報非対称性を分析し、既存の単一ユーザー最適化モデルの限界を指摘。組織・チームでのAIエージェント導入が加速する中、現実的な多ユーザー対応の設計指針を提供する枠組みとして注目される。

マルチエージェント LLMエージェント多主体意思決定プライバシー組織AI

4日前 ★2

LLMが研究論文の「母語の痕跡」を消す——NLI分析で判明

Can We Still Hear the Accent? Investigating the Resilience of Native Language Signals in the LLM Era

研究者がACL Anthologyの論文を分析し、LLM普及後に著者の母語識別精度が低下したことを確認。母語識別（NLI）タスクで3時代を比較、LLM後は言語的多様性が失われる傾向が明らかに。執筆支援AIが学術界の言語的均質化を促進する可能性を示唆し、研究倫理の議論を呼ぶ。

自然言語処理著者識別 LLM影響分析言語学論文分析

4日前 ★3

記憶誘導型ベイズ最適化MG-TuRBOで高次元最適化を突破

Memory-Guided Trust-Region Bayesian Optimization (MG-TuRBO) for High Dimensions

高次元・高コスト最適化向けの新手法「MG-TuRBO」が研究者らにより提案された。信頼領域を過去の探索記憶で誘導し、14次元・84次元で遺伝的アルゴリズムを上回る性能を実証。交通シミュレーション校正など実世界の高次元最適化タスクへの応用が期待される。

ベイズ最適化交通シミュレーション高次元最適化デジタルツイン Trust-Region

4日前 ★3

量子コード生成LLMの統一ベンチマーク「QuanBench+」登場

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

研究チームがQiskit・PennyLane・Cirq対応の統一量子コード生成ベンチマーク「QuanBench+」を発表。 42タスクでLLMの性能をPass@1/5とKLダイバージェンスで評価、フィードバック修復込みで最大83.3%を達成。量子コンピューティング×LLMの実用化に向け、マルチフレームワーク対応の課題解決に貢献。

量子コンピュータコード生成ベンチマーク LLM評価 Qiskit

4日前 ★4

LLMの数学推論、入力変形で最大100%精度低下と判明

Robust Reasoning Benchmark

研究チームが14種の入力摂動手法でLLMの推論頑健性を評価するベンチマークを公開した。 AIME 2024を改変したテストで8モデルを検証し、オープンウェイト系は平均55%・最大100%の精度崩壊を確認。高精度ベンチマーク結果の信頼性に疑問を投げかけ、堅牢な評価手法の必要性を示した。

ベンチマーク推論ロバストネス数学 LLM評価

4日前 ★3

研究者ら、ハイパーパラメータ不要のOOD検出手法を提案

Ranked Activation Shift for Post-Hoc Out-of-Distribution Detection

中間層の活性値を利用したOOD（分布外）検出の不安定性を分析し、新たな手法「Ranked Activation Shift」を発表。ソート済み活性量を固定の分布内参照プロファイルで置き換えることで、チューニング不要かつ安定した検出を実現。データセットやアーキテクチャに依存せず汎用的に機能し、モデルの信頼性向上に貢献する実用的アプローチ。

OOD検出活性値編集ポストホック信頼性分類

AIフロントライン

要約済み 75

未要約 20