arXiv cs.AI/cs.CL/cs.LG
要約済み 75
-
5時間前 ★4圧縮センシングでLLM推論を動的最適化する新手法Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models
圧縮センシング理論を応用し、LLMの計算経路をタスク・トークンごとに動的に選択する新フレームワークが発表された。 プルーニングとプロンプト圧縮を統合し、スパース回復によって不要な計算を削減する推論効率化を実現。 モデルサイズを維持しつつ推論コストを削減できる可能性があり、LLMの実用展開コスト低減に貢献が期待される。
-
5時間前 ★3LLM長期記憶をゲームで評価する新ベンチマーク登場MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios
研究者らがゲーム型インタラクティブシナリオでLLMの長期記憶を評価する「MemGround」を発表。 3層階層的な記憶能力をQA・MFU・MFCOなど多次元指標で定量評価し、動的追跡や階層的推論も計測可能。 静的タスク中心だった既存評価の限界を補い、実用的なエージェント開発の指針となりうる。
-
5時間前 ★3LLM搭載IMEで深いパーソナライズ入力を実現——オンデバイス展開も対応HUOZIIME: An On-Device LLM-enhanced Input Method for Deep Personalization
研究チームがLLMを統合したモバイル向け入力メソッド「HUOZIIME」を発表した。 階層的メモリ機構でユーザー固有の入力パターンを継続学習し、個人に最適化された変換を実現。 オンデバイス動作に向けた最適化により、クラウド不要でプライバシーを保ちながら低遅延を達成する。
-
5時間前 ★3原子力制御室向けAIエージェント基盤「NuHF Claw」が登場NuHF Claw: A Risk Constrained Cognitive Agent Framework for Human Centered Procedure Support in Digital Nuclear Control Rooms
原子力発電所の制御室オペレーターを支援するリスク制約型AIエージェントフレームワーク「NuHF Claw」が発表された。 リアルタイムで認知状態を推定しつつ確率論的安全評価と連携、ハルシネーション抑制機構を内蔵する。 安全クリティカル分野へのAIエージェント適用における新たな設計指針を示す研究として注目される。
-
5時間前 ★3LLM、論文のデータ漏洩を自動検出——6モデルが一致した診断Can Large Language Models Detect Methodological Flaws? Evidence from Gesture Recognition for UAV-Based Rescue Operation Based on Deep Learning
研究者らがLLMを用いてML論文の方法論的欠陥を自動検出できるか検証した。 6種類のLLMがジェスチャー認識論文の被験者レベルのデータ漏洩を正確に特定。 査読・再現性検証の自動化に向けた有力なアプローチとして注目される。
-
5時間前 ★3査読スコアとコメントに大きな乖離、「丁寧さ原則」を解明Decoupling Scores and Text: The Politeness Principle in Peer Review
ICLR2021〜2025の3万件超の査読データを分析した研究が発表された。 スコアベースの採否予測は91%の精度だが、テキストベースでは81%に留まることが判明。 礼儀正しいコメントが実際の評価を隠す構造的バイアスが示され、AI査読ツール開発に影響を与えそうだ。
-
5時間前 ★3LLMで海難救助通信を自動解析するフレームワーク登場SeaAlert: Critical Information Extraction From Maritime Distress Communications with Large Language Models
海上遭難通信からリアルタイムに重要情報を抽出するLLMフレームワーク「SeaAlert」が発表された。 GMDSS規格の短文・雑音通信やASR誤りに対応し、合成データで学習データ不足を克服。 海上救助の初動対応を支援し、安全分野におけるLLM実用化の可能性を示す。
-
5時間前 ★4推論モデルのSFT劣化問題、新フレームワーク「TESSY」で解決How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data
教師モデルの合成データでSFTを行うと推論モデルの性能が低下する問題を解決するTESSYフレームワークが発表された。 教師と学生モデルを交互に活用し、スタイル分布の乖離を防ぎながらQwen3-8Bなどの推論能力を向上させる。 GPT-OSS-120Bを教師に用いたコード生成タスクで有効性を実証し、高品質SFTデータ合成の新たな指針となる。
-
5時間前 ★3マルチAIエージェントで臨床エビデンス抽出を自動化EviSearch: A Human in the Loop System for Extracting and Auditing Clinical Evidence for Systematic Reviews
研究チームがPDFから直接、臨床エビデンス表を生成するマルチエージェントシステム「EviSearch」を発表。 PDF照会・検索・調停の3モジュールがセル単位の出典情報を保証し、人間監査を効率化する。 腫瘍学試験ベンチマークでテキスト解析ベースラインを大幅に上回り、医療AI分野に新たな手法を提示。
-
5時間前 ★3階層的RAGでサイバー脅威の自動分析精度が向上Hierarchical Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text
MITRE ATT&CKフレームワークへの攻撃手法IDの自動付与に階層的RAGを適用した新手法が発表された 戦術→技術の2段階検索により、従来のフラットRAGの限界を克服し精度・効率を大幅改善 CTI(サイバー脅威インテリジェンス)分析の自動化を加速し、セキュリティアナリストの負担軽減に貢献
-
5時間前 ★2LoRAとICL組み合わせ手法、中国語修辞認識で3冠Chinese Essay Rhetoric Recognition Using LoRA, In-context Learning and Model Ensemble
CCL 2025の中国語作文修辞認識評価で、LoRAとIn-context Learningを融合した手法が全3トラック1位を獲得した。 JSON形式の出力構造化とキーの中国語化によりLLMへの修辞知識統合を実現し、認識精度を向上。 教育・作文支援分野におけるLLM活用の有効性を示す成果として注目される。
-
5時間前 ★3SAGEA、逆推論搭載の多言語LLM「Celer 2.6」を公開SAGE Celer 2.6 Technical Card
SAGEAが5B/10B/27Bの3サイズ展開する汎用LLM「Celer 2.6」を公開した。 逆推論(IR)パイプラインによる自己検証機構で幻覚や連鎖誤差を低減する設計が特徴。 ヒンディー語・ネパール語向け独自トークナイザを搭載し、南アジア市場への展開を狙う。
-
5時間前 ★2建設PJ議事録をRAGで時系列検索、意思決定追跡を効率化Chronological Knowledge Retrieval: A Retrieval-Augmented Generation Approach to Construction Project Documentation
大規模建設プロジェクトの議事録から意思決定履歴を時系列で検索するRAGシステムが提案された。 セマンティック検索とLLMを組み合わせ、時刻注釈付きの回答を自然言語で取得できる対話型UIを実現。 建設・製造など文書量が膨大な業界でのLLM実務活用の可能性を示すケーススタディとなる。
-
5時間前 ★3RAGの精度を高める新フレームワーク登場、反復推論で安定化Stateful Evidence-Driven Retrieval-Augmented Generation with Iterative Reasoning
ステートレス検索と平坦なコンテキスト表現というRAGの根本的課題を解決する新フレームワークが発表された。 取得文書を構造化推論ユニットに変換し、証拠プールで支持・非支持情報を永続的に管理する独自設計を採用。 ノイズの多い検索環境でも安定した回答精度を実現し、RAGを活用する開発者に実践的な改善指針を提供する。
-
5時間前 ★2Llama・Mistral・Qwen、ネパール語対応力を比較検証Benchmarking Linguistic Adaptation in Comparable-Sized LLMs: A Study of Llama-3.1-8B, Mistral-7B-v0.1, and Qwen3-8B on Romanized Nepali
約8BパラメータのLLM3種(Llama-3.1、Mistral-7B、Qwen3)をローマ字ネパール語で体系的に比較した研究が発表。 ゼロショットとQLoRAファインチューニングの両条件下で、流暢性・音声的一貫性・意味整合性など7指標を測定。 低資源言語への適応能力の差異を明らかにし、多言語LLM開発の指針となる知見を提供。
-
5時間前 ★3RAGでLLMの脆弱性分析精度を向上、幻覚も抑制Tug-of-War within A Decade: Conflict Resolution in Vulnerability Analysis via Teacher-Guided Retrieval-Augmented Generations
LLMによる脆弱性(CVE)分析の知識競合・陳腐化を解決するRAGフレームワーク「CRVA-TGRAG」が発表された。 教師モデル誘導型の2段階アーキテクチャにより、CVE検出精度の向上と誤情報生成の抑制を同時に実現。 セキュリティ分野でのLLM実用化における信頼性課題に対し、具体的な解決策を提示する研究として注目される。
-
5時間前 ★2アライメントLLMの知識抑制、超小型アダプタで修正成功Correcting Suppressed Log-Probabilities in Language Models with Post-Transformer Adapters
アライメント調整済みLLMが政治的センシティブな話題で示す知識抑制を修正する手法が発表された。 わずか786Kパラメータ(ベースモデルの0.02%)の小型アダプタで抑制を修正し、未知事実に最大39%汎化。 モデル本体を変えずに抑制された知識を引き出せ、LLMの透明性・解釈可能性研究に貢献。
-
5時間前 ★3勾配エンタングル問題を解消する新手法EAGCが登場The Devil Is in Gradient Entanglement: Energy-Aware Gradient Coordinator for Robust Generalized Category Discovery
未知クラスを含むデータ分類タスク(GCD)で、最適化の競合「勾配エンタングルメント」を定量分析し解決策を提案。 アンカーモデルによる勾配整合とエネルギー認識弾性射影の2モジュール構成で、既知・未知クラスを同時改善。 既存手法を複数ベンチマークで上回る性能を達成し、プラグイン型で既存モデルへの統合も容易。
-
5時間前 ★3LLM活用の音声英語フィードバック生成、SFTが最良と判明Listen, Correct, and Feed Back: Spoken Pedagogical Feedback Generation
音声英語学習者向けの教育フィードバック生成データセット「SPFG」が新たに構築・公開された SFT・DPO・KTOの3手法でLLMを比較評価した結果、SFTが最も安定した性能向上を示した 文法訂正と学習者適応フィードバックの同時生成を実現し、語学教育AIの実用化に道を開く
-
2日前 ★3CNNの予測不確実性を理論保証付きで定量化する新手法Uncertainty Quantification in CNN Through the Bootstrap of Convex Neural Networks
研究チームがCNNの予測不確実性定量化に向け、凸化ニューラルネットを活用したブートストラップ枠組みを発表した。 従来手法と異なりブートストラップの統計的一致性を理論的に保証し、ウォームスタートで再学習コストも大幅削減。 転移学習への拡張も実現しており、医療診断や自動運転など信頼性が求められる実応用での活用が期待される。
-
2日前 ★4LLMで認知症診断精度が向上、臨床データの汎化に新手法Schema-Adaptive Tabular Representation Learning with LLMs for Generalizable Multimodal Clinical Reasoning
研究チームがLLMを用いたスキーマ適応型表形式学習手法を発表し、認知症診断で最高性能を達成。 異なるデータセット間で構造が異なる表形式データを自然言語変換しセマンティック埋め込みに変換する技術。 NACC・ADNIの複数データセットをまたいだ汎化性能を実現し、医療AIの実臨床応用を前進させる。
-
2日前 ★3SFT層別分析でLoRAを超える新手法、中間層のみで精度10%向上A Layer-wise Analysis of Supervised Fine-Tuning
研究チームがSFTの各層への影響を情報理論・幾何学・最適化の3指標で体系的に分析した成果を発表。 中間層(全体の20〜80%)は学習が安定し、最終層は高感度という層依存パターンを発見。中間層のみを更新するMid-Block手法を提案。 LoRAと比べ最大10.2%の精度向上を達成し、効率的なファインチューニング戦略として注目される。
-
2日前 ★3推論特化LLM、交渉シミュレーションで人間らしさ失う——研究が警鐘When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation
研究者らが推論強化LLMはマルチエージェント交渉シミュレーションで行動模倣精度が低下すると報告。 戦略的最適化を優先するあまり、人間らしい妥協的行動が再現できなくなる「ソルバー・サンプラー不一致」を3環境で実証。 社会科学シミュレーションや交渉AIの設計において、推論モデルの使い分けが重要な課題となる。
-
2日前 ★3LoRAを多項式展開で強化する新手法PERAが登場Polynomial Expansion Rank Adaptation: Enhancing Low-Rank Fine-Tuning with High-Order Interactions
研究者らがLoRAの線形構造を多項式展開で拡張する新手法「PERA」を発表した。 ランクや推論コストを増やさずに高次の非線形相互作用をモデル化し、表現力を大幅向上。 ファインチューニングの精度向上が求められる開発現場に新たな選択肢を提供する。
-
2日前 ★3医療時系列分類に新手法、欠損データを直接処理DBGL: Decay-aware Bipartite Graph Learning for Irregular Medical Time Series Classification
不規則な観測間隔や欠損値を持つ医療時系列データを精度良く分類する手法「DBGL」が提案された。 患者と変数を二部グラフで表現し、時間減衰エンコーディングで欠損パターンと変数間依存を同時学習。 人工的なデータ整列が不要なため、実臨床データへの適用が容易になる可能性がある。
-
2日前 ★2小規模LMへの行動蒸留、全手法で改善なしDisposition Distillation at Small Scale: A Three-Arc Negative Result
0.6B〜2.3BパラメータのLMに行動性向を蒸留する試みで、3つのアプローチすべてが失敗に終わった。 SFT/DPO・注意ヘッド介入・サイドカーの全手法で効果なし、当初の成果は測定誤差・採点ミスだった。 小規模モデルへのアライメント蒸留の限界を示す否定的結果として、研究の方向性に重要な示唆を与える。
-
2日前 ★3正規化フリーTransformerの深層学習失敗、理論で解明Subcritical Signal Propagation at Initialization in Normalization-Free Transformers
LayerNormをtanh系関数で置換した正規化フリーTransformerがなぜ深層で学習困難になるかを理論的に証明した研究が発表された。 平均偏ヤコビアンノルム(APJN)という指標を用い、初期化時に信号が伸張指数的に減衰する「臨界未満」状態になることを示した。 Dynamic TanhなどLayerNorm代替アーキテクチャの設計指針に重要な理論的根拠を与える成果。
-
2日前 ★3物理制約DLで太陽光発電予測が大幅向上Thermodynamic Liquid Manifold Networks: Physics-Bounded Deep Learning for Solar Forecasting in Autonomous Off-Grid Microgrids
自律型オフグリッドPVシステム向けに物理制約を組み込んだ深層学習モデルが発表された。 クーマン線形化とリーマン多様体で22の気象変数を処理し、夜間発電予測の物理的矛盾を排除。 再生可能エネルギーのマイクログリッド管理における予測精度向上への貢献が期待される。
-
2日前 ★4MTPがTransformerの計画能力を引き出す仕組みを理論的に解明How Transformers Learn to Plan via Multi-Token Prediction
研究者らが複数トークン予測(MTP)によりTransformerが推論タスクで優れた計画能力を発揮するメカニズムを実証・理論的に解明した。 2層Transformerの解析でMTPが逆向き推論を誘発し、勾配分離特性によりより明確な学習信号を提供することを証明。 LLMの推論能力向上に向けた学習手法の設計指針として、モデル開発・研究に広く影響を与えると期待される。
-
2日前 ★3研究者ら、AIの自己監視は「構造統合」なしでは無効と実証Self-Monitoring Benefits from Structural Integration: Lessons from Metacognition in Continuous-Time Multi-Timescale Agents
連続時間マルチタイムスケールエージェントで自己監視の効果を検証した研究が発表された。 補助損失として追加するだけでは定数出力に崩壊し、性能向上はほぼゼロと判明。 モジュールをアーキテクチャに組み込む「構造的統合」が自己監視機能の前提条件と示した。
-
2日前 ★3AI生命探知に致命的欠陥、宇宙サンプルで誤検出多発Can AI Detect Life? Lessons from Artificial Life
機械学習による地球外サンプルの生命探知手法に重大な欠陥があることが実験で明らかになった。 人工生命シミュレーションを用いた検証で、非生命サンプルを約100%の確信度で生命と誤検出することを確認。 宇宙探査へのAI活用に警鐘を鳴らし、分布外データへの対応が今後の重要課題として浮上した。
-
2日前 ★3LLMで論文フィードバックを自動生成、ICLR1.9万件で学習GoodPoint: Learning Constructive Scientific Paper Feedback from Author Responses
研究チームがLLMを用いて科学論文への建設的フィードバックを自動生成する手法「GoodPoint」を発表。 ICLR論文約1.9万件の著者応答データを活用し、有効性と著者行動の2軸でフィードバックを評価・最適化。 査読の質向上や研究者の負担軽減につながる可能性があり、AI支援レビューの実用化に前進。
-
2日前 ★3時系列予測モデルへのリアルタイム敵対的攻撃手法「INTARG」を提案INTARG: Informed Real-Time Adversarial Attack Generation for Time-Series Regression
研究チームが時系列回帰モデルを標的としたオンライン敵対的攻撃フレームワーク「INTARG」を発表。 高信頼・高誤差な予測タイムステップを選択的に攻撃する効率化戦略と有界バッファ制約への対応が特徴。 予測モデルの脆弱性評価や堅牢性向上の研究に向けた実用的な攻撃基盤を提供する。
-
2日前 ★4新AI手法、カオス系の支配方程式を高速自動発見Fast and principled equation discovery from chaos to climate
ノイズの多い観測データから複雑系の支配方程式を自動発見する新手法「Bayesian-ARGOS」が発表された。 頻度論的スクリーニングとベイズ推論を組み合わせ、SINDy等の最先端手法を7つのカオス系で上回る性能を達成。 気候モデリングや物理シミュレーションなど、科学的法則のAI自動発見に向けた重要な前進となる。
-
2日前 ★3LLMで地下流動シミュレーションを自動化、専門知識不要にAutoSurrogate: An LLM-Driven Multi-Agent Framework for Autonomous Construction of Deep Learning Surrogate Models in Subsurface Flow
AutoSurrogateは自然言語指示のみで深層学習代替モデルを自律構築するLLM駆動の4エージェントシステム。 計算コストの高い地下流動シミュレーションを高精度な代替モデルで効率化する。 ML専門知識を持たないドメイン科学者でも活用可能にし、科学分野へのAI普及を加速。
-
2日前 ★3低帯域でも動く分散学習アーキテクチャ「ResBM」登場ResBM: Residual Bottleneck Models for Low-Bandwidth Pipeline Parallelism
研究チームが大規模分散学習の高帯域通信依存を解消する新アーキテクチャ「ResBM」を発表。 残差エンコーダ・デコーダでアクティベーションを圧縮し、既存手法より簡潔にパイプライン並列化を実現。 低コストなネットワーク環境でのLLM学習を可能にし、分散学習の民主化に貢献しうる成果。
-
2日前 ★2研究者、AI推論の熱問題を模倣学習で解決Active Imitation Learning for Thermal- and Kernel-Aware LFM Inference on 3D S-NUCA Many-Cores
3D積層CPU上のLFM推論で生じる熱集中とキャッシュ遅延を解決する新スケジューリング手法が発表された 能動的模倣学習によりOracleデモから効率的に方策を習得し、スレッド移行とV/f制御を最適化 エッジ・オンプレ環境でのAI推論における熱安全性と性能の両立に道を開く研究として注目される
-
3日前 ★3生物研究AIを本格評価、LABBench2が公開LABBench2: An Improved Benchmark for AI Systems Performing Biology Research
研究者チームがAIの生物研究能力を測る新ベンチマーク「LABBench2」を公開した。 約1,900タスクで構成され、知識暗記ではなく実際の研究作業遂行能力を定量評価。 AIによる科学的発見の加速を目指す開発者・研究機関にとって重要な指標となる。
-
3日前 ★4Attention機構と拡散モデルが実は同一構造と判明The Diffusion-Attention Connection
TransformerのAttentionと拡散マップを統一する新理論が発表された。 QK「双発散」を定義し、Attention・拡散マップ・磁気拡散を単一の枠組みから導出することを証明。 Transformerの理論的基盤を深め、新アーキテクチャ設計への応用が期待される。
-
3日前 ★2AIログ分析の標準手法、7ステップパイプラインを提案Seven simple steps for log analysis in AI systems
研究者がAIシステム向けログ分析の7ステップパイプラインを論文で公開。 Inspect Scoutライブラリを活用した具体的な実装例とベストプラクティスを提供。 標準手法が不在だったAIログ分析の体系化に向け、開発者の実務を支援。
-
3日前 ★3モバイルAIエージェントを「人間に偽装」するベンチマーク登場Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization
研究チームが自律GUIエージェントの「人間化」能力を定式化し、新ベンチマークを発表。 モバイルタッチ操作の高品質データセットと検出指標を構築し、学習ベースの行動模倣手法を提案。 エージェント検出・防御技術の研究促進と、AIの信頼性評価に新たな基準をもたらす。
-
3日前 ★3100KBマイコンで継続的物体検出、新手法AHCが登場AHC: Meta-Learned Adaptive Compression for Continual Object Detection on Memory-Constrained Microcontrollers
研究者らがメモリ100KB以下の超小型マイコン向け継続学習型物体検出手法「AHC」を発表。 MAMLベースのメタ学習で5ステップ適応・破滅的忘却を抑制し、階層的圧縮で軽量推論を実現。 極限のリソース制約下でのエッジAI展開に道を開く成果として注目される。
-
3日前 ★3博士論文がXAIPの新境地、ハイブリッドシステムへ応用Explainable Planning for Hybrid Systems
説明可能なAI計画(XAIP)をハイブリッドシステムに適用した包括的な博士論文が公開された。 連続・離散が混在する実世界問題を精密にモデル化し、AIの意思決定プロセスを人間が理解可能にする手法を提案。 安全性が求められる自律システムの信頼性向上に貢献し、産業応用への道を開く研究成果として注目される。
-
3日前 ★3プロアクティブAIエージェント、人間介入後も支援継続Help Without Being Asked: A Deployed Proactive Agent System for On-Call Support with Continuous Self-Improvement
大規模クラウドサービス向けに、人間のサポート介入後もAIが能動的に関与し続ける「Vigil」システムが発表された。 従来のリアクティブ型と異なり、チケット対応のライフサイクル全体に関与し、未解決ケースから継続学習して品質を向上。 オンコール業務の負荷軽減とサポート品質の自律改善を両立する実用システムとして注目される。
-
3日前 ★3OOWM、OOP活用でLLMのロボット計画推論を刷新OOWM: Structuring Embodied Reasoning and Planning via Object-Oriented Programmatic World Modeling
Chain-of-Thoughtの限界を克服する新フレームワーク「OOWM」が発表された。 OOPとUMLで状態空間・オブジェクト階層・因果依存関係を構造的に表現し、既存LLM手法を上回る性能を達成。 LLMによる具現化エージェントの設計指針として、記号的推論の有効性を示す重要な研究成果。
-
3日前 ★3GUI画像でUX自動評価するエージェントOpenFlo登場OpeFlo: Automated UX Evaluation via Simulated Human Web Interaction with GUI Grounding
研究チームがWebのUX評価を自動化するエージェント「OpenFlo」を発表した。 DOMではなくGUI画像を解析してブラウザを操作し、実ユーザーの行動を模倣する点が特徴。 SUS・SEQ・Think Aloudなど標準手法に基づくレポートを自動生成し、UX評価コストを大幅に削減できる。
-
3日前 ★4LLMエージェントがPDE物理シミュレーションを自動探索Agentic Exploration of PDE Spaces using Latent Foundation Models for Parameterized Simulations
マルチエージェントLLMと潜在基盤モデルを組み合わせた流体物理の自動探索フレームワークを発表。 潜在空間で流場を圧縮表現し、高コストな数値計算を代替するサロゲートモデルとして機能する。 AIによる大規模・自律的な物理現象解析が可能になり、科学シミュレーションの効率化に道を開く。
-
3日前 ★3実世界対応のモバイルエージェント評価基盤「MobiFlow」登場MobiFlow: Real-World Mobile Agent Benchmarking through Trajectory Fusion
研究チームが任意のAndroidアプリに対応するエージェント評価フレームワーク「MobiFlow」を発表。 マルチ軌跡融合技術で状態空間を圧縮し、動的なUI操作を精度高く評価できる仕組みを実現。 既存手法の実世界乖離問題を解消し、モバイルエージェント研究の標準基盤となる可能性。
-
3日前 ★3AIエージェントの「自己喪失」問題、複数アンカー記憶で解決へPersistent Identity in AI Agents: A Multi-Anchor Architecture for Resilient Memory and Continuity
コンテキスト超過時にAIエージェントが同一性を失う問題に対し、新たなアーキテクチャが提案された。 人間の分散記憶を模倣したRAG+RLMハイブリッド検索により、記憶を自動ルーティングするsoul.pyを実装。 エージェント開発における「連続性の欠如」という根本課題に、実用的な解法を示した点で注目される。
-
3日前 ★4査読AIエージェント、Gemini 2.5 Proを超える精度を達成DeepReviewer 2.0: A Traceable Agentic System for Auditable Scientific Peer Review
DeepReviewer 2.0が科学論文の査読を自動化するエージェント型システムとして発表された。 根拠アノテーションと証拠付き出力を生成し、ICLR 2025の134件でGemini 2.5 Proを上回る問題検出率を記録。 研究者の査読負担を大幅に削減し、科学的知見の信頼性向上に貢献する可能性がある。
-
3日前 ★3研究者ら、LLMの空間認知を体系評価するSCBenchを発表Spatial Competence Benchmark
大規模言語モデルの空間推論能力を測定する新ベンチマーク「SCBench」が提案された。 3階層の能力バケット構造と決定論的チェッカー・シミュレータによる厳密な出力検証が特徴。 LLMの弱点とされる空間認知の評価基盤として、モデル改善の指針となることが期待される。
-
3日前 ★3中国研究チーム、皮膚科診断AIエージェント「DERM-3R」を発表DERM-3R: A Resource-Efficient Multimodal Agents Framework for Dermatologic Diagnosis and Treatment in Real-World Clinical Settings
リソース制約環境向けの皮膚科診断マルチモーダルAIフレームワーク「DERM-3R」が発表された。 細粒度病変認識・多視点表現・全身的再評価の3課題を解決し、実臨床ワークフローを模倣した設計を採用。 医療現場での実用的なAI診断支援への道を開く研究として注目される。
-
3日前 ★3知識グラフ推論に新手法CID-TKG登場CID-TKG: Collaborative Historical Invariance and Evolutionary Dynamics Learning for Temporal Knowledge Graph Reasoning
時間的知識グラフの未来イベント予測を改善する新フレームワーク「CID-TKG」が研究者らにより提案された。 歴史的不変グラフと進化的ダイナミクスグラフを協調学習し、関係分解でグラフ間の意味的乖離を緩和。 既存手法が見落とす短期・長期パターンを統合し、KG推論の予測精度向上に貢献する。
-
3日前 ★3LLMでアルファ因子を自動発見するフレームワーク「Hubble」登場Hubble: An LLM-Driven Agentic Framework for Safe and Automated Alpha Factor Discovery
研究チームが、LLMを活用した定量金融向けアルファ因子自動探索フレームワーク「Hubble」を発表した。 ASTベースのサンドボックスと独自演算子言語で安全性を担保しつつ、RankIC・情報比などで候補因子を厳密評価する。 クォンツ運用の自動化・高度化に向け、LLMの金融実務応用を大きく前進させる可能性がある。
-
3日前 ★2LLM不確かさ評価、中性論理の限界をテンソルで克服From Scalars to Tensors: Declared Losses Recover Epistemic Distinctions That Neutrosophic Scalars Cannot Express
研究者がLLM不確かさ評価の中性論理スカラーに重大な欠陥を発見した テンソルと宣言損失で逆説・無知・偶発性の「吸収問題」を解決し認識論的区別を回復 LLMの信頼性・不確かさ定量化の精度向上に貢献する可能性がある
-
4日前 ★3GNNを審判役にLLMのグラフ学習を強化する新手法GNN-as-Judge: Unleashing the Power of LLMs for Graph Learning with GNN Feedback
研究チームがGNNをラベル品質の審判役として活用し、LLMのグラフ学習を強化する「GNN-as-Judge」を発表。 GNNの構造的バイアスで疑似ラベルのノイズを抑制し、少数ショット半教師あり学習を実現する。 ラベル不足環境でのLLMファインチューニングの課題を解決し、実用的なグラフAI応用に貢献。
-
4日前 ★4研究者ら警告——LLM生成テキストが次世代モデルを劣化させるDrift and selection in LLM text ecosystems
生成AIの出力が公開テキストに混入し次世代モデルの学習データとなる再帰的サイクルを数学的に解明した研究が発表された。 フィルタなし再利用(ドリフト)は希少表現を消滅させ、コーパスを浅い定常分布へ収束させることが示された。 品質・正確性・新規性を基準とした選択的フィルタリングが、言語の多様性と深さを維持するために不可欠と結論づけた。
-
4日前 ★3LLMで医師間対話を合成生成、プライバシー問題を解決SynDocDis: A Metadata-Driven Framework for Generating Synthetic Physician Discussions Using Large Language Models
研究チームがLLMを用いて医師間ディスカッションデータを合成生成するフレームワーク「SynDocDis」を発表。 匿名化メタデータと構造化プロンプトで臨床的に正確な対話を生成し、医師評価で平均4.4/5を獲得。 プライバシー規制で入手困難な医療対話データの不足を補い、医療AIの学習データ問題に貢献。
-
4日前 ★3研究者ら、EMAだけの文脈圧縮の限界を情報理論で解明EMA Is Not All You Need: Mapping the Boundary Between Structure and Content in Recurrent Context
EMA(指数移動平均)のみを用いた循環文脈が言語モデリングに失敗することを実証的に示した基礎研究が発表された。 EMAは時間的構造を捉えられるが、トークン同一性を破壊するためLM損失が改善しないことを情報理論的に証明。 ゲートや内容検索機構の必要性を裏付け、次世代RNN・SSMアーキテクチャ設計に重要な指針を提供する。
-
4日前 ★4拡散型LLMの安全機構、再マスク攻撃で無効化されるRe-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models
研究者がLLaDA-8B・Dream-7Bなど拡散型言語モデルの安全拒否機能を突破する攻撃手法を発表。 勾配計算不要で安全トークンを再マスクし肯定接頭辞を注入するだけで、最大81.8%の攻撃成功率を達成。 個別実装ではなくdLLMアーキテクチャ自体の構造的欠陥であり、業界全体での対策が急務。
-
4日前 ★4研究者ら、TTS推論コストを大幅削減するWANDを発表WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models
自己回帰型音声合成モデルの計算・メモリ効率を高めるWANDフレームワークが発表された。 窓型注意機構と知識蒸留を組み合わせ、KVキャッシュを最大66.2%削減しながら品質を維持。 リアルタイムTTSや端末上での音声合成など、低リソース環境への展開を大きく前進させる。
-
4日前 ★4LLM医療推論を体系化、新ベンチマークMR-Bench登場Medical Reasoning with Large Language Models: A Survey and MR-Bench
研究チームがLLMの医療推論能力を包括的にサーベイし、新ベンチマーク「MR-Bench」を提案。 臨床推論を仮説形成・演繹・帰納の反復プロセスとして概念化し、7つの技術経路に分類。 統一実験環境でのモデル比較により、医療AIの現状課題と今後の開発指針を明確化した。
-
4日前 ★2未知テキストを自動棄却する分類手法が登場Uncertainty Estimation for the Open-Set Text Classification systems
オープンセットテキスト分類向けの不確実性推定フレームワークが新たに提案された。 テキスト固有の曖昧さと分布的な曖昧さを区別する2種類の不確実性を統合推定する設計。 著者帰属・意図分類など3種のベンチマークで有効性を実証し、未知クラス検出の精度向上に貢献。
-
4日前 ★2研究者ら、バイアス軽減が埋め込み空間に与える影響を可視化A Representation-Level Assessment of Bias Mitigation in Foundation Models
BERTとLlama2を対象に、バイアス軽減処理が埋め込み空間の構造をどう変化させるかを内部解析した研究が発表された。 ジェンダーと職業の関連性を幾何学的変換として捉え、軽減前後のモデルを比較・定量評価する手法を提案。 公平性向上の取り組みを「解釈可能な形」で検証できる枠組みを示し、AI監査ツールの開発に貢献する。
-
4日前 ★3TTS音声品質をAIが自動評価、HuBERT活用で精度73.7%達成Neural networks for Text-to-Speech evaluation
TTS音声の品質評価を自動化する複数のニューラルモデルが新たに提案された。 相対評価にHuBERT基盤のNeuralSBS(精度73.7%)、絶対評価にWhisperとBERTのアンサンブルを採用。 人手評価に依存してきたTTS開発のボトルネックを解消し、音声AI開発の効率化に貢献する。
-
4日前 ★3温度設定でLLMの推論力が14倍差、研究が明らかにTemperature-Dependent Performance of Prompting Strategies in Extended Reasoning Large Language Models
拡張推論LLMにおける温度設定とプロンプト戦略の相互作用を体系的に分析した研究が公開された。 ゼロショットは中間温度(T=0.4〜0.7)で最高59%の精度、CoTは極端な温度で優位になることが判明。 拡張推論の効果はT=0.0の6倍からT=1.0では14.3倍に拡大し、温度設定の重要性を示す。
-
4日前 ★4拡散型LLMの並列デコード精度を高める新手法ABS登場Attention-Based Sampler for Diffusion Language Models
研究者らが拡散言語モデル向けの新デコード戦略「ABS」を発表した。 アテンション行列の列和を用いたトークン順序付けで対数尤度最大化を理論的に近似、既存手法を凌駕。 自己回帰モデルに代わる並列デコードの実用化を加速し、推論速度向上への道を開く。
-
4日前 ★3木構造スパースFFN、1B超モデルで有効性実証Dynamic sparsity in tree-structured feed-forward layers at scale
トランスフォーマーのMLP層を木構造の条件付き疎計算に置換する手法が1Bパラメータ超でも有効と確認された。 FFNユニットの活性化率5%未満で密なベースラインと同等性能を達成し、計算コストを大幅削減。 大規模モデルの推論効率化に道を開く成果として、LLM開発者の注目を集めそうだ。
-
4日前 ★2LLMとBERTでアラビア語感情分類を比較、解釈の多様性が明らかにSentiment Classification of Gaza War Headlines: A Comparative Analysis of Large Language Models and Arabic Fine-Tuned BERT Models
ガザ戦争関連アラビア語見出し約1.1万件でLLM3種とBERTモデル6種の感情分類能力を比較研究。 MARBERTは強い偏向を示す一方、LLMは分布が広く多様な解釈をする傾向が判明。 感情分類をモデルアーキテクチャによる解釈行為と捉える新たな分析視点を提示した。
-
4日前 ★4研究者ら、複数ユーザーによるLLMエージェント利用を初めて理論化Multi-User Large Language Model Agents
LLMエージェントを複数ユーザーが同時利用する状況を多主体意思決定問題として初めて形式化した研究が登場。 役割・権限・プライバシーが異なるユーザー間の利益相反や情報非対称性を分析し、既存の単一ユーザー最適化モデルの限界を指摘。 組織・チームでのAIエージェント導入が加速する中、現実的な多ユーザー対応の設計指針を提供する枠組みとして注目される。
-
4日前 ★2LLMが研究論文の「母語の痕跡」を消す——NLI分析で判明Can We Still Hear the Accent? Investigating the Resilience of Native Language Signals in the LLM Era
研究者がACL Anthologyの論文を分析し、LLM普及後に著者の母語識別精度が低下したことを確認。 母語識別(NLI)タスクで3時代を比較、LLM後は言語的多様性が失われる傾向が明らかに。 執筆支援AIが学術界の言語的均質化を促進する可能性を示唆し、研究倫理の議論を呼ぶ。
-
4日前 ★3記憶誘導型ベイズ最適化MG-TuRBOで高次元最適化を突破Memory-Guided Trust-Region Bayesian Optimization (MG-TuRBO) for High Dimensions
高次元・高コスト最適化向けの新手法「MG-TuRBO」が研究者らにより提案された。 信頼領域を過去の探索記憶で誘導し、14次元・84次元で遺伝的アルゴリズムを上回る性能を実証。 交通シミュレーション校正など実世界の高次元最適化タスクへの応用が期待される。
-
4日前 ★3量子コード生成LLMの統一ベンチマーク「QuanBench+」登場QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation
研究チームがQiskit・PennyLane・Cirq対応の統一量子コード生成ベンチマーク「QuanBench+」を発表。 42タスクでLLMの性能をPass@1/5とKLダイバージェンスで評価、フィードバック修復込みで最大83.3%を達成。 量子コンピューティング×LLMの実用化に向け、マルチフレームワーク対応の課題解決に貢献。
-
4日前 ★4LLMの数学推論、入力変形で最大100%精度低下と判明Robust Reasoning Benchmark
研究チームが14種の入力摂動手法でLLMの推論頑健性を評価するベンチマークを公開した。 AIME 2024を改変したテストで8モデルを検証し、オープンウェイト系は平均55%・最大100%の精度崩壊を確認。 高精度ベンチマーク結果の信頼性に疑問を投げかけ、堅牢な評価手法の必要性を示した。
-
4日前 ★3研究者ら、ハイパーパラメータ不要のOOD検出手法を提案Ranked Activation Shift for Post-Hoc Out-of-Distribution Detection
中間層の活性値を利用したOOD(分布外)検出の不安定性を分析し、新たな手法「Ranked Activation Shift」を発表。 ソート済み活性量を固定の分布内参照プロファイルで置き換えることで、チューニング不要かつ安定した検出を実現。 データセットやアーキテクチャに依存せず汎用的に機能し、モデルの信頼性向上に貢献する実用的アプローチ。
未要約 20
- The Consciousness Cluster: Emergent preferences of Models that Claim to be Conscious
- Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling
- WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain
- Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction
- A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews
- KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context
- A Proactive EMR Assistant for Doctor-Patient Dialogue: Streaming ASR, Belief Stabilization, and Preliminary Controlled Evaluation
- Dental-TriageBench: Benchmarking Multimodal Reasoning for Hierarchical Dental Triage
- Bi-Predictability: A Real-Time Signal for Monitoring LLM Interaction Integrity
- Mathematical Reasoning Enhanced LLM for Formula Derivation: A Case Study on Fiber NLI Modellin
- Red Skills or Blue Skills? A Dive Into Skills Published on ClawHub
- Correct Chains, Wrong Answers: Dissociating Reasoning from Output in LLM Logic
- Lossless Prompt Compression via Dictionary-Encoding and In-Context Learning: Enabling Cost-Effective LLM Analysis of Repetitive Data
- Before the First Token: Scale-Dependent Emergence of Hallucination Signals in Autoregressive Language Models
- Curation of a Palaeohispanic Dataset for Machine Learning
- EVE: A Domain-Specific LLM Framework for Earth Intelligence
- LiveClawBench: Benchmarking LLM Agents on Complex, Real-World Assistant Tasks
- OmniTrace: A Unified Framework for Generation-Time Attribution in Omni-Modal LLMs
- PersonaVLM: Long-Term Personalized Multimodal LLMs
- DeEscalWild: A Real-World Benchmark for Automated De-Escalation Training with SLMs