長文脈RLを効率化する新手法「LongAct」登場

hf-papers 2026-04-17 03:01 ★4

長文脈RLを効率化する新手法「LongAct」登場

LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning

長文脈理解強化学習スパース更新 LLM推論

要約

LLMの活性化パターンを活用し、長文脈強化学習を効率化する手法「LongAct」が発表された。 Q/K表現の高振幅活性化に対応する上位30%の重みのみを選択的に更新し、LongBench v2で約8%向上を達成。複数のRLアルゴリズムで普遍的に効果を発揮し、長文脈AIの訓練効率改善に貢献する。

解説・分析

LongActは、LLMのアテンション層においてQuery/Key（Q/K）表現の特定次元に集中して現れる「高振幅活性化」を利用する長文脈RL学習手法。量子化研究が示すようにこの高振幅な値が重要な情報を担うことに着想を得て、対応する重みパラメータ（各アテンションヘッド内の上位30%）のみを選択的に更新し残りを凍結するスパース勾配マスク戦略を提案する。学習はSFTコールドスタート後にDAPOベースのRLで実施され、Qwen3-8B/4Bを対象に評価。LongBench v2では公式Qwen3-8Bを3%超上回る36.73を達成し、RULER-128Kでも+4%以上の改善を実現。GRPO・DAPO・KL-convなど複数のRLアルゴリズムで普遍的な効果を示し、特に難問（Hard）や超長文（128K超）で顕著な改善が見られる。高振幅活性化を平均値に置換すると出力が繰り返しループに崩壊する一方、低振幅を無効化しても推論が維持されることを実験的に示し、手法の理論的根拠を裏付けた。推論時はマスクを削除するため追加レイテンシは一切なく、GSM8KやHumanEvalなどの短文脈ベンチマークでも改善が確認され、汎用的なRL最適化手法として機能する。

深掘り分析

🔒

この分析はProプラン限定です

Proプランに登録 →

原文を読む → https://huggingface.co/papers/2604.14922

← 一覧に戻る

AIフロントライン