Hybrid Attention
要約済み 1
-
hf-blog 2ヶ月前 4Alibaba Qwen、Qwen3.5公開——ハイブリッド注意で高性能化Qwen3.5: Nobody Agrees on Attention Anymore
Alibaba Qwenチームが397Bパラメータの新MoEモデル『Qwen3.5』を公開した。 Gated DeltaNetとフル注意を3:1で組み合わせたハイブリッド注意機構を採用。 指示追従と視覚理解でGPT-4oやClaudeを上回り、LLM業界に新たな選択肢を提供
解説 Alibaba Qwenチームが2026年2月16日に公開したQwen3.5-397B-A17Bは、総パラメータ397B・推論時活性化17BのMoEモデル。最大の革新は「Gated DeltaNet」ベースのハイブリッド注意機構で、4ブロック中3つに線形注意(GatedDeltaNet)、1つにフル注意を配置する3:1構成を採用する。線形注意はシーケンス長にほぼ線形でスケールするため長文処理を大幅に効率化し、ゲート付き出力機構が注意シンク問題を解消して大規模学習の安定性も向上させる。視覚と言語を早期融合でネイティブ統合したことで別途ビジョンアダプタが不要となり、201言語にも対応。指示追従ではIFBench(76.5)・MultiChallenge(67.6)でGPT-4oやClaudeを超え、視覚理解でもMMSU(85.0)やMathVision(88.6)でGemini 3 Proを上回る。コーディングや推論ではGPT-4oにやや及ばないが、エージェント・指示追従・視覚の各領域で高水準を維持する総合モデルとして注目。各社で注意機構設計が大きく分岐(DeltaNet・MLA・フル注意)しており、業界標準不在が今後の競争軸となっている点も示唆される。