FFN移植
要約済み 1
-
hf-blog 2日前 4訓練不要で744B超え——Darwin-27Bが最新手法で世界5位"Darwin-27B-Opus: Surpassing the Foundation Model Without Training"
研究チームがFFN層を進化的アルゴリズムでブレンドする新手法「Darwin-27B-Opus」を発表。 27BモデルがGPQA Diamondで86.9%を達成し、744Bの巨大モデルを上回る性能を実証。 H100×1台・約2時間という低コストで実現し、効率的なモデル強化の新たな道を開く。
解説 Darwin-27B-Opusは学習不要でGPQA Diamondベンチマーク86.9%を達成した27Bパラメータモデル。Qwen3.5-122B(86.6%)やGLM-5.1(744B・86.2%)を上回り世界5位に入った。提案手法「Evolutionary FFN Breeding」はTransformerの2要素を明確に区別することが核心。Attention層は推論・文脈構築を担うため改変不可(実験では60%→10%にスコア崩壊)。一方FFN層(フィードフォワードネットワーク)は知識を格納しており、同一アーキテクチャのモデル間で移植可能と判断。親モデルはQwen3.5-27B(多言語基盤・父)とClaude 4.6 Opusを蒸留した推論特化モデル(母)で、CMA-ES(共分散行列適応進化戦略)により14次元のFFNブレンド比率を最適化する。評価は2パス方式を採用し、greedy decoding(74.7%)の後、誤答を確率的再生成と多数決で補正して86.9%を達成。韓国語ベンチマークでも両親を超える「雑種強勢」効果が確認された。従来のファインチューニング(H100×8〜64台・数日〜数週間)に比べ計算コストを劇的に削減できる点で実用的意義が高く、HuggingFace上の既存モデルが親候補となりえる点もエコシステムへの波及効果として注目される。