SFT

2件の記事

要約済み 2

arxiv-cs-ai 7時間前 3
SFT層別分析でLoRAを超える新手法、中間層のみで精度10%向上
A Layer-wise Analysis of Supervised Fine-Tuning

研究チームがSFTの各層への影響を情報理論・幾何学・最適化の3指標で体系的に分析した成果を発表。中間層（全体の20〜80%）は学習が安定し、最終層は高感度という層依存パターンを発見。中間層のみを更新するMid-Block手法を提案。 LoRAと比べ最大10.2%の精度向上を達成し、効率的なファインチューニング戦略として注目される。

解説本論文は、LLMのアライメントに不可欠なSFT（教師ありファインチューニング）において、各層が果たす役割を情報理論的指標（エントロピーなど）・幾何学的指標（表現空間の形状）・最適化指標（勾配の大きさなど）の3種類で包括的に分析した研究である。1Bから32Bまで複数のモデルスケールで実験し、層の深さに応じた明確なパターンを発見した。具体的には、全層の20〜80%に相当する中間層はSFT前後で安定しており、一方で最終層（後半20%付近）が特に高感度で、指示追従能力の形成に重要な役割を担うことが明らかになった。この知見を活用して提案された「Mid-Block Efficient Tuning」は、感度の高い中間層のみをターゲットとして選択的に更新するアプローチである。従来のLoRAが全体または均等な範囲にパラメータ更新を適用するのに対し、本手法はアーキテクチャ上の局所性を利用することで更新パラメータ数を削減しながらも精度を向上させる。OLMo2-7Bを用いた数学推論ベンチマークGSM8Kでは標準LoRAを最大10.2%上回った。アライメント能力が全層に分散して獲得されるのではなく特定の層に局在するという本知見は、今後の効率的なファインチューニング設計に重要な指針を与える。

SFT 効率的ファインチューニング層別解析アライメント LoRA
hf-blog 1日前 3
ターミナル特化コーディングAI「LiteCoder」公開、ベースラインを大幅超え
Releasing LiteCoder-Terminal-SFT

ターミナル操作に特化したコーディングエージェント「LiteCoder-Terminal-SFT」が30B・4Bの2モデルでオープンソース公開。 11,255軌跡のデータセットと602環境を同梱、Terminal Bench Proで30BモデルがPass@1 31.5%を達成し既存ベースラインを大幅上回る。エージェント開発者や研究者にとって実用的なターミナルAIの構築・評価基盤となる注目のリリース。

解説 LiteCoder-Terminal-SFTは、ターミナル環境でのコーディングタスクに特化した小中規模エージェントモデルのリリース。30B（MoE構成）と4Bの2サイズを公開し、訓練データ・実行環境もオープンソース化した点が特徴。【手法】Claude Agent SDKを活用した5段階の環境合成パイプラインにより、テキスト記述からHarform形式の実行可能な環境を自動生成。Dockerfile・参照解答・テストスイートを含む11,255軌跡（平均27.4ターン）を構築。Terminus-2（86.6%）、OpenHands（7.1%）、Claude Code（6.3%）の3種エージェントフレームワークから軌跡を収集する「マルチスキャフォールド学習」を採用。【結果】Terminal Bench Proにて30BモデルがPass@1 31.5%（旧preview比+9.5pt）、4BモデルはQwen3-4B-Instructの3.5%に対し15.5%と大幅改善。Terminal Bench 1.0でも30BモデルがPass@1 24.38%でQwen3ベースラインの18.44%を上回る。【意義】GPT-4oやClaudeといった大規模クローズドモデルに依存せず、4B〜30B規模のオープンモデルでターミナルエージェントの実用性を高めた実践的な貢献。RL訓練コスト削減を目指す「ワールドモデル」探索も並行して公開されており、今後の強化学習研究への布石となっている。

コーディングエージェント SFT ターミナル操作オープンソース