トークン化
要約済み 3
-
hf-papers 5時間前 4新手法HiVGでSVG生成、GPT-5.2超えを達成Hierarchical SVG Tokenization: Learning Compact Visual Programs for Scalable Vector Graphics Modeling
研究チームがSVGを幾何命令単位でトークン化する階層的手法「HiVG」を発表。 シーケンス長を最大63.8%削減し、3Bモデルで人間評価においてGPT-5.2やGemini-2.5-proを超える品質を実現。 LLMによるベクターグラフィック生成の効率と品質を大幅に向上させ、デザイン自動化分野への応用が期待される。
解説 HiVGはSVG(スケーラブルベクターグラフィックス)の自己回帰生成において、従来の汎用BPEトークナイザーが座標「100」を「1」「0」「0」と個別に分割してしまう問題を根本から解決する手法である。提案する階層的トークン化は2段階で構成される。まず原始SVGコードを構造・コマンド・座標・属性の4カテゴリの「アトミックトークン」に分解し、次にコマンドと対応パラメータをまとめた「セグメントトークン」に圧縮する。このセグメント学習はBPEに類似した頻度ベースの統合アルゴリズムで実施され、シーケンス長を最大63.8%(約2.7倍)削減する。また、新語彙の埋め込み初期化にHMN(階層型平均ノイズ)戦略を採用し、ガウス動径基底関数と多項式特徴を使って座標値の数値的連続性を注入することで空間認識を向上させる。訓練は3段階カリキュラムで複雑度を段階的に増加させ、長シーケンスへの汎化を安定化する。Qwen2.5-VL-3Bをバックボーンに245万サンプルで学習した結果、Image-to-SVGタスクでSSIM 0.896・LPIPS 0.114を達成し、8Bクラスの既存専用モデルを大きく凌駕。さらにAdobeイラストレーターでの専門家評価でも4.06/5点を獲得し、GPT-5.2(3.47点)やGemini-2.5-pro(3.32点)、Claude Sonnet 4.5(非公開)を上回った。トークン化設計がモデルスケール以上に品質を左右することを示す意義深い成果である。 -
hf-papers 5時間前 4動画トークン化を革新、8分の1のトークン数で同等品質VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization
研究チームが可変長トークンによる粗から細への階層的動画トークン化手法「VideoFlexTok」を発表。 10秒81フレームの動画を672トークンで生成でき、従来比8分の1のトークン数・5倍小さなモデルで同等品質を実現。 動画生成モデルの大幅な効率化が可能となり、低コストでの高品質動画生成への道を開く。
解説 VideoFlexTokは、動画を固定サイズの3D格子トークンではなく、粗から細への可変長トークン列で表現する新しいビデオトークナイザーである。時間因果アテンションを持つエンコーダが空間時間VAEの潜在表現を処理し、FSQ量子化(コードブックサイズ6.4万)でレジスタトークンを離散化する。Nested Dropout(後半トークンをランダムにマスク)により、先頭トークンに意味・動作情報が、後続トークンに細粒度の詳細が自然と集約される階層構造が創発する。デコーダはDiffusion Transformer(DiT)ベースで、DINOv2特徴を蒸留するREPA損失と整流フロー損失を組み合わせる。下流タスクではGPT型の自己回帰モデルでクラス・テキスト条件付き動画生成を行う。実験では、同等品質を達成するモデルサイズが従来比5〜10倍削減(1.1B対5.2B)、学習トークン数も5〜10倍削減された。10秒動画の生成に必要なトークン数は標準3D格子手法の8分の1(672対5,376)に圧縮された。固定サイズ手法(LARP等)と比較しFVDで競合または上回る結果を示し、大規模化時の計算効率は1桁以上の改善を達成している。 -
hf-papers 1日前 4自己回帰モデルSATO、プロ品質3Dメッシュ生成で既存手法を圧倒Strips as Tokens: Artist Mesh Generation with Native UV Segmentation
研究チームが三角形ストリップ着想のトークン化で3Dメッシュを自己回帰生成するモデル「SATO」を発表。 三角・四角メッシュの統一生成とUVチャート分割を単一モデルで同時予測し、DeepMeshやBPTを主要指標で大幅に上回る。 プロ3Dアーティスト評価でも首位を獲得し、ゲーム・映像制作の3D制作ワークフロー自動化に道を開く。
解説 SATOは、3Dグラフィクスの古典的手法「トライアングルストリップ」をトークン化の基本単位として採用した自己回帰Transformerフレームワーク。従来の頂点座標ベース手法(DeepMesh、BPTなど)は長いシーケンスを要し、エッジフローの整合性も失われがちだった。SATOはメッシュのトポロジーをジッパー状に連鎖した「ストリップ」に変換し、ストライドパラメータ(δ=1で三角、δ=2で四角)を切り替えるだけで同一モデルが両メッシュタイプを生成できる点が革新的。さらに、ボキャブラリー拡張によりUVアイランドの境界トークンを語彙に直接組み込み、ジオメトリ生成と同時にUV分割マップを予測する世界初の自己回帰手法を実現した。実験ではMeshAnythingV2比でF1スコア0.807対0.361と倍以上の精度向上を達成。25名のプロ3Dアーティストによるユーザースタディでも最高評価を獲得。ゲーム・映像制作向けの高品質アセット自動生成パイプラインへの応用が期待される。