要約
研究チームがSVGを幾何命令単位でトークン化する階層的手法「HiVG」を発表。 シーケンス長を最大63.8%削減し、3Bモデルで人間評価においてGPT-5.2やGemini-2.5-proを超える品質を実現。 LLMによるベクターグラフィック生成の効率と品質を大幅に向上させ、デザイン自動化分野への応用が期待される。
公式ソースだけを集めたAI最前線(日本語要約)
Hierarchical SVG Tokenization: Learning Compact Visual Programs for Scalable Vector Graphics Modeling
研究チームがSVGを幾何命令単位でトークン化する階層的手法「HiVG」を発表。 シーケンス長を最大63.8%削減し、3Bモデルで人間評価においてGPT-5.2やGemini-2.5-proを超える品質を実現。 LLMによるベクターグラフィック生成の効率と品質を大幅に向上させ、デザイン自動化分野への応用が期待される。
HiVGはSVG(スケーラブルベクターグラフィックス)の自己回帰生成において、従来の汎用BPEトークナイザーが座標「100」を「1」「0」「0」と個別に分割してしまう問題を根本から解決する手法である。提案する階層的トークン化は2段階で構成される。まず原始SVGコードを構造・コマンド・座標・属性の4カテゴリの「アトミックトークン」に分解し、次にコマンドと対応パラメータをまとめた「セグメントトークン」に圧縮する。このセグメント学習はBPEに類似した頻度ベースの統合アルゴリズムで実施され、シーケンス長を最大63.8%(約2.7倍)削減する。また、新語彙の埋め込み初期化にHMN(階層型平均ノイズ)戦略を採用し、ガウス動径基底関数と多項式特徴を使って座標値の数値的連続性を注入することで空間認識を向上させる。訓練は3段階カリキュラムで複雑度を段階的に増加させ、長シーケンスへの汎化を安定化する。Qwen2.5-VL-3Bをバックボーンに245万サンプルで学習した結果、Image-to-SVGタスクでSSIM 0.896・LPIPS 0.114を達成し、8Bクラスの既存専用モデルを大きく凌駕。さらにAdobeイラストレーターでの専門家評価でも4.06/5点を獲得し、GPT-5.2(3.47点)やGemini-2.5-pro(3.32点)、Claude Sonnet 4.5(非公開)を上回った。トークン化設計がモデルスケール以上に品質を左右することを示す意義深い成果である。