トークン設計

1件の記事

要約済み 1

hf-papers 10時間前 4
1D順序トークン、訓練不要の画像生成を実現
(1D) Ordered Tokens Enable Efficient Test-Time Search

新しい1D順序トークン構造による効率的なテスト時探索の手法が提案された。粗から細へのcoarse-to-fine構造で、2Dグリッド型より検証器の中間状態評価が容易。自己回帰モデルの訓練なしにテキスト→画像生成が可能になり、生成AIの効率化が期待される。

解説本論文は、自己回帰（AR）生成モデルにおけるトークン構造の選択がテスト時探索（test-time search）の効率に与える影響を体系的に調査した研究です。従来の画像生成では2Dグリッド状にトークンを並べる方式が主流でしたが、本研究は「粗から細へ（coarse-to-fine）」と呼ばれる1D順序トークン化が探索に大幅に有利であることを示しました。重要な洞察は、coarse-to-fine系列の中間状態（生成途中の状態）が意味論的な情報を持つため、画像テキスト検証器（verifier）が信頼性高く品質評価できるという点です。一方、2Dグリッド構造の中間状態は局所的な断片情報しか持たず、検証器が適切なフィードバックを与えられません。実験では、best-of-N・ビームサーチ・lookaheadサーチという古典的な探索アルゴリズムを各トークン構造と組み合わせて比較。coarse-to-fineトークンを用いたARモデルが一貫してテスト時スケーリング性能で優位でした。さらに注目すべき発見として、ARモデルを全く訓練せずに1Dトークン列への探索だけで、CLIPなどの検証器に誘導されたトレーニング不要なテキスト→画像生成が実現できることを実証しました。この知見は、画像生成の品質向上に追加の計算資源（推論時）を活用する方向性を明示しており、モデル設計とスケーリング戦略の両面で重要な示唆を持ちます。

画像生成テスト時スケーリング自己回帰モデルトークン設計探索アルゴリズム