トークン設計
要約済み 1
-
hf-papers 10時間前 41D順序トークン、訓練不要の画像生成を実現(1D) Ordered Tokens Enable Efficient Test-Time Search
新しい1D順序トークン構造による効率的なテスト時探索の手法が提案された。 粗から細へのcoarse-to-fine構造で、2Dグリッド型より検証器の中間状態評価が容易。 自己回帰モデルの訓練なしにテキスト→画像生成が可能になり、生成AIの効率化が期待される。
解説 本論文は、自己回帰(AR)生成モデルにおけるトークン構造の選択がテスト時探索(test-time search)の効率に与える影響を体系的に調査した研究です。従来の画像生成では2Dグリッド状にトークンを並べる方式が主流でしたが、本研究は「粗から細へ(coarse-to-fine)」と呼ばれる1D順序トークン化が探索に大幅に有利であることを示しました。 重要な洞察は、coarse-to-fine系列の中間状態(生成途中の状態)が意味論的な情報を持つため、画像テキスト検証器(verifier)が信頼性高く品質評価できるという点です。一方、2Dグリッド構造の中間状態は局所的な断片情報しか持たず、検証器が適切なフィードバックを与えられません。 実験では、best-of-N・ビームサーチ・lookaheadサーチという古典的な探索アルゴリズムを各トークン構造と組み合わせて比較。coarse-to-fineトークンを用いたARモデルが一貫してテスト時スケーリング性能で優位でした。さらに注目すべき発見として、ARモデルを全く訓練せずに1Dトークン列への探索だけで、CLIPなどの検証器に誘導されたトレーニング不要なテキスト→画像生成が実現できることを実証しました。この知見は、画像生成の品質向上に追加の計算資源(推論時)を活用する方向性を明示しており、モデル設計とスケーリング戦略の両面で重要な示唆を持ちます。