画像生成
要約済み 10
-
hf-papers 8時間前 4新AR手法でImageNet画像生成の世界最高精度を更新Generative Refinement Networks for Visual Synthesis
研究チームが精錬型自己回帰ネットワーク(GRN)を発表、ImageNet C2IでgFID 1.81の新SOTAを達成。 HBQ量子化で連続表現と同等の再構成品質を実現し、全体的精錬機構で誤差蓄積を防ぐ新アーキテクチャ。 2Bパラメータで画像・動画生成ともに既存手法を凌駕し、生成AI基盤モデル研究に新たな指針を示す。
解説 GRN(Generative Refinement Networks)はByteDanceが提案する視覚生成の新パラダイムで、拡散モデルとAR(自己回帰)モデルそれぞれの欠点を同時に克服する。核心技術のHBQ(階層的二値量子化)はVAEの連続特徴をM回の二値決定木で離散化し、量子化誤差が2^(-M)で指数減衰するため理論上ほぼ無損失を達成。ImageNetでは連続VAE(rFID 0.87)を上回るrFID 0.56を記録した。生成フェーズでは「全体的精錬機構」を採用。ランダムトークンマップを出発点として、毎ステップで全トークンを予測・更新することで「塗りつぶし・精錬・消去」を一体化。従来ARモデルが抱える誤差蓄積(一度確定したトークンを後から修正できない問題)を根本解決している。アブレーションではマスクベース手法(gFID 18.13)に対しGRNは3.63を達成し精錬機構の効果を定量的に示す。さらにエントロピー誘導型の複雑度適応サンプリングにより、単純な画像には少ないステップ、複雑な画像には多いステップを動的割当て、品質を維持しつつ計算コストを削減する。比較実験では2BモデルでSD3 Medium(GenEval 0.62)やInfinity(0.71)を上回るGenEval 0.76を達成し、T2VではCogVideoX-5B(5B)を2Bで凌駕する。 -
hf-papers 1日前 4新手法CAFMでフローモデルのFIDスコアを半減、画像生成が大幅進化Continuous Adversarial Flow Models
研究者らが、フローマッチングの損失関数を識別器に置き換えた新世代生成モデル「CAFM」を発表。 ImageNet 256pxベンチマークでFIDスコアを最大8.26→3.63へ大幅改善、既存モデルへも10エポックで適用可能。 既存フローモデルを低コストで強化できる汎用的手法として、画像生成分野への広範な応用が期待される。
解説 本論文はCAFM(Continuous Adversarial Flow Models)を提案する。フローマッチング(FM)は近年の画像・動画生成で主流だが、学習目標にユークリッド距離(L2損失)を使うため、有限容量モデルがデータ多様体(manifold)の構造を正確に捉えられず、ガイダンスなしでは分布外サンプルを生成しやすい欠点があった。CAFMはこのL2損失を「学習済み識別器」に置き換えることで、テクスチャや輪郭などの知覚的細部により敏感な目標関数を実現。識別器と生成器を同時学習するGAN的なダイナミクスにより、固定基準網の悪用(generator hacking)も防ぐ。連続時間フローに敵対的学習を統合した初の研究とされる。実験では、既存のSiT(潜在空間)とJiT(ピクセル空間)モデルをわずか10エポックのファインチューニングで後学習するだけで、ImageNet 256pxのガイダンスなしFIDをそれぞれ8.26→3.63、7.17→3.57へ劇的に改善。テキスト→画像タスクでもGenEval(0.81→0.85)とDPGベンチマーク(83.7→85.2)で改善を確認。既存モデルへの後付け適用が容易であるため実用的な波及効果が大きく、フロー系モデルの品質底上げ手法として重要な貢献と言える。 -
hf-papers 1日前 4ループ型Transformerで視覚生成を1/4のパラメータで実現ELT: Elastic Looped Transformers for Visual Generation
研究チームが「ELT」を発表——ループ構造と自己蒸留を組み合わせた画像・動画生成モデル。 パラメータ数を75%削減しつつImageNetでFID 2.0、UCF-101でFVD 72.8の高精度を達成。 推論時にループ数を動的調整できる「Any-Time推論」により、計算資源に合わせた柔軟な運用が可能に。
解説 ELT(Elastic Looped Transformers)は、重みを共有したトランスフォーマーブロックをL回繰り返す「N×L」構造を採用し、パラメータ数をN層分に抑えながら深いネットワークと同等の表現力を実現する視覚生成モデルです。通常のTransformerが独立した深い層スタックを必要とするのに対し、ELTは物理モデルサイズと計算深度を分離します。学習の核心は「Intra-Loop Self Distillation(ILSD)」で、最大ループ数の出力を内部教師とし、途中ループの出力を生徒として確率的に蒸留します。これにより途中ループでも高品質な出力が得られ、推論時にループ数を自由に変更する「Any-Time推論」が可能になります。実験ではMaskGIT-XL(446M)の1/4以下の111Mパラメータでも同等のFID 2.0を達成。動画生成ではMAGVIT-L(306M)を76MパラメータでFVD 72.8と上回りました。TPU上の推論スループットは最大3.5倍向上し、学習収束も最大2倍高速化。エッジデバイスから高品質クラウド生成まで単一モデルで対応できる柔軟性が実用上の強みです。 -
openai-news 5日前 2OpenAI Academy、ChatGPT画像生成の入門講座を公開Creating images with ChatGPT
OpenAI Academyが、ChatGPTを活用した画像生成の実践チュートリアルを公開した。 プロンプトの設計と反復調整により、高品質なビジュアルを数分で作成できる手法を解説。 初心者がAI画像生成を手軽に習得できる学習リソースとして、活用の裾野を広げる。
-
stability-blog 7日前 3Stability AI、ブランド向け画像生成基盤「Brand Studio」発表News & Updates
Stability AIがブランドのクリエイティブ制作を支援するプラットフォーム「Brand Studio」を発表した。 Stable Diffusionを基盤に、ブランドアイデンティティを保持した高品質な画像を大量生成できる。 マーケティング・広告業界での制作コスト削減と大規模ビジュアル展開を可能にする。
解説 Stability AIが発表した「Brand Studio」は、企業・ブランド向けに特化したAIクリエイティブ制作プラットフォームです。同社のコア技術であるStable Diffusion(潜在拡散モデルを用いた画像生成AI)をベースに、ブランドガイドライン(ロゴ・カラーパレット・トンマナ等)を学習・維持しながら一貫性のあるビジュアルコンテンツを大量生成できる仕組みを提供すると見られます。従来の汎用画像生成AIとの主な違いは、ブランド固有のスタイルや制約をモデルに組み込むファインチューニング機能や、マーケティングワークフローへの統合ツールが含まれる点です。広告代理店やD2Cブランドが毎月膨大なクリエイティブ素材を必要とする現状に対し、制作コストと時間を大幅に削減できる可能性があります。競合としてはAdobe Fireflyのブランドコントロール機能やGettyのGenerative AIがありますが、Stability AIはオープンウェイトモデルの強みを活かしたオンプレミス・プライベートデプロイオプションを持つ点で差別化できます。ブランドの知財保護や商用ライセンスの明確化が課題となる業界において、企業導入の障壁を下げる製品として注目されます。 -
hf-blog 1ヶ月前 4SenseTime、エンコーダ不要のマルチモーダルAIを発表NEO-unify: Building Native Multimodal Unified Models End to End
SenseTimeとNTUが、Vision EncoderもVAEも持たないマルチモーダル統合モデル「NEO-unify」を発表。 Mixture-of-Transformerで理解・生成を単一フレームに統合し、MS COCOで31.56 PSNRを達成。 データ効率でBagelなど既存手法を上回り、マルチモーダルAIの設計常識を塗り替える可能性。
解説 NEO-unifyはSenseTimeとNTUが共同開発した、ネイティブマルチモーダル統合モデルの新パラダイムである。従来のマルチモーダルモデル(GPT-4o、Gemini、Claudeを含む多くの系統)は、画像入力にVision Encoder(ViTなど)、画像生成にVAE(変分オートエンコーダ)を使用するが、これらの事前学習済みコンポーネントがスケーリングのボトルネックになるという問題があった。NEO-unifyはこれらを完全に排除し、ピクセルとテキストをそのまま扱う「ほぼ無損失なビジュアルインターフェース」を採用する。アーキテクチャの核心はNative Mixture-of-Transformer(MoT)で、理解(Understanding)ブランチと生成(Generation)ブランチが同一バックボーン内で共進化する設計になっている。学習目標はテキスト向けの自己回帰クロスエントロピー損失と、視覚向けのPixel Flow Matchingを統合したものを使用。実験ではMS COCO 2017上で31.56 PSNR・0.85 SSIMを達成し、Flux VAE(32.65 PSNR)に迫る品質を示した。画像編集ベンチマーク(ImgEdit)でも3.32スコアを記録。特筆すべきは、類似モデル(Bagel等)と比較してデータスケーリング効率が大幅に優れており、少ない学習トークンで高い性能を達成できる点である。現時点ではプレビュー段階だが、近くHugging Faceでオープンソース公開が予定されており、エンコーダフリーの統合マルチモーダルモデルとして実用的な影響が期待される。 -
stability-blog 6ヶ月前 4Stability AI、AWS Bedrockで企業向け画像生成を正式提供Stability AI Brings Image Services to Amazon Bedrock, Delivering End-to-End Creative Control with Enterprise-Grade Infrastructure
Stability AIがAmazon Bedrockを通じてエンタープライズ向け画像生成サービスを正式展開。 Stable Image UltraなどをAWSインフラ経由で利用可能にし、セキュリティ・コンプライアンスを標準装備。 クラウド統合により企業の生成AI導入ハードルが下がり、商用利用が加速する見通し。
解説 Stability AIは、AWSのマネージドAIサービス「Amazon Bedrock」を通じて、自社の画像生成モデル群を企業向けに提供開始した。Amazon BedrockはAWSが提供するフルマネージド型の基盤モデルAPIプラットフォームで、複数のAIプロバイダーのモデルを統一されたAPIで利用できる仕組みを持つ。今回の統合により、Stable Image UltraやStable Diffusion 3シリーズなど、Stability AIの高品質な画像生成モデルがAWSのエンタープライズグレードのインフラ(セキュリティ、VPCサポート、コンプライアンス対応、スケーラビリティ)の上で稼働できるようになる。これにより、従来は自前のMLインフラが必要だった高精度な画像生成パイプラインが、AWSとの既存契約の中で容易に組み込めるようになる。開発者にとっては、AWSの豊富なサービス群(S3、Lambda、SageMakerなど)と画像生成を組み合わせたワークフローを低摩擦で構築できるメリットがある。ビジネス側にはSLAや監査ログ、データ残留要件への対応が容易になる点が大きい。競合するMidjourney、Adobe Fireflyとの差別化においても、エンタープライズ市場への本格参入という点で戦略的意義が大きい。 -
stability-blog 8ヶ月前 4Stability AIとNVIDIA、SD 3.5のNIMを共同リリースStability AI and NVIDIA Bring Faster Performance and Simplified Enterprise Deployment with the Stable Diffusion 3.5 NIM
Stability AIとNVIDIAがStable Diffusion 3.5のエンタープライズ向け推論マイクロサービス(NIM)を共同発表。 NVIDIA TensorRT最適化により推論速度が大幅向上、コンテナで即デプロイ可能な設計を採用。 セキュリティ・スケーラビリティを標準搭載し、企業での本番運用ハードルを大きく引き下げる。
解説 Stability AIとNVIDIAは、画像生成モデル「Stable Diffusion 3.5」をNVIDIA NIM(NVIDIA Inference Microservices)として提供することを発表しました。NIMとはNVIDIAが提供するAIモデルのコンテナ化された推論マイクロサービス群で、Dockerコンテナ一つで本番グレードのAI推論環境を即座に構築できる仕組みです。従来、企業がSD 3.5を自社インフラに導入するには複雑な環境構築・最適化が必要でしたが、NIMにより標準化されたAPIと最適化済みランタイムが提供され、導入コストが大幅に削減されます。技術面では、NVIDIAのTensorRT-LLMおよびTensorRTによるカーネル最適化が施されており、A100やH100といったデータセンター向けGPUで顕著な推論速度向上が期待されます。既存のオープンソース版と比較して、エンタープライズSLAサポート、セキュリティパッチの迅速提供、スケールアウト対応が付属する点が差別化要素です。画像生成AIを製品・サービスに組み込む企業や開発チームにとって、MLOpsの負担を減らしつつ高品質な生成AIを本番運用できる実用的なソリューションとなります。 -
stability-blog 8ヶ月前 3Stability AI、企業向け生成AIソリューションを発表Introducing Stability AI Solutions: Generative AI Solutions to Accelerate Enterprise Creative Production
Stability AIがエンタープライズ向け統合AIサービス「Stability AI Solutions」を正式発表。 画像・動画・音声など複数モダリティの生成AIを企業ニーズに合わせてカスタマイズ提供。 クリエイティブ制作の自動化・効率化を求める企業へのAI導入を加速させる見通し。
解説 Stability AIが企業向け統合生成AIサービス「Stability AI Solutions」を発表した。同社はStable Diffusionシリーズ(画像生成AIモデル)で知られるが、本発表はそのモデル群を企業のクリエイティブ制作ワークフローに組み込みやすい形でパッケージ化したものと見られる。具体的には、広告・メディア・ゲームなどのコンテンツ制作現場において、高品質な画像・映像・音声素材の自動生成を支援するAPI群やマネージドサービスが含まれると考えられる。既存の一般公開モデルとの違いは、エンタープライズ向けのSLA(サービス品質保証)・セキュリティ・カスタムファインチューニング・オンプレミス対応などが提供される点にある。OpenAIやAdobeのFireflyといった競合と差別化するため、オープンウェイトモデルを基盤とした高いカスタマイズ性と商用ライセンスの明確化が強みとなっている。クリエイティブ制作の自動化・効率化を求める大企業にとって、導入障壁を下げる重要なステップとなり得る発表である。 -
stability-blog 12ヶ月前 3Stability AI、Stable DiffusionをAMD GPU向けに最適化Stable Diffusion Now Optimized for AMD Radeon™ GPUs and Ryzen™ AI APUs
Stability AIがStable DiffusionをAMD RadeonおよびRyzen AI APU向けに最適化したと発表。 ROCmやDirectMLを活用し、NVIDIAなしで高速な画像生成が可能になった。 Windows環境や組み込みAIデバイスへの普及が加速し、AI民主化に貢献する。
解説 Stability AIは、画像生成AIモデル「Stable Diffusion」をAMDのRadeon GPUおよびRyzen AI APU(CPU・GPU・NPUを統合したチップ)向けに最適化したと発表した。これまでStable DiffusionはNVIDIA製GPUとCUDA環境での利用が事実上の標準であったが、今回の最適化によりAMDハードウェア上でも高速な推論が可能になる。技術的にはAMDのオープンソースGPUコンピューティング基盤「ROCm」やWindows向けの「DirectML」を活用していると見られ、モデルの量子化や演算カーネルのチューニングが施されている。Ryzen AI APUへの対応は、ノートPCや省電力デバイスでのローカル画像生成を現実的にする点で意義が大きい。NVIDIAへの依存を減らすことでエコシステムの多様化が進み、開発者はより多くのハードウェア環境向けにアプリを構築できる。特にWindowsユーザーや法人向けAMD搭載PCでの生成AI活用が加速する可能性がある。