この記事は、会員限定記事ですので、アクセスすることができません。購読してアカウントをアップグレードすると、本記事に加え、既存の会員専用コンテンツが全て読めるようになります。
料金および本ブログの詳細、団体購読などについては、「本ブログについて」をご覧ください。
近年では、拡散モデルに基づく画像生成モデルが普及していますが、逐次的であるため生成に時間がかかるという問題があります。最近、Google Research から発表された画像生成モデル Muse が、近年勢いのある拡散モデルの生成品質を超えたと話題になりました。Muse ではBERT や MAE のようなマスク言語モデル的に画像トークンを生成して高品質・高速な画像生成を実現します。本記事では、この Muse の技術詳細を、その基礎である VQGAN、MAE などもおさらいしながら解説します。
この記事は、会員限定記事ですので、アクセスすることができません。購読してアカウントをアップグレードすると、本記事に加え、既存の会員専用コンテンツが全て読めるようになります。
料金および本ブログの詳細、団体購読などについては、「本ブログについて」をご覧ください。