ネットを席巻する謎の高画質テキスト→画像生成モデル VQGAN+CLIP を完全解説

今年の1月に、テキストから高品質の画像を生成できるモデルである DALL·E (ダリー) と共に発表された CLIP。その際は本ブログでも取り上げ、「学術上・実用上非常に重要なマイルストーンだ」という旨を書きましたが、予想通り、コンピューター・ビジョンの分野の様々なタスクにおいて、CLIP の利用が急速に広がっています。この記事では、ここ最近ネットを席巻する謎の高画質テキスト→画像生成モデル VQGAN+CLIP を解説しました。

萩原正人

Google、MSR、バイドゥ、楽天技術研究所NY、Duolingo など、日中米の多くのテック大手等において、研究者・エンジニアとして自然言語処理・機械学習の研究開発に携わる。2019年にフリーランスとして独立し、教育応用・アジア言語処理を専門とする AI 研究所 Octanove Labs を設立。機械翻訳や教育応用の分野にて、世界トップレベルの研究機関等と共に数多くのプロジェクトに携わる

More posts by 萩原正人.

萩原正人

2021-07-26 • 11 min read

この記事は、会員限定記事ですので、アクセスすることができません。購読してアカウントをアップグレードすると、本記事に加え、既存の会員専用コンテンツが全て読めるようになります。

料金および本ブログの詳細、団体購読などについては、「本ブログについて」をご覧ください。

ネットを席巻する謎の高画質テキスト→画像生成モデル VQGAN+CLIP を完全解説

萩原正人

萩原正人

呪文よ、さらば！画像生成を制御する ControlNet＋最新手法を解説

拡散モデルの品質超え！マスクを使い高速に画像生成する Muse を解説

NeurIPS論文賞！拡散モデルを統一的に比較・改善したEDMを解説

深層学習に基づく系列・セッションベース推薦システムの最新動向

NLP の最後の砦「分かち書き」を自動で学習！最新モデル Charformer を解説【論文速報】