この記事は、会員限定記事ですので、アクセスすることができません。購読してアカウントをアップグレードすると、本記事に加え、既存の会員専用コンテンツが全て読めるようになります。
料金および本ブログの詳細、団体購読などについては、「本ブログについて」をご覧ください。
今年の1月に、テキストから高品質の画像を生成できるモデルである DALL·E (ダリー) と共に発表された CLIP。その際は本ブログでも取り上げ、「学術上・実用上非常に重要なマイルストーンだ」という旨を書きましたが、予想通り、コンピューター・ビジョンの分野の様々なタスクにおいて、CLIP の利用が急速に広がっています。この記事では、ここ最近ネットを席巻する謎の高画質テキスト→画像生成モデル VQGAN+CLIP を解説しました。
この記事は、会員限定記事ですので、アクセスすることができません。購読してアカウントをアップグレードすると、本記事に加え、既存の会員専用コンテンツが全て読めるようになります。
料金および本ブログの詳細、団体購読などについては、「本ブログについて」をご覧ください。