Free Post コンピュータービジョン シンプルな自己回帰モデルで最高品質の画像生成を実現! Parti を解説 Google から、自己回帰的トランスフォーマーによってテキストからの画像生成を実現する Parti が発表されました。拡散モデルなどを使っていないシンプルなモデルにもかかわらず、スケール性によってこれまでで最高の生成品質を実現しています。本記事では、この Parti を、技術的な詳細から多手法との比較まで、詳しく解説していきます。
Free Post コンピュータービジョン DALL·E 2 を早くも破る!超リアル画像生成モデル Imagen を解説 5 月末に Google から、テキストに忠実かつ非常に写実的な画像を生成できる Imagen が発表されました。最近発表された DALL·E 2 に続き、テキストをもとに画像を生成する「テキスト→画像 (text-to-image)」タスクが急速に発展しています。本記事では、Imagen に採用されている技術の解説を丁寧に紐解いていきます。
Free Post コンピュータービジョン モデルに「分からない」ことを出力させる「分布外検出」の最新動向 機械学習アルゴリズムは、時に自信満々に間違えることがよく指摘されています。モデルに「分からない」ことを出力させる「分布外検出」は実用上重要な技術ですが、近年、研究が大きく進んでおり、最近の ICLR 2022 でもいくつか論文が発表されました。本記事では、分布外検出の代表的な手法と最新の論文を紹介します。
Free Post コンピュータービジョン 正解付きデータセットを自動生成する DatasetGAN は「使える」か 高性能な機械学習モデルを訓練するためには、大規模なデータセットが必要となります。近年では、高品質の画像生成用 GAN を使い、訓練用データセットをアノテーションと共に生成する手法が発表されています。DatasetGAN に代表されるこれらのモデルは実際に「使える」のでしょうか。本記事では、これらの手法を、基礎となるモデルや関連研究も交えながら解説します。
Free Post コンピュータービジョン 生成品質で DALL·E を超えた!? 拡散モデルによる画像生成の最新動向 テキストから高品質な画像を生成する OpenAI のモデル DALL·E が 世間を賑わせて1年ほど経ちます。その間に、データに対するノイズを除去して高品質な画像・テキストを生成する「拡散モデル」も急速に発展し、さらに高品質な画像生成も可能になりました。本記事ではまず、拡散モデルの基礎を簡単におさらいした後、ごく最近発表された拡散モデルに関する論文を3本紹介して解説します。
Free Post コンピュータービジョン CV にもマスク型言語モデルの波が!?事前学習手法 MAE・SimMIM を解説 BERT に代表されるマスク言語モデルは、自然言語処理において事前学習に広く使われていますが、コンピューター・ビジョン (CV) 分野においても同じような仕組みを使って事前学習するモデルの利用が始まっています。本記事では、最近発表されたマスク型言語モデルのような枠組みで自己教師あり学習する手法を紹介します。
Free Post コンピュータービジョン パッチさえあればいい?画像認識・ViT において重要な要素とは【論文速報】 「パッチさえあればいい?」と題された論文が ICLR 2022 に投稿・公開され話題になっています。ConvMixer と呼ばれる画像のパッチ化と畳み込みに基づいた非常に単純なモデル、MLP や ViT と同等の性能をより少ないパラメータ数で実現しています。本記事では、ConvMixer を論文速報として解説し、画像分類において本当に重要な要素とは何か、について解説します。
Free Post コンピュータービジョン ビジョン・トランスフォーマーはなぜCNNより強い?その仕組みを解明【論文速報】 昨年10月にビジョン・トランスフォーマー (ViT) が画像認識にて最高精度を達成して以来、コンピューター・ビジョンの分野を席巻しています。そもそも、ViT の強さはどこにあるのでしょうか?本記事では、Google Research から発表された最近の論文を論文速報として紹介しながら、CNN (ResNet) とビジョン・トランスフォーマーとの違いを探っていきます。