コンピュータービジョン

A collection of 39 posts

言語にも拡散モデル革命か 離散データを生成する「ビット拡散」を解説
Free Post
自然言語処理

言語にも拡散モデル革命か 離散データを生成する「ビット拡散」を解説

最近、テキストから高品質な画像を生成するモデルが世間を賑わせていますが、その多くは「拡散モデル」に基づいています。画像のピクセルなど、連続値データを生成するのは得意な拡散モデルですが、テキストなどの離散データの生成についてはあまり上手く行っていませんでした。最近になって、離散データをビット列として拡散モデルで生成する「ビット拡散」が発表されました。非常にシンプルながら強力な手法であり、今後の発展が望めます。本記事では、このビット拡散を関連研究と共に紹介します。

べき乗則を突破!?少ないデータで高精度モデルを訓練する手法がすごい
Free Post
機械学習

べき乗則を突破!?少ないデータで高精度モデルを訓練する手法がすごい

機械学習モデルの性能は、データ量やモデルサイズなどのスケールに対して、べき乗則 (power law) に従って改善するという「スケール則」が、様々なモデル・データにおいて示されています。最近発表された論文では、このスケール則を突破し、訓練データ内の重要なサンプルを同定することにより、指数関数に従ってより効率的にモデルの性能を改善する手法が発表されています。本記事では、このべき乗則を突破し、少ないデータで高精度モデルを訓練する論文を関連研究と共に紹介します。

画像生成 AI の最前線!拡散モデル・画像生成モデルの最新研究を解説
Free Post
コンピュータービジョン

画像生成 AI の最前線!拡散モデル・画像生成モデルの最新研究を解説

テキストの記述にしたがって高品質な画像を生成する「画像生成 AI」。最近、一般向けのサービスも多く登場し、普及が急速に進んでいますが、指示をテキストで書かなければならず、編集が難しいなどの問題があります。最近の論文では、言語に加えて「物体」「概念」を使って画像を生成したり、プロンプトを使って画像の細かな編集を可能にしたりと、生成される画像の質に加え、その「制御性」に改善を加える方向にシフトしつつある印象です。本記事では、この「テキストからの画像生成」技術に関して、次の発展フロンティアとなる技術を、比較的最近発表された論文から読み解きます。

最新論文から見るビジョン・トランスフォーマー(ViT)の性能向上Tips
Free Post
コンピュータービジョン

最新論文から見るビジョン・トランスフォーマー(ViT)の性能向上Tips

トランスフォーマーを画像分類タスクに適用したビジョン・トランスフォーマー (ViT) は、2020年に提案されて以来、その強力な性能から、画像分類だけでなく、物体検出や領域分割、ビデオの分析など、幅広いコンピューター・ビジョンのタスクで使われています。一方で、大量の事前学習データを必要としたり、データ拡張・正則化を工夫する必要があったりと、訓練にコツが必要でした。発表から2年ほど経ち、「どのように訓練すれば、ViT の性能を最大限発揮できるか」という知見が論文などで発表されてきています。本記事では、比較的新しい論文から、「ViT の性能向上 Tips」に注目し、まとめてみたいと思います。

シンプルな自己回帰モデルで最高品質の画像生成を実現! Parti を解説
Free Post
コンピュータービジョン

シンプルな自己回帰モデルで最高品質の画像生成を実現! Parti を解説

Google から、自己回帰的トランスフォーマーによってテキストからの画像生成を実現する Parti が発表されました。拡散モデルなどを使っていないシンプルなモデルにもかかわらず、スケール性によってこれまでで最高の生成品質を実現しています。本記事では、この Parti を、技術的な詳細から多手法との比較まで、詳しく解説していきます。

DALL·E 2 を早くも破る!超リアル画像生成モデル Imagen を解説
Free Post
コンピュータービジョン

DALL·E 2 を早くも破る!超リアル画像生成モデル Imagen を解説

5 月末に Google から、テキストに忠実かつ非常に写実的な画像を生成できる Imagen が発表されました。最近発表された DALL·E 2 に続き、テキストをもとに画像を生成する「テキスト→画像 (text-to-image)」タスクが急速に発展しています。本記事では、Imagen に採用されている技術の解説を丁寧に紐解いていきます。

深層学習トップ会議 ICLR 2022 のベストペーパー・重要論文まとめ【CV編】
Free Post
コンピュータービジョン

深層学習トップ会議 ICLR 2022 のベストペーパー・重要論文まとめ【CV編】

先月末に、「深層学習のトップ会議」とも言える ICLR 2022 がオンライン上で開催されました。本記事では、この ICLR 2022 から、特に CNN や分類・生成タスクに関するベストペーパー・要チェック論文を厳選して解説します。特に 1) 理論的な裏付けがしっかりしており、2) 実タスクでの性能が良く、かつ、3) 実装が比較的容易、というものを厳選しました。どの論文も興味深く実用性もあり、今後の深層学習に強いインパクトを与えると予測されます。

モデルに「分からない」ことを出力させる「分布外検出」の最新動向
Free Post
コンピュータービジョン

モデルに「分からない」ことを出力させる「分布外検出」の最新動向

機械学習アルゴリズムは、時に自信満々に間違えることがよく指摘されています。モデルに「分からない」ことを出力させる「分布外検出」は実用上重要な技術ですが、近年、研究が大きく進んでおり、最近の ICLR 2022 でもいくつか論文が発表されました。本記事では、分布外検出の代表的な手法と最新の論文を紹介します。

OpenAI の超高品質テキスト→画像生成モデル DALL·E 2 の技術詳細を解説
Free Post
コンピュータービジョン

OpenAI の超高品質テキスト→画像生成モデル DALL·E 2 の技術詳細を解説

先週、テキストから画像を高い品質で生成できるモデル「DALL·E 2」が OpenAI が発表されました。初代「DALL·E」から一年あまりで、さらにテキストに忠実でリアルな画像生成を実現し、ネットを賑わせました。本記事では、「DALL·E 2」の技術詳細に注目し、論文を理解するための基礎となる技術を順に追って解説しました。

正解付きデータセットを自動生成する DatasetGAN は「使える」か
Free Post
コンピュータービジョン

正解付きデータセットを自動生成する DatasetGAN は「使える」か

高性能な機械学習モデルを訓練するためには、大規模なデータセットが必要となります。近年では、高品質の画像生成用 GAN を使い、訓練用データセットをアノテーションと共に生成する手法が発表されています。DatasetGAN に代表されるこれらのモデルは実際に「使える」のでしょうか。本記事では、これらの手法を、基礎となるモデルや関連研究も交えながら解説します。

生成品質で DALL·E を超えた!? 拡散モデルによる画像生成の最新動向
Free Post
コンピュータービジョン

生成品質で DALL·E を超えた!? 拡散モデルによる画像生成の最新動向

テキストから高品質な画像を生成する OpenAI のモデル DALL·E が 世間を賑わせて1年ほど経ちます。その間に、データに対するノイズを除去して高品質な画像・テキストを生成する「拡散モデル」も急速に発展し、さらに高品質な画像生成も可能になりました。本記事ではまず、拡散モデルの基礎を簡単におさらいした後、ごく最近発表された拡散モデルに関する論文を3本紹介して解説します。

CV にもマスク型言語モデルの波が!?事前学習手法 MAE・SimMIM を解説
Free Post
コンピュータービジョン

CV にもマスク型言語モデルの波が!?事前学習手法 MAE・SimMIM を解説

BERT に代表されるマスク言語モデルは、自然言語処理において事前学習に広く使われていますが、コンピューター・ビジョン (CV) 分野においても同じような仕組みを使って事前学習するモデルの利用が始まっています。本記事では、最近発表されたマスク型言語モデルのような枠組みで自己教師あり学習する手法を紹介します。

ビジョン用「基盤モデル」の最前線と AI で進む「大統一」とは
Free Post
コンピュータービジョン

ビジョン用「基盤モデル」の最前線と AI で進む「大統一」とは

大規模データから事前学習され、様々なタスクに適用できる汎用モデルである「基盤モデル」。BERT など自然言語処理の分野でポピュラーになった手法が、コンピューター・ビジョン分野にも進出しています。本記事では、ごく最近発表された、コンピューター・ビジョンの複数タスクを同時に解ける、NÜWA, Florence, PolyVit 等を紹介し、基盤モデルのトレンドを追ってみたいと思います。また同時に、AI では分野の「大統一」が進みつつあります。エキサイティングなトレンドですので、最後に少し言及します。

パッチさえあればいい?画像認識・ViT において重要な要素とは【論文速報】
Free Post
コンピュータービジョン

パッチさえあればいい?画像認識・ViT において重要な要素とは【論文速報】

「パッチさえあればいい?」と題された論文が ICLR 2022 に投稿・公開され話題になっています。ConvMixer と呼ばれる画像のパッチ化と畳み込みに基づいた非常に単純なモデル、MLP や ViT と同等の性能をより少ないパラメータ数で実現しています。本記事では、ConvMixer を論文速報として解説し、画像分類において本当に重要な要素とは何か、について解説します。

You've successfully subscribed to ステート・オブ・AI ガイド
Great! Next, complete checkout for full access to ステート・オブ・AI ガイド
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.
Success! Your billing info is updated.
Billing info update failed.