コンピュータービジョン

A collection of 33 posts

深層学習トップ会議 ICLR 2022 のベストペーパー・重要論文まとめ【CV編】
Free Post
コンピュータービジョン

深層学習トップ会議 ICLR 2022 のベストペーパー・重要論文まとめ【CV編】

先月末に、「深層学習のトップ会議」とも言える ICLR 2022 がオンライン上で開催されました。本記事では、この ICLR 2022 から、特に CNN や分類・生成タスクに関するベストペーパー・要チェック論文を厳選して解説します。特に 1) 理論的な裏付けがしっかりしており、2) 実タスクでの性能が良く、かつ、3) 実装が比較的容易、というものを厳選しました。どの論文も興味深く実用性もあり、今後の深層学習に強いインパクトを与えると予測されます。

モデルに「分からない」ことを出力させる「分布外検出」の最新動向
Free Post
コンピュータービジョン

モデルに「分からない」ことを出力させる「分布外検出」の最新動向

機械学習アルゴリズムは、時に自信満々に間違えることがよく指摘されています。モデルに「分からない」ことを出力させる「分布外検出」は実用上重要な技術ですが、近年、研究が大きく進んでおり、最近の ICLR 2022 でもいくつか論文が発表されました。本記事では、分布外検出の代表的な手法と最新の論文を紹介します。

OpenAI の超高品質テキスト→画像生成モデル DALL·E 2 の技術詳細を解説
Free Post
コンピュータービジョン

OpenAI の超高品質テキスト→画像生成モデル DALL·E 2 の技術詳細を解説

先週、テキストから画像を高い品質で生成できるモデル「DALL·E 2」が OpenAI が発表されました。初代「DALL·E」から一年あまりで、さらにテキストに忠実でリアルな画像生成を実現し、ネットを賑わせました。本記事では、「DALL·E 2」の技術詳細に注目し、論文を理解するための基礎となる技術を順に追って解説しました。

正解付きデータセットを自動生成する DatasetGAN は「使える」か
Free Post
コンピュータービジョン

正解付きデータセットを自動生成する DatasetGAN は「使える」か

高性能な機械学習モデルを訓練するためには、大規模なデータセットが必要となります。近年では、高品質の画像生成用 GAN を使い、訓練用データセットをアノテーションと共に生成する手法が発表されています。DatasetGAN に代表されるこれらのモデルは実際に「使える」のでしょうか。本記事では、これらの手法を、基礎となるモデルや関連研究も交えながら解説します。

生成品質で DALL·E を超えた!? 拡散モデルによる画像生成の最新動向
Free Post
コンピュータービジョン

生成品質で DALL·E を超えた!? 拡散モデルによる画像生成の最新動向

テキストから高品質な画像を生成する OpenAI のモデル DALL·E が 世間を賑わせて1年ほど経ちます。その間に、データに対するノイズを除去して高品質な画像・テキストを生成する「拡散モデル」も急速に発展し、さらに高品質な画像生成も可能になりました。本記事ではまず、拡散モデルの基礎を簡単におさらいした後、ごく最近発表された拡散モデルに関する論文を3本紹介して解説します。

CV にもマスク型言語モデルの波が!?事前学習手法 MAE・SimMIM を解説
Free Post
コンピュータービジョン

CV にもマスク型言語モデルの波が!?事前学習手法 MAE・SimMIM を解説

BERT に代表されるマスク言語モデルは、自然言語処理において事前学習に広く使われていますが、コンピューター・ビジョン (CV) 分野においても同じような仕組みを使って事前学習するモデルの利用が始まっています。本記事では、最近発表されたマスク型言語モデルのような枠組みで自己教師あり学習する手法を紹介します。

ビジョン用「基盤モデル」の最前線と AI で進む「大統一」とは
Free Post
コンピュータービジョン

ビジョン用「基盤モデル」の最前線と AI で進む「大統一」とは

大規模データから事前学習され、様々なタスクに適用できる汎用モデルである「基盤モデル」。BERT など自然言語処理の分野でポピュラーになった手法が、コンピューター・ビジョン分野にも進出しています。本記事では、ごく最近発表された、コンピューター・ビジョンの複数タスクを同時に解ける、NÜWA, Florence, PolyVit 等を紹介し、基盤モデルのトレンドを追ってみたいと思います。また同時に、AI では分野の「大統一」が進みつつあります。エキサイティングなトレンドですので、最後に少し言及します。

パッチさえあればいい?画像認識・ViT において重要な要素とは【論文速報】
Free Post
コンピュータービジョン

パッチさえあればいい?画像認識・ViT において重要な要素とは【論文速報】

「パッチさえあればいい?」と題された論文が ICLR 2022 に投稿・公開され話題になっています。ConvMixer と呼ばれる画像のパッチ化と畳み込みに基づいた非常に単純なモデル、MLP や ViT と同等の性能をより少ないパラメータ数で実現しています。本記事では、ConvMixer を論文速報として解説し、画像分類において本当に重要な要素とは何か、について解説します。

ResNetの逆襲!最新の訓練手法で古典的モデルを強くする方法【論文速報】
Free Post
コンピュータービジョン

ResNetの逆襲!最新の訓練手法で古典的モデルを強くする方法【論文速報】

コンピューター・ビジョンで最も幅広く使われていると言っても過言ではない ResNet。「ResNetの逆襲」と題されたこの論文では、最適化手法やデータ拡張・正則化など、近年提案された強力な訓練方法を使って学習すると、非常に強力な性能を発揮することが分かりました。「そもそも機械学習における進歩はどこから来るか」という示唆を与える重要な論文ですので、論文速報として紹介しました。

ビジョン・トランスフォーマーはなぜCNNより強い?その仕組みを解明【論文速報】
Free Post
コンピュータービジョン

ビジョン・トランスフォーマーはなぜCNNより強い?その仕組みを解明【論文速報】

昨年10月にビジョン・トランスフォーマー (ViT) が画像認識にて最高精度を達成して以来、コンピューター・ビジョンの分野を席巻しています。そもそも、ViT の強さはどこにあるのでしょうか?本記事では、Google Research から発表された最近の論文を論文速報として紹介しながら、CNN (ResNet) とビジョン・トランスフォーマーとの違いを探っていきます。

DALL·E の再現も間近か  最新のビジョン×言語研究と「使える」データセットを解説
Free Post
コンピュータービジョン

DALL·E の再現も間近か 最新のビジョン×言語研究と「使える」データセットを解説

テキストから画像を生成したり、その逆に画像からキャプションを生成したりといった「ビジョン×言語」の研究。人工知能で今最も盛り上がっている分野だと言っても過言ではありませんが、今年のはじめごろに OpenAI からCLIP / DALL·E が発表され、その勢いにさらに加速がつきました。本記事では、「ビジョン×言語」分野の最新の研究と、最近発表された「使える」データセットを中心に、最新の動向を解説しました。

GANを超え、言語にも進出 拡散モデルによる画像言語生成の進歩がすごい
Free Post
機械学習

GANを超え、言語にも進出 拡散モデルによる画像言語生成の進歩がすごい

データに徐々にノイズを加え、その過程の逆を学習することにより画像や言語を生成する「拡散確率モデル」。ここ数ヶ月の間に、「画像生成で GAN を超えた」「尤度ベースで SOTA」「言語生成にも適用可」などの非常に画期的な手法・論文が次々と発表され、盛り上がりを見せています。本記事では最近発表された論文等も含め、最新動向を解説します。

知覚信号を前処理ナシで高速に処理!話題のモデル Perceiver IO を完全解説【論文速報】
Free Post
機械学習

知覚信号を前処理ナシで高速に処理!話題のモデル Perceiver IO を完全解説【論文速報】

最近、DeepMind から発表された「Perceiver (パーシーバー)」と、それを入出力に適用した「Perceiver IO」が、機械学習界隈で話題となっています。複数のモダリティの知覚信号を前処理ナシで高速に処理でき、様々なタスクで高い性能を達成しているこれらのモデル、本記事では、この Perceiver と、それを入出力に適用した「Perceiver IO」を、速報的に詳しく解説します。

ネットを席巻する謎の高画質テキスト→画像生成モデル VQGAN+CLIP を完全解説
Free Post
コンピュータービジョン

ネットを席巻する謎の高画質テキスト→画像生成モデル VQGAN+CLIP を完全解説

今年の1月に、テキストから高品質の画像を生成できるモデルである DALL·E (ダリー) と共に発表された CLIP。その際は本ブログでも取り上げ、「学術上・実用上非常に重要なマイルストーンだ」という旨を書きましたが、予想通り、コンピューター・ビジョンの分野の様々なタスクにおいて、CLIP の利用が急速に広がっています。この記事では、ここ最近ネットを席巻する謎の高画質テキスト→画像生成モデル VQGAN+CLIP を解説しました。

You've successfully subscribed to ステート・オブ・AI ガイド
Great! Next, complete checkout for full access to ステート・オブ・AI ガイド
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.
Success! Your billing info is updated.
Billing info update failed.