コンピュータービジョン

A collection of 26 posts

パッチさえあればいい?画像認識・ViT において重要な要素とは【論文速報】
Free Post
コンピュータービジョン

パッチさえあればいい?画像認識・ViT において重要な要素とは【論文速報】

「パッチさえあればいい?」と題された論文が ICLR 2022 に投稿・公開され話題になっています。ConvMixer と呼ばれる画像のパッチ化と畳み込みに基づいた非常に単純なモデル、MLP や ViT と同等の性能をより少ないパラメータ数で実現しています。本記事では、ConvMixer を論文速報として解説し、画像分類において本当に重要な要素とは何か、について解説します。

ResNetの逆襲!最新の訓練手法で古典的モデルを強くする方法【論文速報】
Free Post
コンピュータービジョン

ResNetの逆襲!最新の訓練手法で古典的モデルを強くする方法【論文速報】

コンピューター・ビジョンで最も幅広く使われていると言っても過言ではない ResNet。「ResNetの逆襲」と題されたこの論文では、最適化手法やデータ拡張・正則化など、近年提案された強力な訓練方法を使って学習すると、非常に強力な性能を発揮することが分かりました。「そもそも機械学習における進歩はどこから来るか」という示唆を与える重要な論文ですので、論文速報として紹介しました。

ビジョン・トランスフォーマーはなぜCNNより強い?その仕組みを解明【論文速報】
Free Post
コンピュータービジョン

ビジョン・トランスフォーマーはなぜCNNより強い?その仕組みを解明【論文速報】

昨年10月にビジョン・トランスフォーマー (ViT) が画像認識にて最高精度を達成して以来、コンピューター・ビジョンの分野を席巻しています。そもそも、ViT の強さはどこにあるのでしょうか?本記事では、Google Research から発表された最近の論文を論文速報として紹介しながら、CNN (ResNet) とビジョン・トランスフォーマーとの違いを探っていきます。

DALL·E の再現も間近か  最新のビジョン×言語研究と「使える」データセットを解説
Free Post
コンピュータービジョン

DALL·E の再現も間近か 最新のビジョン×言語研究と「使える」データセットを解説

テキストから画像を生成したり、その逆に画像からキャプションを生成したりといった「ビジョン×言語」の研究。人工知能で今最も盛り上がっている分野だと言っても過言ではありませんが、今年のはじめごろに OpenAI からCLIP / DALL·E が発表され、その勢いにさらに加速がつきました。本記事では、「ビジョン×言語」分野の最新の研究と、最近発表された「使える」データセットを中心に、最新の動向を解説しました。

GANを超え、言語にも進出 拡散モデルによる画像言語生成の進歩がすごい
Free Post
機械学習

GANを超え、言語にも進出 拡散モデルによる画像言語生成の進歩がすごい

データに徐々にノイズを加え、その過程の逆を学習することにより画像や言語を生成する「拡散確率モデル」。ここ数ヶ月の間に、「画像生成で GAN を超えた」「尤度ベースで SOTA」「言語生成にも適用可」などの非常に画期的な手法・論文が次々と発表され、盛り上がりを見せています。本記事では最近発表された論文等も含め、最新動向を解説します。

知覚信号を前処理ナシで高速に処理!話題のモデル Perceiver IO を完全解説【論文速報】
Free Post
機械学習

知覚信号を前処理ナシで高速に処理!話題のモデル Perceiver IO を完全解説【論文速報】

最近、DeepMind から発表された「Perceiver (パーシーバー)」と、それを入出力に適用した「Perceiver IO」が、機械学習界隈で話題となっています。複数のモダリティの知覚信号を前処理ナシで高速に処理でき、様々なタスクで高い性能を達成しているこれらのモデル、本記事では、この Perceiver と、それを入出力に適用した「Perceiver IO」を、速報的に詳しく解説します。

ネットを席巻する謎の高画質テキスト→画像生成モデル VQGAN+CLIP を完全解説
Free Post
コンピュータービジョン

ネットを席巻する謎の高画質テキスト→画像生成モデル VQGAN+CLIP を完全解説

今年の1月に、テキストから高品質の画像を生成できるモデルである DALL·E (ダリー) と共に発表された CLIP。その際は本ブログでも取り上げ、「学術上・実用上非常に重要なマイルストーンだ」という旨を書きましたが、予想通り、コンピューター・ビジョンの分野の様々なタスクにおいて、CLIP の利用が急速に広がっています。この記事では、ここ最近ネットを席巻する謎の高画質テキスト→画像生成モデル VQGAN+CLIP を解説しました。

ACL 2021 ベストペーパーを完全解説 今度こそ分かる最適輸送×機械学習の応用
Free Post
機械学習

ACL 2021 ベストペーパーを完全解説 今度こそ分かる最適輸送×機械学習の応用

近年、機械学習への応用が進んでいる重要なトピックである「最適輸送」 (optimal transport) ですが、ついに ACL 2021 のベストペーパーに最適輸送を使った論文が選ばれました。本記事では、最適輸送の基礎から機械学習への応用を、ACL 2021ベストペーパーを含めて解説しました。

教師あり学習に追いついた ビジョンにおける自己教師学習・表現学習の最前線
Free Post
コンピュータービジョン

教師あり学習に追いついた ビジョンにおける自己教師学習・表現学習の最前線

教師ラベルを使わずに人為的なタスクによって表現を学習する「自己教師学習」。自然言語処理の BERT や GPT のようなモデルでは既に一般的ですが、コンピューター・ビジョンの分野においても、従来の教師あり事前学習手法に匹敵する性能を上げはじめており、トレンドの変化を感じます。この記事では、ビジョンにおける自己教師学習・表現学習の最前線を解説しました。

多層パーセプトロン (MLP) 時代の到来と、トランスフォーマーの終焉
Free Post
コンピュータービジョン

多層パーセプトロン (MLP) 時代の到来と、トランスフォーマーの終焉

Google Brain から先週発表された多層パーセプトロン (MLP) にゲート機構を組み合わせた「gMLP」が、業界に衝撃を与えています。画像認識と BERT 的言語モデルにおいてトランスフォーマーに匹敵する性能を叩き出したからです。この記事では、この 「gMLP」の解説を中心として、関連する MLP 系の手法に少し触れ、「今後トランスフォーマーはどうなるのか」について考察してみたいと思います。

CNNも注意機構もなし 全結合層だけで画像分類するMLP-Mixerの衝撃【論文速報】
Free Post
コンピュータービジョン

CNNも注意機構もなし 全結合層だけで画像分類するMLP-Mixerの衝撃【論文速報】

畳み込み層やトランスフォーマーのような自己注意機構も使わず、多層パーセプトロンだけで高精度な画像分類を実現する「MLP-Mixer」。先週 Google Research から発表されたこちらの論文、業界内でちょっとした衝撃が走りました。本記事では、簡単な例も交えながら、要点を解説してみたいと思います。

GPT がついにビデオにも進出 深層学習を使ったビデオ生成・認識研究の最先端
Free Post
コンピュータービジョン

GPT がついにビデオにも進出 深層学習を使ったビデオ生成・認識研究の最先端

コンテンツ生成、予測 (自動運転、気象予報)、強化学習など、現実世界において様々な応用のあるビデオ生成・認識。トランスフォーマーや GPT が他ドメインで成功を収める中、ビデオ分野にもこの「トランスフォーマーの波」が押し寄せています。この記事では、このビデオ生成・認識分野における最近の研究動向をまとめてみたいと思います。

全く新しい生成モデル 勾配ベクトル場とスコアマッチングによる画像・音声生成を解説
Free Post
機械学習

全く新しい生成モデル 勾配ベクトル場とスコアマッチングによる画像・音声生成を解説

データの密度勾配をモデル化しそこからサンプルを生成する「スコアベース手法」。理論的にも興味深く、高品質の画像や音声を生成できることもあり、機械学習業界で盛り上がりを見せていますが、日本語での情報がほとんど無いのがネックになっています。この記事では、スコアベースの生成モデルの基礎と、画像と音声に応用した比較的新しい論文をまとめて解説します。

シンプルかつ効果的!深層学習で復活した「自己学習」の最新研究トレンド
Free Post
機械学習

シンプルかつ効果的!深層学習で復活した「自己学習」の最新研究トレンド

モデル自身を使ってラベル無しデータに「疑似正解」を付与、そこから新たなモデルを学習する「自己学習」 (self-training)。近年の深層学習技術の発展に伴って、その有効性を示す研究が画像・言語・音声の全分野で数多く発表されています。本記事では、その「自己学習」の最新の研究トレンドをいくつか紹介したいと思います。

You've successfully subscribed to ステート・オブ・AI ガイド
Great! Next, complete checkout for full access to ステート・オブ・AI ガイド
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.
Success! Your billing info is updated.
Billing info update failed.