コンピュータービジョン

A collection of 22 posts

DALL·E の再現も間近か  最新のビジョン×言語研究と「使える」データセットを解説
Free Post
コンピュータービジョン

DALL·E の再現も間近か 最新のビジョン×言語研究と「使える」データセットを解説

テキストから画像を生成したり、その逆に画像からキャプションを生成したりといった「ビジョン×言語」の研究。人工知能で今最も盛り上がっている分野だと言っても過言ではありませんが、今年のはじめごろに OpenAI からCLIP / DALL·E が発表され、その勢いにさらに加速がつきました。本記事では、「ビジョン×言語」分野の最新の研究と、最近発表された「使える」データセットを中心に、最新の動向を解説しました。

GANを超え、言語にも進出 拡散モデルによる画像言語生成の進歩がすごい
Free Post
機械学習

GANを超え、言語にも進出 拡散モデルによる画像言語生成の進歩がすごい

データに徐々にノイズを加え、その過程の逆を学習することにより画像や言語を生成する「拡散確率モデル」。ここ数ヶ月の間に、「画像生成で GAN を超えた」「尤度ベースで SOTA」「言語生成にも適用可」などの非常に画期的な手法・論文が次々と発表され、盛り上がりを見せています。本記事では最近発表された論文等も含め、最新動向を解説します。

知覚信号を前処理ナシで高速に処理!話題のモデル Perceiver IO を完全解説【論文速報】
Free Post
機械学習

知覚信号を前処理ナシで高速に処理!話題のモデル Perceiver IO を完全解説【論文速報】

最近、DeepMind から発表された「Perceiver (パーシーバー)」と、それを入出力に適用した「Perceiver IO」が、機械学習界隈で話題となっています。複数のモダリティの知覚信号を前処理ナシで高速に処理でき、様々なタスクで高い性能を達成しているこれらのモデル、本記事では、この Perceiver と、それを入出力に適用した「Perceiver IO」を、速報的に詳しく解説します。

ネットを席巻する謎の高画質テキスト→画像生成モデル VQGAN+CLIP を完全解説
Free Post
コンピュータービジョン

ネットを席巻する謎の高画質テキスト→画像生成モデル VQGAN+CLIP を完全解説

今年の1月に、テキストから高品質の画像を生成できるモデルである DALL·E (ダリー) と共に発表された CLIP。その際は本ブログでも取り上げ、「学術上・実用上非常に重要なマイルストーンだ」という旨を書きましたが、予想通り、コンピューター・ビジョンの分野の様々なタスクにおいて、CLIP の利用が急速に広がっています。この記事では、ここ最近ネットを席巻する謎の高画質テキスト→画像生成モデル VQGAN+CLIP を解説しました。

ACL 2021 ベストペーパーを完全解説 今度こそ分かる最適輸送×機械学習の応用
Free Post
機械学習

ACL 2021 ベストペーパーを完全解説 今度こそ分かる最適輸送×機械学習の応用

近年、機械学習への応用が進んでいる重要なトピックである「最適輸送」 (optimal transport) ですが、ついに ACL 2021 のベストペーパーに最適輸送を使った論文が選ばれました。本記事では、最適輸送の基礎から機械学習への応用を、ACL 2021ベストペーパーを含めて解説しました。

教師あり学習に追いついた ビジョンにおける自己教師学習・表現学習の最前線
Free Post
コンピュータービジョン

教師あり学習に追いついた ビジョンにおける自己教師学習・表現学習の最前線

教師ラベルを使わずに人為的なタスクによって表現を学習する「自己教師学習」。自然言語処理の BERT や GPT のようなモデルでは既に一般的ですが、コンピューター・ビジョンの分野においても、従来の教師あり事前学習手法に匹敵する性能を上げはじめており、トレンドの変化を感じます。この記事では、ビジョンにおける自己教師学習・表現学習の最前線を解説しました。

多層パーセプトロン (MLP) 時代の到来と、トランスフォーマーの終焉
Free Post
コンピュータービジョン

多層パーセプトロン (MLP) 時代の到来と、トランスフォーマーの終焉

Google Brain から先週発表された多層パーセプトロン (MLP) にゲート機構を組み合わせた「gMLP」が、業界に衝撃を与えています。画像認識と BERT 的言語モデルにおいてトランスフォーマーに匹敵する性能を叩き出したからです。この記事では、この 「gMLP」の解説を中心として、関連する MLP 系の手法に少し触れ、「今後トランスフォーマーはどうなるのか」について考察してみたいと思います。

CNNも注意機構もなし 全結合層だけで画像分類するMLP-Mixerの衝撃【論文速報】
Free Post
コンピュータービジョン

CNNも注意機構もなし 全結合層だけで画像分類するMLP-Mixerの衝撃【論文速報】

畳み込み層やトランスフォーマーのような自己注意機構も使わず、多層パーセプトロンだけで高精度な画像分類を実現する「MLP-Mixer」。先週 Google Research から発表されたこちらの論文、業界内でちょっとした衝撃が走りました。本記事では、簡単な例も交えながら、要点を解説してみたいと思います。

GPT がついにビデオにも進出 深層学習を使ったビデオ生成・認識研究の最先端
Free Post
コンピュータービジョン

GPT がついにビデオにも進出 深層学習を使ったビデオ生成・認識研究の最先端

コンテンツ生成、予測 (自動運転、気象予報)、強化学習など、現実世界において様々な応用のあるビデオ生成・認識。トランスフォーマーや GPT が他ドメインで成功を収める中、ビデオ分野にもこの「トランスフォーマーの波」が押し寄せています。この記事では、このビデオ生成・認識分野における最近の研究動向をまとめてみたいと思います。

全く新しい生成モデル 勾配ベクトル場とスコアマッチングによる画像・音声生成を解説
Free Post
機械学習

全く新しい生成モデル 勾配ベクトル場とスコアマッチングによる画像・音声生成を解説

データの密度勾配をモデル化しそこからサンプルを生成する「スコアベース手法」。理論的にも興味深く、高品質の画像や音声を生成できることもあり、機械学習業界で盛り上がりを見せていますが、日本語での情報がほとんど無いのがネックになっています。この記事では、スコアベースの生成モデルの基礎と、画像と音声に応用した比較的新しい論文をまとめて解説します。

シンプルかつ効果的!深層学習で復活した「自己学習」の最新研究トレンド
Free Post
機械学習

シンプルかつ効果的!深層学習で復活した「自己学習」の最新研究トレンド

モデル自身を使ってラベル無しデータに「疑似正解」を付与、そこから新たなモデルを学習する「自己学習」 (self-training)。近年の深層学習技術の発展に伴って、その有効性を示す研究が画像・言語・音声の全分野で数多く発表されています。本記事では、その「自己学習」の最新の研究トレンドをいくつか紹介したいと思います。

GANを超えた!?画像・音声の「可変レート」表現学習手法が未来すぎる
Free Post
コンピュータービジョン

GANを超えた!?画像・音声の「可変レート」表現学習手法が未来すぎる

意味の密度に応じて、潜在表現の情報量を変化させる「可変レート離散表現」に関する論文が、最近 DeepMind によって立て続けに発表されました。非常に実用的かつ学術的にも興味深い研究だと思いますので、以下で、画像・音声に対する可変レートの潜在表現学習手法をそれぞれ紹介します。

トランスフォーマーが汎用計算エンジンになる?凍結事前学習トランスフォーマーの驚異的な汎化能力
Free Post
機械学習

トランスフォーマーが汎用計算エンジンになる?凍結事前学習トランスフォーマーの驚異的な汎化能力

言語・ビジョン・音声など、様々な分野で大きな成果を上げているトランスフォーマー。言語のみで事前学習されたトランスフォーマーのごく一部を微調整するだけで、画像認識などで驚異的な汎化能力を示すことが分かってきました。本記事では、近年のトランスフォーマーの転移学習・マルチタスク学習に関する論文をいくつか紹介しながら、トレンドを追ってみたいと思います。

【論文速報】OpenAI の超高クオリティ画像生成モデル DALL·E の論文を解説
Free Post
コンピュータービジョン

【論文速報】OpenAI の超高クオリティ画像生成モデル DALL·E の論文を解説

今年2021年1月に、OpenAI から発表された画像生成モデルである「DALL·E (ダリー)」。先日、その技術的詳細を解説した論文が発表されたのにあわせ、本記事では、CLIP などの関連研究などを紹介し、その技術・モデル等の詳細について速報的に解説してみたいと思います。

【論文速報】ついにトランスフォーマーにライバル出現!?次世代の注意機構「ラムダネットワーク」を解説
Free Post
コンピュータービジョン

【論文速報】ついにトランスフォーマーにライバル出現!?次世代の注意機構「ラムダネットワーク」を解説

先週、「ラムダネットワーク」と呼ばれる「次世代の注意機構」とも言える変換機構を持つネットワークが発表されました。注意の重みを計算することなく、効率的に入力を出力に変換できることもあり、各所で話題になっています。本記事では、速報的に、この「ラムダネットワーク」の論文を解説してみたいと思います(今週は2本立てです)。

You've successfully subscribed to ステート・オブ・AI ガイド
Great! Next, complete checkout for full access to ステート・オブ・AI ガイド
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.
Success! Your billing info is updated.
Billing info update failed.