ステート・オブ・AI ガイド (Page 7)

DALL·E の再現も間近か最新のビジョン×言語研究と「使える」データセットを解説

テキストから画像を生成したり、その逆に画像からキャプションを生成したりといった「ビジョン×言語」の研究。人工知能で今最も盛り上がっている分野だと言っても過言ではありませんが、今年のはじめごろに OpenAI からCLIP / DALL·E が発表され、その勢いにさらに加速がつきました。本記事では、「ビジョン×言語」分野の最新の研究と、最近発表された「使える」データセットを中心に、最新の動向を解説しました。

Free Post

音声認識

テキストを使わないNLP！？音声から直接言語を生成・翻訳する最新モデル動向

音声に対する自己教師学習技術の発展により、「テキストを使わない NLP」、すなわち、音声から直接言語を生成・翻訳できる機械学習手法が最近になってさかんに研究されています。本記事では、この「音声に対する自己教師学習」「テキストを使わない言語生成・翻訳」に関するここ数ヶ月の研究動向を紹介します。

Free Post

自然言語処理

書き換えに基づく言語生成モデル・文法誤り訂正の最新トレンド

文書要約やテキスト簡素化などのタスクにおいて、入力を書き換えることによって出力を生成する「書き換えに基づく」言語生成モデルの利用が急速に広まっています。入力を最大限活用し、少ない語彙数でも高精度な生成を実現できるこれらのモデル。ここ最近のトレンドをまとめました。また、テキスト書き換えとして代表的な「文法誤り訂正」についても、このトレンドを受け、ここ1〜2年で新たな進展がありましたので、本記事で解説します。

タスクの難しさに応じて計算量を自動調節するモデル PonderNet を完全解説【論文速報】

Free Post

機械学習

タスクの難しさに応じて計算量を自動調節するモデル PonderNet を完全解説【論文速報】

DeepMind から、タスクの難しさに応じて計算量を自動で調整してくれるモデル PonderNet が最近発表され、話題になっています。PonderNet は入力の難しさに応じてを必要なだけ「熟考」を繰り返すことによって正解を導きます。本記事では、この実用的かつ興味深いモデル PonderNet を論文速報として解説します。

Free Post

音楽情報処理

深層学習を使った音楽生成・音楽表現学習の最先端【2021年最新版】

生成モデル・表現学習の急速な発展に伴い、音楽生成・音楽表現学習の分野にも大きな変化が起きています。ここ２〜３年の間に、長い楽曲を安定して生成できたり、楽器や楽曲のオーディオを直接生成できたりと、芸術的・実用的にも大きく進歩しています。本記事では、特に 2018年〜2021年のごく最近の研究を中心に最新動向を解説してみたいと思います。

Free Post

機械学習

GANを超え、言語にも進出拡散モデルによる画像言語生成の進歩がすごい

データに徐々にノイズを加え、その過程の逆を学習することにより画像や言語を生成する「拡散確率モデル」。ここ数ヶ月の間に、「画像生成で GAN を超えた」「尤度ベースで SOTA」「言語生成にも適用可」などの非常に画期的な手法・論文が次々と発表され、盛り上がりを見せています。本記事では最近発表された論文等も含め、最新動向を解説します。

Free Post

自然言語処理

自然言語処理トップ会議 ACL 2021 から厳選！要チェック論文トップ10

先々週、自然言語処理のトップ会議である ACL 2021 がオンラインで開催されました。本記事では、ACL 2021 の論文の中から、現時点での引用数や、幅広い研究や開発に役立つかどうかなど、私の主観なども混ぜながら、要チェック論文トップ10 (といいながら、合計 11 本ありますが) を選んで解説しました。なるべく幅広いタスクやプロジェクトに役立つように、特定のタスク固有のものではなく、汎用的な手法のものを優先的に選んでいます。

Free Post

AI の最新動向ブログを１年続けたら収益が爆発したのでチームを拡大します

本ブログ「ステート・オブ・AI ガイド」の執筆をはじめ１年が経ちました。この記事では、このブログを１年間書き続けてきた振り返りと、僭越ながらここまで成長できた理由について少し書いてみたいと思っています。また、今後さらに良質の記事を会員の皆様に届けていくために、チームの拡大を考えていますので、興味のある方は読み進めていただければと思います。

知覚信号を前処理ナシで高速に処理！話題のモデル Perceiver IO を完全解説【論文速報】

Free Post

機械学習

知覚信号を前処理ナシで高速に処理！話題のモデル Perceiver IO を完全解説【論文速報】

最近、DeepMind から発表された「Perceiver (パーシーバー)」と、それを入出力に適用した「Perceiver IO」が、機械学習界隈で話題となっています。複数のモダリティの知覚信号を前処理ナシで高速に処理でき、様々なタスクで高い性能を達成しているこれらのモデル、本記事では、この Perceiver と、それを入出力に適用した「Perceiver IO」を、速報的に詳しく解説します。

Free Post

機械学習

深層学習に基づく系列・セッションベース推薦システムの最新動向

AI の他分野で深層学習手法が発展するに従い、推薦システムも急速に発展しています。特に、ユーザーの行動履歴から商品などを推薦するセッションベースの推薦システムは、自然言語処理分野での技術の発展に追随しながら大きな発展を遂げています。本記事では、RNN・トランスフォーマーに基づく手法に主に注目しながら、系列・セッションベースの推薦システムの最新動向をまとめました。

ネットを席巻する謎の高画質テキスト→画像生成モデル VQGAN+CLIP を完全解説

Free Post

コンピュータービジョン

ネットを席巻する謎の高画質テキスト→画像生成モデル VQGAN+CLIP を完全解説

今年の1月に、テキストから高品質の画像を生成できるモデルである DALL·E (ダリー) と共に発表された CLIP。その際は本ブログでも取り上げ、「学術上・実用上非常に重要なマイルストーンだ」という旨を書きましたが、予想通り、コンピューター・ビジョンの分野の様々なタスクにおいて、CLIP の利用が急速に広がっています。この記事では、ここ最近ネットを席巻する謎の高画質テキスト→画像生成モデル VQGAN+CLIP を解説しました。

NLP の最後の砦「分かち書き」を自動で学習！最新モデル Charformer を解説【論文速報】

Free Post

自然言語処理

NLP の最後の砦「分かち書き」を自動で学習！最新モデル Charformer を解説【論文速報】

多くの自然言語処理タスクで、いまだに独立のステップとして実行される「分かち書き」。これを、End-to-End で自動で学習し、文字・バイト単位の入力から直接、高品質な事前学習を実現する Charformer という手法が発表され話題になっています。「NLP の最後の砦」とも言える分かち書きの処理まで「ニューラル化」される重要なマイルストーンであると言えます。発表されてから2週間ほど時間が経ってしまいましたが、論文速報として紹介したいと思います。

GitHub のコード自動生成 AI「Copilot」の技術詳細を解説【論文解説】

Free Post

機械学習

GitHub のコード自動生成 AI「Copilot」の技術詳細を解説【論文解説】

高性能なコードをコメント等から生成・補完してくれる GitHub Copilot。２週間ほど前にリリースされてから、ネット上にて何かと話題になりました。今週、GitHub Copilot を支える大規模言語モデルである「Codex」の技術詳細に関する論文が OpenAI から発表されましたので、速報的に解説してみたいと思います。なお、この論文で記述されている Codex のプロダクション版が、GitHub Copilot の裏側で動いているとのことです。

Free Post

機械学習

ACL 2021 ベストペーパーを完全解説　今度こそ分かる最適輸送×機械学習の応用

近年、機械学習への応用が進んでいる重要なトピックである「最適輸送」 (optimal transport) ですが、ついに ACL 2021 のベストペーパーに最適輸送を使った論文が選ばれました。本記事では、最適輸送の基礎から機械学習への応用を、ACL 2021ベストペーパーを含めて解説しました。

Free Post

コンピュータービジョン

教師あり学習に追いついた　ビジョンにおける自己教師学習・表現学習の最前線

教師ラベルを使わずに人為的なタスクによって表現を学習する「自己教師学習」。自然言語処理の BERT や GPT のようなモデルでは既に一般的ですが、コンピューター・ビジョンの分野においても、従来の教師あり事前学習手法に匹敵する性能を上げはじめており、トレンドの変化を感じます。この記事では、ビジョンにおける自己教師学習・表現学習の最前線を解説しました。