人工知能(AI)・機械学習(ML)の最新動向を論文・国際学会のトレンド等から読み解き、分かりやすく解説します。

最新論文から見るビジョン・トランスフォーマー(ViT)の性能向上Tips
Free Post
コンピュータービジョン

最新論文から見るビジョン・トランスフォーマー(ViT)の性能向上Tips

トランスフォーマーを画像分類タスクに適用したビジョン・トランスフォーマー (ViT) は、2020年に提案されて以来、その強力な性能から、画像分類だけでなく、物体検出や領域分割、ビデオの分析など、幅広いコンピューター・ビジョンのタスクで使われています。一方で、大量の事前学習データを必要としたり、データ拡張・正則化を工夫する必要があったりと、訓練にコツが必要でした。発表から2年ほど経ち、「どのように訓練すれば、ViT の性能を最大限発揮できるか」という知見が論文などで発表されてきています。本記事では、比較的新しい論文から、「ViT の性能向上 Tips」に注目し、まとめてみたいと思います。

JAX/Flax と TPU を使って大規模言語モデルを爆速で訓練するチュートリアル
Free Post
自然言語処理

JAX/Flax と TPU を使って大規模言語モデルを爆速で訓練するチュートリアル

「第3の深層学習ライブラリ」として、2年ほど前から徐々に普及が進んでいる JAX/Flax。昨年、本ブログで記事として取り上げてからも、様々な学習資料が公開されたり、実際の機械学習モデルの訓練に採用されたりと、普及が進んでいます。本記事では、基礎を簡単におさらいした後、JAX/Flax と TPU を使い、「日本語の大規模言語モデル」を高速に訓練する方法をチュートリアル形式で解説します。

新たなタイプの自然言語処理!言語モデルを賢く使うテクニック10選
Free Post
自然言語処理

新たなタイプの自然言語処理!言語モデルを賢く使うテクニック10選

GPT-3 などの大規模・汎用言語モデルの出現によって、自然言語処理においてタスクを解くやり方にも変化が生じています。タスクやドメインごとにモデル・手法を工夫するかわりに、プロンプトとしてどのように指示を与えるか、言語モデルとどのようにやりとりするか、という点に焦点が移っています。本記事では、言語モデルを使って、数値計算・論理推論などの複雑な問題を、より精度高く解かせるための手法に関する研究およびトレンドを、ごく最近発表された論文も含め10個ほど紹介します。

陰の立役者 VQ-VAE が強力に!新・量子化モデル SQ-VAE を完全解説
Free Post
機械学習

陰の立役者 VQ-VAE が強力に!新・量子化モデル SQ-VAE を完全解説

画像や音声などの連続値データを、離散的な潜在変数の系列で表現する VQ-VAE。トランスフォーマーと並んで、近年の AI 分野において最も重要な技術の一つであると言っても過言ではありませんが、訓練が難しく、うまく使うために様々なテクニックが必要でした。最近、Sony から、「確率的な量子化処理」を取り入れた SQ-VAE が発表されました。訓練のためのテクニックが必要なく、コードブック使用率を高め、より質の高い生成ができるなど、今後のインパクトが期待できます。本記事では、この SQ-VAE を、VAE や VQ-VAE の基礎までさかのぼって解説します。

「最強の系列モデル」S4 で生成も!音声表現・音声生成の最新研究
Free Post
音声認識

「最強の系列モデル」S4 で生成も!音声表現・音声生成の最新研究

長距離ベンチマークで従来手法を圧倒的性能で破って話題となった系列モデル S4 の出現から半年ほどですが、その音声生成への応用モデルなど、後続研究や解説記事などのフォローアップが出現し始めています。本記事では、最近発表された音声表現・音声生成の最新論文を厳選して解説します。

シンプルな自己回帰モデルで最高品質の画像生成を実現! Parti を解説
Free Post
コンピュータービジョン

シンプルな自己回帰モデルで最高品質の画像生成を実現! Parti を解説

Google から、自己回帰的トランスフォーマーによってテキストからの画像生成を実現する Parti が発表されました。拡散モデルなどを使っていないシンプルなモデルにもかかわらず、スケール性によってこれまでで最高の生成品質を実現しています。本記事では、この Parti を、技術的な詳細から多手法との比較まで、詳しく解説していきます。

最新の機械翻訳技術の総集編!Googleが1,000言語を訳せる秘密とは
Free Post
自然言語処理

最新の機械翻訳技術の総集編!Googleが1,000言語を訳せる秘密とは

機械翻訳がまだ対応できない「次の 1,000 言語」を翻訳できるニューラル機械翻訳システムを構築するには?最近 Google から発表された論文では、超多言語モデリングと近年のニューラル機械翻訳の技術を駆使し、グーグル翻訳に低資源言語を追加するプロセスが詳細に解説されています。近年の深層機械翻訳に関する有用なテクニックの総集編としても読め、機械翻訳に関わる人以外にもオススメです。

機械学習におけるベンチマーク完全ガイド 利用・構築・問題点まとめ
Free Post
機械学習

機械学習におけるベンチマーク完全ガイド 利用・構築・問題点まとめ

機械学習モデルの性能を測定・比較するための標準化されたタスク・データセットである「ベンチマーク」、機械学習分野で広く普及しており、モデルの開発を後押ししています。本記事では、コンピューター・ビジョン、自然言語処理、音声処理などにおけるベンチマークを最新のものも含めて紹介した後、これらベンチマークの利用・構築に関する示唆に富んだ論文を数本紹介し、「機械学習ベンチマークの利用・構築・問題点」を詳しくまとめました。

単純かつ効果的!訓練順序を工夫する「カリキュラム学習」とNLP応用
Free Post
機械学習

単純かつ効果的!訓練順序を工夫する「カリキュラム学習」とNLP応用

人間が学習するように、難易度に応じてデータを提示する順序を工夫する「カリキュラム学習」、シンプルかつ効果的な方法として研究が進んでいます。本記事では、カリキュラム学習の基礎をおさらいした後、自然言語処理における代表的な応用例 (機械翻訳、音声翻訳、自然言語理解、チャットボット) を幅広く紹介・解説します。

DALL·E 2 を早くも破る!超リアル画像生成モデル Imagen を解説
Free Post
コンピュータービジョン

DALL·E 2 を早くも破る!超リアル画像生成モデル Imagen を解説

5 月末に Google から、テキストに忠実かつ非常に写実的な画像を生成できる Imagen が発表されました。最近発表された DALL·E 2 に続き、テキストをもとに画像を生成する「テキスト→画像 (text-to-image)」タスクが急速に発展しています。本記事では、Imagen に採用されている技術の解説を丁寧に紐解いていきます。

自然言語処理トップ会議 ACL 2022 から厳選!要チェック論文まとめ
Free Post
自然言語処理

自然言語処理トップ会議 ACL 2022 から厳選!要チェック論文まとめ

先週 (5月22日〜27日)、自然言語処理のトップ会議である ACL 2022 がオンラインおよび対面のハイブリッド形式で開催されました。本記事では、ACL 2022 の論文の中から、現時点での引用数や、幅広い研究や開発に役立つかどうかなど、私の主観なども混ぜながら、要チェック論文を選んで解説しました。

DeepMind の「万能モデル」 Gato と Flamingo の技術を解説
Free Post
機械学習

DeepMind の「万能モデル」 Gato と Flamingo の技術を解説

先週、DeepMind から、単一のモデル・パラメータで、Atari のゲームを制御したり、画像のキャプションを生成したり、テキストで対話をしたり、現実のロボットアームを用いてブロックを積み上げたりできる最新の「超マルチモーダル・マルチタスクモデル Gato」が発表され、ネット上で「汎用人工知能に近づいたか」と話題になりました。また同時に、「GPT-3 の視覚×言語版」とも言える Flamingo も発表され、話題となりました。実際、Gato と Flamingo のどこが凄く、どこに課題があるのでしょうか。論文から技術詳細を解説し、考察してみたいと思います。

深層学習トップ会議 ICLR 2022 のベストペーパー・重要論文まとめ【CV編】
Free Post
コンピュータービジョン

深層学習トップ会議 ICLR 2022 のベストペーパー・重要論文まとめ【CV編】

先月末に、「深層学習のトップ会議」とも言える ICLR 2022 がオンライン上で開催されました。本記事では、この ICLR 2022 から、特に CNN や分類・生成タスクに関するベストペーパー・要チェック論文を厳選して解説します。特に 1) 理論的な裏付けがしっかりしており、2) 実タスクでの性能が良く、かつ、3) 実装が比較的容易、というものを厳選しました。どの論文も興味深く実用性もあり、今後の深層学習に強いインパクトを与えると予測されます。

深層学習トップ会議 ICLR 2022 の要注目論文まとめ【NLP/ML一般編】
Free Post
機械学習

深層学習トップ会議 ICLR 2022 の要注目論文まとめ【NLP/ML一般編】

先月末、「深層学習のトップ会議」とも言える ICLR 2022 がオンライン上で開催されました。本ブログでは、全 1,095 本の採択論文の中から要チェック論文を厳選し、2週間に分けて紹介します。今週は 自然言語処理 (NLP) と機械学習全般に関する論文です。いずれの論文も、新しい概念を提案する挑戦的なものや、実務に使える実用的なものを中心に厳選しました。

モデルに「分からない」ことを出力させる「分布外検出」の最新動向
Free Post
コンピュータービジョン

モデルに「分からない」ことを出力させる「分布外検出」の最新動向

機械学習アルゴリズムは、時に自信満々に間違えることがよく指摘されています。モデルに「分からない」ことを出力させる「分布外検出」は実用上重要な技術ですが、近年、研究が大きく進んでおり、最近の ICLR 2022 でもいくつか論文が発表されました。本記事では、分布外検出の代表的な手法と最新の論文を紹介します。

You've successfully subscribed to ステート・オブ・AI ガイド
Great! Next, complete checkout for full access to ステート・オブ・AI ガイド
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.
Success! Your billing info is updated.
Billing info update failed.