人工知能(AI)・機械学習(ML)の最新動向を論文・国際学会のトレンド等から読み解き、分かりやすく解説します。

Stable Diffusion を基礎から理解したい人向け論文攻略ガイド【無料記事】
Free Post
コンピュータービジョン

Stable Diffusion を基礎から理解したい人向け論文攻略ガイド【無料記事】

登場してから何かと世間を賑わせている Stable Diffusion。技術的には、過去2年間ほどで研究開発が急速に進んだ「拡散モデル」の応用ですが、どの論文をどのような順番で読んだら良いか困ってしまう方も多いのではないでしょうか。本記事では、この Stable Diffusion の背景となる技術を基礎から理解したい方向けの、必読論文のリストとその概要を紹介します。

最強の S4 早くも破る!移動平均ベース最新深層モデル MEGA を解説
Free Post
機械学習

最強の S4 早くも破る!移動平均ベース最新深層モデル MEGA を解説

「最強の系列モデル」と話題になった S4 を早くも破るモデルが登場しています。移動平均とゲート機構をベースとした最新深層モデル「MEGA」、トランスフォーマーよりも高速・省メモリであり、長距離モデリング、言語モデル・機械翻訳、音声・画像分類などでことごとく従来モデルを抜いて最高性能を達成しています。本記事では、ゲート機構・GLU の基礎から始め、この MEGA の技術詳細を解説しました。

最強の音声認識現る  OpenAI の音声認識モデル Whisper を解説
Free Post
音声認識

最強の音声認識現る OpenAI の音声認識モデル Whisper を解説

先週、OpenAI から、オープンソースの音声認識モデル「Whisper」が発表されました。この Whisper、なんと 68 万時間もの訓練データで訓練された大規模な音声認識モデルで、英語で人間に匹敵する高い性能を上げたうえ、日本語を含む多言語の音声認識、音声翻訳、言語認識、音声区間検出なども可能です。これまでの AI コミュニティの反応を総合すると、総じて「これはすごい」というもので、今後の音声認識の研究・実用に大きな影響を与えるものと思われます。本記事では、この OpenAI の Whisper の論文を読み解き、そのデータ・モデルの詳細、今後予測されるインパクトなどを解説しました。

GPT-3 レベルが無料!オープンな大規模言語モデル開発の最新動向
Free Post
自然言語処理

GPT-3 レベルが無料!オープンな大規模言語モデル開発の最新動向

最近になって、オープンなライセンスで利用できる「GPT-3 レベル」の大規模言語モデルが次々と公開されています。これまでは、モデルが公開されなかったり、有料 API でしか利用できなかったりという場合が多かったのですが、今後、言語モデルの研究・利用の敷居がずっと下がりそうです。本記事では、最近の大規模言語モデル開発の動向をまとめました。

実務に役立つ!不均衡データ・ロングテール分布の対策を徹底解説
Free Post
機械学習

実務に役立つ!不均衡データ・ロングテール分布の対策を徹底解説

現実世界のデータでは、カテゴリ間のデータ数に偏りのある「不均衡データ」や「ロングテール分布」が頻繁に出現します。このようなデータに対して対策せずに学習すると、希少カテゴリに対して精度が低下したり、モデルが自信過剰になったりする問題が発生します。本記事では、分類や物体検知のデータセットにおいて、カテゴリごとのデータ数に偏りがあるロングテール (long tailed) 分布をもつデータセットの問題とその対応策を、最新の論文から代表的な手法を選び解説します。

生産性に直結!効果的なハイパーパラメータ最適化の10のアドバイス
Free Post
機械学習

生産性に直結!効果的なハイパーパラメータ最適化の10のアドバイス

機械学習に携わる方であれば、「ハイパーパラメータ最適化」がいかに性能に影響し、いかに多くの時間がかかるか、身をもって体験されている方も多いのではないでしょうか。人手によってチューニングされる場合も多く、「職人芸」ともされるパラメータ最適化ですが、徐々に、最適な最適化手法や、ベスト・プラクティスに関する知見が共有されています。本記事では、機械学習開発で避けて通れない「ハイパーパラメータ最適化」を効果的に行うためのアドバイスを、論文・関連文献などからまとめました。

言語にも拡散モデル革命か 離散データを生成する「ビット拡散」を解説
Free Post
自然言語処理

言語にも拡散モデル革命か 離散データを生成する「ビット拡散」を解説

最近、テキストから高品質な画像を生成するモデルが世間を賑わせていますが、その多くは「拡散モデル」に基づいています。画像のピクセルなど、連続値データを生成するのは得意な拡散モデルですが、テキストなどの離散データの生成についてはあまり上手く行っていませんでした。最近になって、離散データをビット列として拡散モデルで生成する「ビット拡散」が発表されました。非常にシンプルながら強力な手法であり、今後の発展が望めます。本記事では、このビット拡散を関連研究と共に紹介します。

べき乗則を突破!?少ないデータで高精度モデルを訓練する手法がすごい
Free Post
機械学習

べき乗則を突破!?少ないデータで高精度モデルを訓練する手法がすごい

機械学習モデルの性能は、データ量やモデルサイズなどのスケールに対して、べき乗則 (power law) に従って改善するという「スケール則」が、様々なモデル・データにおいて示されています。最近発表された論文では、このスケール則を突破し、訓練データ内の重要なサンプルを同定することにより、指数関数に従ってより効率的にモデルの性能を改善する手法が発表されています。本記事では、このべき乗則を突破し、少ないデータで高精度モデルを訓練する論文を関連研究と共に紹介します。

画像生成 AI の最前線!拡散モデル・画像生成モデルの最新研究を解説
Free Post
コンピュータービジョン

画像生成 AI の最前線!拡散モデル・画像生成モデルの最新研究を解説

テキストの記述にしたがって高品質な画像を生成する「画像生成 AI」。最近、一般向けのサービスも多く登場し、普及が急速に進んでいますが、指示をテキストで書かなければならず、編集が難しいなどの問題があります。最近の論文では、言語に加えて「物体」「概念」を使って画像を生成したり、プロンプトを使って画像の細かな編集を可能にしたりと、生成される画像の質に加え、その「制御性」に改善を加える方向にシフトしつつある印象です。本記事では、この「テキストからの画像生成」技術に関して、次の発展フロンティアとなる技術を、比較的最近発表された論文から読み解きます。

最新論文から見るビジョン・トランスフォーマー(ViT)の性能向上Tips
Free Post
コンピュータービジョン

最新論文から見るビジョン・トランスフォーマー(ViT)の性能向上Tips

トランスフォーマーを画像分類タスクに適用したビジョン・トランスフォーマー (ViT) は、2020年に提案されて以来、その強力な性能から、画像分類だけでなく、物体検出や領域分割、ビデオの分析など、幅広いコンピューター・ビジョンのタスクで使われています。一方で、大量の事前学習データを必要としたり、データ拡張・正則化を工夫する必要があったりと、訓練にコツが必要でした。発表から2年ほど経ち、「どのように訓練すれば、ViT の性能を最大限発揮できるか」という知見が論文などで発表されてきています。本記事では、比較的新しい論文から、「ViT の性能向上 Tips」に注目し、まとめてみたいと思います。

JAX/Flax と TPU を使って大規模言語モデルを爆速で訓練するチュートリアル
Free Post
自然言語処理

JAX/Flax と TPU を使って大規模言語モデルを爆速で訓練するチュートリアル

「第3の深層学習ライブラリ」として、2年ほど前から徐々に普及が進んでいる JAX/Flax。昨年、本ブログで記事として取り上げてからも、様々な学習資料が公開されたり、実際の機械学習モデルの訓練に採用されたりと、普及が進んでいます。本記事では、基礎を簡単におさらいした後、JAX/Flax と TPU を使い、「日本語の大規模言語モデル」を高速に訓練する方法をチュートリアル形式で解説します。

新たなタイプの自然言語処理!言語モデルを賢く使うテクニック10選
Free Post
自然言語処理

新たなタイプの自然言語処理!言語モデルを賢く使うテクニック10選

GPT-3 などの大規模・汎用言語モデルの出現によって、自然言語処理においてタスクを解くやり方にも変化が生じています。タスクやドメインごとにモデル・手法を工夫するかわりに、プロンプトとしてどのように指示を与えるか、言語モデルとどのようにやりとりするか、という点に焦点が移っています。本記事では、言語モデルを使って、数値計算・論理推論などの複雑な問題を、より精度高く解かせるための手法に関する研究およびトレンドを、ごく最近発表された論文も含め10個ほど紹介します。

陰の立役者 VQ-VAE が強力に!新・量子化モデル SQ-VAE を完全解説
Free Post
機械学習

陰の立役者 VQ-VAE が強力に!新・量子化モデル SQ-VAE を完全解説

画像や音声などの連続値データを、離散的な潜在変数の系列で表現する VQ-VAE。トランスフォーマーと並んで、近年の AI 分野において最も重要な技術の一つであると言っても過言ではありませんが、訓練が難しく、うまく使うために様々なテクニックが必要でした。最近、Sony から、「確率的な量子化処理」を取り入れた SQ-VAE が発表されました。訓練のためのテクニックが必要なく、コードブック使用率を高め、より質の高い生成ができるなど、今後のインパクトが期待できます。本記事では、この SQ-VAE を、VAE や VQ-VAE の基礎までさかのぼって解説します。

「最強の系列モデル」S4 で生成も!音声表現・音声生成の最新研究
Free Post
音声認識

「最強の系列モデル」S4 で生成も!音声表現・音声生成の最新研究

長距離ベンチマークで従来手法を圧倒的性能で破って話題となった系列モデル S4 の出現から半年ほどですが、その音声生成への応用モデルなど、後続研究や解説記事などのフォローアップが出現し始めています。本記事では、最近発表された音声表現・音声生成の最新論文を厳選して解説します。

シンプルな自己回帰モデルで最高品質の画像生成を実現! Parti を解説
Free Post
コンピュータービジョン

シンプルな自己回帰モデルで最高品質の画像生成を実現! Parti を解説

Google から、自己回帰的トランスフォーマーによってテキストからの画像生成を実現する Parti が発表されました。拡散モデルなどを使っていないシンプルなモデルにもかかわらず、スケール性によってこれまでで最高の生成品質を実現しています。本記事では、この Parti を、技術的な詳細から多手法との比較まで、詳しく解説していきます。

You've successfully subscribed to ステート・オブ・AI ガイド
Great! Next, complete checkout for full access to ステート・オブ・AI ガイド
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.
Success! Your billing info is updated.
Billing info update failed.