人工知能(AI)・機械学習(ML)の最新動向を論文・国際学会のトレンド等から読み解き、分かりやすく解説します。

機械学習トップ会議 NeurIPS 2022 のベストペーパー・重要論文を解説
Free Post
機械学習

機械学習トップ会議 NeurIPS 2022 のベストペーパー・重要論文を解説

先週の 11/26〜12/4 にかけて、機械学習系のトップ会議である NeurIPS 2022 がオンラインと現地のハイブリッドで開催されました。発表の分野も多岐に渡るため、その全てを単一の記事でカバーすることは到底できません。本記事では、主に優秀論文賞 (outstanding papers) を受賞した論文の中から、興味深く実用的にも重要なものをピックアップして紹介します。

その訓練法は間違っていた!?進化を続ける言語モデル研究の最新動向
Free Post
自然言語処理

その訓練法は間違っていた!?進化を続ける言語モデル研究の最新動向

急速に研究開発の進む大規模言語モデル分野ですが、「これまでの言語モデルの訓練方法は最適ではなかった」という研究結果が発表され、より少ない計算量で高い性能を上げる言語モデルが開発されています。本記事では、言語モデルのスケール則および指示チューニングなど、言語モデルの性能を最大限に発揮する訓練・チューニング法に関して、重要な論文をピックアップして最新の研究結果を解説します。

ビジョントランスフォーマーの視野を改善し精度向上!DiNAとToMeを解説
Free Post
コンピュータービジョン

ビジョントランスフォーマーの視野を改善し精度向上!DiNAとToMeを解説

コンピュータービジョンで高い性能を上げているビジョン・トランスフォーマー (ViT) ですが、計算量が多いという問題があります。そこで最近、ViT の「視野」の取り方を工夫することにより計算量を削減する手法がいくつか提案されました。また、トランスフォーマーの自己注意機構は本当に必要なのか、トランスフォーマー系モデルを「MetaFormer」として一般化して比較検討した最近の傾向についても少し触れます。

拡散モデルがここにも オーディオ・音楽生成の最新手法を解説
Free Post
音楽情報処理

拡散モデルがここにも オーディオ・音楽生成の最新手法を解説

拡散モデルを使った近年の画像生成 AI の成功を受け、その他の分野にも「拡散モデルの波」が押し寄せています。オーディオ・音楽の生成も例外ではなく、CLIP 的にオーディオとテキストの関連をとらえる「CLAP」や、拡散モデルによって高品質なオーディオ・音楽を生成するモデルなどが次々と発表されています。本記事では、最近発表されたオーディオ・音楽生成モデルの最新動向をまとめました。

拡散モデル・対照学習による高品質なテキスト生成・デコーディング手法の最前線
Free Post
自然言語処理

拡散モデル・対照学習による高品質なテキスト生成・デコーディング手法の最前線

画像生成における成功を受け、テキスト生成にも拡散モデルの応用が急速に進んでいます。従来の GPT のような単方向的な生成の問題点を解決するデコーディング手法も様々なものが開発・実装されています。本記事では、ごく最近発表された多くのテキスト生成・デコーディング手法とトレンドを解説しました。

ビジョン・自然言語における人工データからの事前学習手法の最前線
Free Post
コンピュータービジョン

ビジョン・自然言語における人工データからの事前学習手法の最前線

機械学習モデルの訓練には通常、大量のラベル付き教師データが必要になりますが、このようなデータを作るにはコストがかかり、また著作権やバイアスなどの問題もあります。そのため、実際のデータを使わず、人工データによって代替することにより、機械学習モデルの学習・事前学習を補助する「人工データからの事前学習手法」に関する研究が進んでいます。研究によっては、自然なデータセットを使った場合に匹敵する性能を上げる場合もあったということです。本記事では、ビジョン・自然言語処理における人工データからの事前学習手法をいくつかピックアップして紹介します。

ピクセルベースの NLP!「画像化テキスト」からの言語処理の最前線
Free Post
自然言語処理

ピクセルベースの NLP!「画像化テキスト」からの言語処理の最前線

最近になって、テキストを画像としてレンダリングしたものを入力として言語処理する「画像化テキスト」に関する研究が進んでいます。文字を「見た目」にしたがって処理するため、未知文字や未知語が原理的に出現せず、かつ、これまで見たことのない単語・文字・言語であっても、形から音や意味などを推測できるという利点があります。本記事では、この「画像化テキスト」を処理する手法を、最近発表されたものも含めて紹介します。

画像の次はビデオに進出!テキスト→動画生成の最新手法をまとめて解説
Free Post
コンピュータービジョン

画像の次はビデオに進出!テキスト→動画生成の最新手法をまとめて解説

最近何かと話題の「テキスト→画像生成 (text2image)」を発展させ、テキストからの動画生成を実現した「テキスト→動画生成 (text2video)」に関する論文が、Google や Meta から 9 月末から 10 月初頭にかけて立て続けに発表されました。本記事では、それら最新手法の違いに注目しながら、技術をまとめて解説します。

単語を箱で表現!新たな埋め込み手法 Box Embedding を基礎から理解
Free Post
自然言語処理

単語を箱で表現!新たな埋め込み手法 Box Embedding を基礎から理解

近年、単語をベクトル表現する埋め込み技術が広く用いられていますが、単語を「点」でしか表現できず、概念の広がりや階層関係を表現できないという問題がありました。そこで、データを「箱」などの領域によって表現する埋め込み手法が研究されています。本記事では、データを箱として表現し、ベクトルよりも強力な埋め込みを学習する「Box Embedding」について基礎から丁寧に解説します。

Stable Diffusion を基礎から理解したい人向け論文攻略ガイド【無料記事】
Free Post
コンピュータービジョン

Stable Diffusion を基礎から理解したい人向け論文攻略ガイド【無料記事】

登場してから何かと世間を賑わせている Stable Diffusion。技術的には、過去2年間ほどで研究開発が急速に進んだ「拡散モデル」の応用ですが、どの論文をどのような順番で読んだら良いか困ってしまう方も多いのではないでしょうか。本記事では、この Stable Diffusion の背景となる技術を基礎から理解したい方向けの、必読論文のリストとその概要を紹介します。

最強の S4 早くも破る!移動平均ベース最新深層モデル MEGA を解説
Free Post
機械学習

最強の S4 早くも破る!移動平均ベース最新深層モデル MEGA を解説

「最強の系列モデル」と話題になった S4 を早くも破るモデルが登場しています。移動平均とゲート機構をベースとした最新深層モデル「MEGA」、トランスフォーマーよりも高速・省メモリであり、長距離モデリング、言語モデル・機械翻訳、音声・画像分類などでことごとく従来モデルを抜いて最高性能を達成しています。本記事では、ゲート機構・GLU の基礎から始め、この MEGA の技術詳細を解説しました。

最強の音声認識現る  OpenAI の音声認識モデル Whisper を解説
Free Post
音声認識

最強の音声認識現る OpenAI の音声認識モデル Whisper を解説

先週、OpenAI から、オープンソースの音声認識モデル「Whisper」が発表されました。この Whisper、なんと 68 万時間もの訓練データで訓練された大規模な音声認識モデルで、英語で人間に匹敵する高い性能を上げたうえ、日本語を含む多言語の音声認識、音声翻訳、言語認識、音声区間検出なども可能です。これまでの AI コミュニティの反応を総合すると、総じて「これはすごい」というもので、今後の音声認識の研究・実用に大きな影響を与えるものと思われます。本記事では、この OpenAI の Whisper の論文を読み解き、そのデータ・モデルの詳細、今後予測されるインパクトなどを解説しました。

GPT-3 レベルが無料!オープンな大規模言語モデル開発の最新動向
Free Post
自然言語処理

GPT-3 レベルが無料!オープンな大規模言語モデル開発の最新動向

最近になって、オープンなライセンスで利用できる「GPT-3 レベル」の大規模言語モデルが次々と公開されています。これまでは、モデルが公開されなかったり、有料 API でしか利用できなかったりという場合が多かったのですが、今後、言語モデルの研究・利用の敷居がずっと下がりそうです。本記事では、最近の大規模言語モデル開発の動向をまとめました。

実務に役立つ!不均衡データ・ロングテール分布の対策を徹底解説
Free Post
機械学習

実務に役立つ!不均衡データ・ロングテール分布の対策を徹底解説

現実世界のデータでは、カテゴリ間のデータ数に偏りのある「不均衡データ」や「ロングテール分布」が頻繁に出現します。このようなデータに対して対策せずに学習すると、希少カテゴリに対して精度が低下したり、モデルが自信過剰になったりする問題が発生します。本記事では、分類や物体検知のデータセットにおいて、カテゴリごとのデータ数に偏りがあるロングテール (long tailed) 分布をもつデータセットの問題とその対応策を、最新の論文から代表的な手法を選び解説します。

生産性に直結!効果的なハイパーパラメータ最適化の10のアドバイス
Free Post
機械学習

生産性に直結!効果的なハイパーパラメータ最適化の10のアドバイス

機械学習に携わる方であれば、「ハイパーパラメータ最適化」がいかに性能に影響し、いかに多くの時間がかかるか、身をもって体験されている方も多いのではないでしょうか。人手によってチューニングされる場合も多く、「職人芸」ともされるパラメータ最適化ですが、徐々に、最適な最適化手法や、ベスト・プラクティスに関する知見が共有されています。本記事では、機械学習開発で避けて通れない「ハイパーパラメータ最適化」を効果的に行うためのアドバイスを、論文・関連文献などからまとめました。

You've successfully subscribed to ステート・オブ・AI ガイド
Great! Next, complete checkout for full access to ステート・オブ・AI ガイド
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.
Success! Your billing info is updated.
Billing info update failed.