ステート・オブ・AI ガイド (Page 5)

正解付きデータセットを自動生成する DatasetGAN は「使える」か

高性能な機械学習モデルを訓練するためには、大規模なデータセットが必要となります。近年では、高品質の画像生成用 GAN を使い、訓練用データセットをアノテーションと共に生成する手法が発表されています。DatasetGAN に代表されるこれらのモデルは実際に「使える」のでしょうか。本記事では、これらの手法を、基礎となるモデルや関連研究も交えながら解説します。

1,000層超えも！超深層トランスフォーマーを実現した DeepNet を解説【論文速報】

Free Post

機械学習

1,000層超えも！超深層トランスフォーマーを実現した DeepNet を解説【論文速報】

トランスフォーマーは非常に強力なモデルですが、レイヤーの数を増やしていくと訓練が不安定になることが知られています。最近、トランスフォーマーの訓練を安定させ、1,000層にも及ぶ「超深層トランスフォーマー」を訓練できる DeepNet が Microsoft Research から提案され、機械翻訳において目覚ましい成果を上げ話題になっています。本記事では、DeepNet とその正規化手法である DeepNorm を、論文速報として解説します。

長い系列を高精度に処理！話題のモデル Perceiver AR と HiP を解説

Free Post

機械学習

長い系列を高精度に処理！話題のモデル Perceiver AR と HiP を解説

トップ研究者が「最近のモデルで最もエキサイティングなもの」と紹介するなど話題のモデル Perceiver をさらに改善した後続バージョンであるモデルが最近、相次いで発表されています。自己回帰的な認識・生成や、階層的・効率的なモデル化を可能としたこれらの手法、非常に興味深い発展ですので、本記事では元祖 Perceiver から始め、これらのモデルを解説します。

進化を続ける大規模言語モデルの最前線 (LaMDA, GPT-NeoX-20B, XGLM)

Free Post

自然言語処理

進化を続ける大規模言語モデルの最前線 (LaMDA, GPT-NeoX-20B, XGLM)

前回、本ブログにおいて超巨大言語モデルについて取り上げてから数ヶ月しか経っていませんが、大規模言語モデル分野では興味深い研究・モデルが次々と発表されています。特に、GPT-NeoX-20B など、訓練データ・コード・モデルなど、すべてオープンソースで利用できる言語モデルがいくつか発表されています。本記事では、最近のこれらの大規模言語モデルの傾向を紹介します。

Free Post

コンピュータービジョン

生成品質で DALL·E を超えた！？　拡散モデルによる画像生成の最新動向

テキストから高品質な画像を生成する OpenAI のモデル DALL·E が世間を賑わせて１年ほど経ちます。その間に、データに対するノイズを除去して高品質な画像・テキストを生成する「拡散モデル」も急速に発展し、さらに高品質な画像生成も可能になりました。本記事ではまず、拡散モデルの基礎を簡単におさらいした後、ごく最近発表された拡散モデルに関する論文を３本紹介して解説します。

Free Post

音楽情報処理

微分可能なデジタル信号処理 (DDSP) とオーディオ生成の最新動向

シンセサイザーなどのドメイン知識に基づきながらも、パラメータ等を微分可能にすることにより、生成品質と手軽さ、解釈性のバランスの取れた「微分可能なデジタル信号処理 (DDSP)」による音声・オーディオ生成およびその関連手法の利用が広まっています。本記事では、DDSP の基本からスタートし、最新の論文まで含め、関連する文献をまとめました。

Free Post

機械学習

「とりあえずAdam」で本当に大丈夫？深層学習の最適化手法はこう選べ

深層学習モデルの訓練に欠かせない最適化手法（オプティマイザー）。多数の選択肢の中から適切な最適化手法をどう選ぶかについては、同僚やネット上から共有される経験則に頼っているのが現状です。本論文ではこの「最適化手法の選び方」を、体系的な実験に基づく証拠を元に調査し直し、有用なアドバイスを提供していますので、まとめて紹介したいと思います。

Free Post

機械学習

音声・画像・言語、何でもベクトル化する最新モデル data2vec を解説

Meta AI から、また非常に興味深いモデルが発表されました。音声・画像・言語を同じ仕組みで何でもベクトル化する自己教師あり学習手法 data2vec、そのシンプルさにも関わらず様々なタスクで SOTA を達成しています。本記事では、基礎となる自己教師あり学習、具体的には、マスク予測と自己蒸留手法から始め、data2vec を丁寧に解説しました。

Free Post

自然言語処理

NLP における分かち書き最適化・分かち書きフリー手法の総まとめ

自然言語処理分野では、最近、入力を文字・バイト・ピクセル単位でそのまま処理する「分かち書きフリー」の手法が多数出現しています。また、トークン単位に分割する分かち書きを対象タスクと合わせて最適化する手法に関する研究も進んでいます。本記事では、これら「分かち書きフリー」「分かち書き最適化」の手法に注目し、最近の動向を解説しました。

穴埋め言語モデルを「内閣■■大臣」のような簡単な練習問題で甘やかさないコツ【じっくり1本】

Free Post

自然言語処理

穴埋め言語モデルを「内閣■■大臣」のような簡単な練習問題で甘やかさないコツ【じっくり1本】

マスク言語モデルは、黒塗りしたテキストを復元するという練習問題を何億問も解くことで汎用のテキストエンコーダに成長します。ところが練習問題の中には文全体を見なくても解けてしまう簡単なものがたくさん含まれています。今回紹介する ICLR 2021 の論文では、これらの簡単すぎる問題を難しい問題に差し替えると言語モデルの品質が向上する… という面白い話が示されています。前提知識の説明からじっくり1本ご紹介します。

Free Post

音声認識

音声にも「基盤モデル」の波が　音声処理のための大規模モデル最前線

BERT や CLIP など、大規模なデータによって自己教師あり学習によって訓練され、様々なタスクに微調整して適用できる「基盤モデル」の波が音声認識などの音声処理の分野にも押し寄せています。本記事では、この「音声 × 基盤モデル」の最新論文について解説しました。また、最近、人気が上昇しているオーディオ処理用ライブラリ「torchaudio」の論文も出版されましたので、そちらについても解説しました。

Free Post

機械学習

今年から本気出す AI分野で良い研究コードを書くためのアドバイス集

「良い研究コードを書くためのハンドブック」と題された書籍が最近発表されました。プロジェクト構成、スタイルガイド、実験管理、オープンソースとしての公開まで、AI 分野で良い研究コードを書くためのアドバイスが満載です。本記事では、ガイドブックの内容と、関連する他の資料のアドバイスを項目ごとにまとめ、抄訳として紹介しました。

Free Post

機械学習

年末年始に振り返る 2021年の人工知能10大トレンドと必読論文

2021年も、人工知能業界では様々な動きがありました。本記事では、最新の深層学習の論文を何百本と読み解いて分かった「2021年の最重要トレンド」を詳細な参考文献と共に紹介します。

CV にもマスク型言語モデルの波が！？事前学習手法 MAE・SimMIM を解説

Free Post

コンピュータービジョン

CV にもマスク型言語モデルの波が！？事前学習手法 MAE・SimMIM を解説

BERT に代表されるマスク言語モデルは、自然言語処理において事前学習に広く使われていますが、コンピューター・ビジョン (CV) 分野においても同じような仕組みを使って事前学習するモデルの利用が始まっています。本記事では、最近発表されたマスク型言語モデルのような枠組みで自己教師あり学習する手法を紹介します。

Free Post

機械学習

モデルのパッチ、マージもオープンソース的な未来の機械学習開発

T5 などの著名な貢献のある Colin Raffel 氏による、「オープンソース・ソフトウェア (OSS) 的にモデルを開発する提言」と題されたブログ記事。OSS 的に、モデルにパッチを当てたり、マージしたりといった手法を駆使し、共同でモデルが開発できるような仕組みを提案し、話題になっています。本記事では、その提言の概要と、同時に発表されたいくつかの関連研究をまとめて解説します。