萩原正人 - ステート・オブ・AI ガイド (Page 7)

少量データから高精度モデルを学習「学び方を学ぶ」メタ学習の最前線

近年の機械学習モデルは、学習に大量の訓練データを必要とします。そこで、ごく少数のサンプルを使って対象のタスクに対するモデルを素早くかつ効果的に学習させる手法である「メタ学習 (meta-learning)」が 2016年ごろから活発に研究されています。本記事では、「学び方を学ぶ」メタ学習の主要な手法をおさらいし、比較的最近の手法も含めて解説してみたいと思います。

Free Post

音声認識

ついにラベル無しで音声認識を実現した Facebook の wav2vec-U を解説【論文速報】

最近、「教師なしで音声認識を実現した」というモデル wav2vec-U (wav2vec Unsupervised) が発表されました。数年前の教師ありモデルに匹敵した性能を上げており、音声認識、表現学習、GAN、自己学習など、近年の深層学習技術の集大成とも呼べる成果だと思いますので、本記事では速報として紹介したいと思います。

Free Post

コンピュータービジョン

多層パーセプトロン (MLP) 時代の到来と、トランスフォーマーの終焉

Google Brain から先週発表された多層パーセプトロン (MLP) にゲート機構を組み合わせた「gMLP」が、業界に衝撃を与えています。画像認識と BERT 的言語モデルにおいてトランスフォーマーに匹敵する性能を叩き出したからです。この記事では、この「gMLP」の解説を中心として、関連する MLP 系の手法に少し触れ、「今後トランスフォーマーはどうなるのか」について考察してみたいと思います。

Free Post

自然言語処理

自然言語のためのデータ拡張手法まとめ【2021年最新版】

自然言語テキストに対しては、画像のように、簡単にデータ拡張ができません。そこで、これまで、自然言語のテキストに様々な操作を適用し、訓練データを人工的に増やす「自然言語のためのデータ拡張」に関する様々な手法が研究されてきました。本記事では、2021年最新の研究も含め、自然言語に対するデータ拡張手法をまとめてみたいと思います。

CNNも注意機構もなし全結合層だけで画像分類するMLP-Mixerの衝撃【論文速報】

Free Post

コンピュータービジョン

CNNも注意機構もなし全結合層だけで画像分類するMLP-Mixerの衝撃【論文速報】

畳み込み層やトランスフォーマーのような自己注意機構も使わず、多層パーセプトロンだけで高精度な画像分類を実現する「MLP-Mixer」。先週 Google Research から発表されたこちらの論文、業界内でちょっとした衝撃が走りました。本記事では、簡単な例も交えながら、要点を解説してみたいと思います。

最強のトランスフォーマー現る？トップ会議 ICLR 2021 から見る深層学習の最先端

Free Post

機械学習

最強のトランスフォーマー現る？トップ会議 ICLR 2021 から見る深層学習の最先端

深層学習のトップ会議として名高い会議 ICLR 2021 が先週オンラインで開催され、重要なモデル・手法が数多く発表されました。今回はその中でも「最強のトランスフォーマーモデルを探す」というテーマで、関連する論文を掘り下げてみたいと思います。

深層学習モデルの訓練を爆速化・スケール化するライブラリ DeepSpeed がすごい

Free Post

機械学習

深層学習モデルの訓練を爆速化・スケール化するライブラリ DeepSpeed がすごい

深層学習の訓練をスケール化・爆速にするライブラリ DeepSpeed。昨年あたりから徐々にその名前を聞くようになりましたが、日本語ではほとんど情報がありません。本記事では、DeepSpeed と、その核となる最適化手法 ZeRO に注目し、その手法と使い方をチュートリアルとして解説します。

画像化したテキストから直接翻訳する全く新しいニューラル機械翻訳モデルが登場【論文速報】

Free Post

自然言語処理

画像化したテキストから直接翻訳する全く新しいニューラル機械翻訳モデルが登場【論文速報】

以前、分かち書きに頼ることなく「文字」から高品質な事前学習を実現する CANINE という手法を紹介したばかりですが、今度は、トークンどころか「文字」という概念も使わない新しい形の機械翻訳モデルが登場しました。ジョンズ・ホプキンズ大学の研究者によって提案された、テキストを画像化してここから直接翻訳するこのモデル、「自然言語処理」と「画像処理」の境界を曖昧にしてしまう非常に興味深いものですので、論文速報として紹介したいと思います。

Free Post

コンピュータービジョン

GPT がついにビデオにも進出　深層学習を使ったビデオ生成・認識研究の最先端

コンテンツ生成、予測 (自動運転、気象予報)、強化学習など、現実世界において様々な応用のあるビデオ生成・認識。トランスフォーマーや GPT が他ドメインで成功を収める中、ビデオ分野にもこの「トランスフォーマーの波」が押し寄せています。この記事では、このビデオ生成・認識分野における最近の研究動向をまとめてみたいと思います。

Free Post

自然言語処理

BERTとトランスフォーマーはこう使え　「効果的な訓練・微調整のコツ」総まとめ

BERTやトランスフォーマーを使った自然言語処理が普及していますが、これらのモデルを効果的に訓練・微調整をするためには未だに「職人芸」的なテクニックが必要となります。「これを知っているだけで BERT とトランスフォーマーの訓練・微調整が劇的に安定・改善する」という手法を比較・検討した論文が最近になっていくつか出てきましたので、まとめて解説したいと思います。

全く新しい生成モデル　勾配ベクトル場とスコアマッチングによる画像・音声生成を解説

Free Post

機械学習

全く新しい生成モデル　勾配ベクトル場とスコアマッチングによる画像・音声生成を解説

データの密度勾配をモデル化しそこからサンプルを生成する「スコアベース手法」。理論的にも興味深く、高品質の画像や音声を生成できることもあり、機械学習業界で盛り上がりを見せていますが、日本語での情報がほとんど無いのがネックになっています。この記事では、スコアベースの生成モデルの基礎と、画像と音声に応用した比較的新しい論文をまとめて解説します。

Free Post

自然言語処理

機械翻訳のパラダイムが変わる！？非自己回帰的なテキスト生成・機械翻訳の最前線

単語を並列かつ高速に生成することのできる「非自己回帰的」なテキスト生成・機械翻訳手法が、2018年ごろから盛んに研究されています。最近になって、従来の自己回帰的なモデルに比べて大幅に高速でありながら、翻訳精度で匹敵するような手法も出現し始めました。本記事では、ごく最近の研究成果も含めた、「非自己回帰的 (non-autoregressive)」なテキスト生成・機械翻訳の研究トレンドを紹介します。

Free Post

機械学習

シンプルかつ効果的！深層学習で復活した「自己学習」の最新研究トレンド

モデル自身を使ってラベル無しデータに「疑似正解」を付与、そこから新たなモデルを学習する「自己学習」 (self-training)。近年の深層学習技術の発展に伴って、その有効性を示す研究が画像・言語・音声の全分野で数多く発表されています。本記事では、その「自己学習」の最新の研究トレンドをいくつか紹介したいと思います。

Free Post

コンピュータービジョン

GANを超えた！？画像・音声の「可変レート」表現学習手法が未来すぎる

意味の密度に応じて、潜在表現の情報量を変化させる「可変レート離散表現」に関する論文が、最近 DeepMind によって立て続けに発表されました。非常に実用的かつ学術的にも興味深い研究だと思いますので、以下で、画像・音声に対する可変レートの潜在表現学習手法をそれぞれ紹介します。

トランスフォーマーが汎用計算エンジンになる？凍結事前学習トランスフォーマーの驚異的な汎化能力

Free Post

機械学習

トランスフォーマーが汎用計算エンジンになる？凍結事前学習トランスフォーマーの驚異的な汎化能力

言語・ビジョン・音声など、様々な分野で大きな成果を上げているトランスフォーマー。言語のみで事前学習されたトランスフォーマーのごく一部を微調整するだけで、画像認識などで驚異的な汎化能力を示すことが分かってきました。本記事では、近年のトランスフォーマーの転移学習・マルチタスク学習に関する論文をいくつか紹介しながら、トレンドを追ってみたいと思います。