2021年も、人工知能業界では様々な動きがありました。本記事では、最新の深層学習の論文を何百本と読み解いて分かった「2021年の最重要トレンド」を詳細な参考文献と共に紹介します。人工知能の分野は、進歩が早くてキャッチアップが大変ですが、本記事を読めば、大まかなトレンドと重要研究をおさえられるように書きました。なお、厳密には 2021年に発表されたものではなくても、トレンドを理解する上で重要な論文は全て含めるようにしています。

ステート・オブ・AI ガイドでは、人工知能・機械学習分野の最新動向についての高品質な記事を毎月5〜6本配信しています。購読などの詳細につきましては、こちらをご覧ください。また、Twitter アカウントの方でも情報を発信しています。

Image by Alan Warburton / © BBC / Better Images of AI / Nature / CC-BY 4.0

テキストと画像の類似関係をとらえる CLIP

いきなり具体的な手法・モデルですが、AI 業界において今年、最も重要なマイルストーンは、間違いなくこの CLIP (Radford et al., 2021) でしょう。

2021年年初に OpenAI から発表されたこの CLIP、テキストから高画質な画像を生成できるモデル 「DALL·E (ダリー)」の陰に隠れて地味な存在でしたが、本ブログでは発表当初から「学術上・実用上非常に重要なマイルストーン」であると述べてきましたが、予想通り、その後も CLIP の利用が急速に広まっています。Kevin Zakka 氏のブログ記事では、「CLIP の分野への影響力を考えると、DALL·E と同時に発表されたことは逆に不幸である」「従来の固定クラスセットは死んだ」とまで述べています。また、「OpenAI の CLIP は、今年のコンピューター・ビジョンにおいて最も重要な発展である」と主張するブログ記事もあります。

CLIP の仕組みは、非常に単純です。ウェブから豊富に取得できる大量の画像と、それらに結び付けられたテキストを使って、画像とテキストの対応モデルを事前学習します。テキストと画像の内容が一致していれば高い類似度を、そうでなければ低い類似度を返す、それだけのモデルです。

それがなぜここまで有用なのでしょうか。まず、画像→テキストの方向性を考えると、画像を入力し、その画像に最も当てはまるテキストをいくつかの選択肢から選ぶことによって、画像分類が可能になります。従来の画像分類は、決められたクラスから一つの正解を選ぶ多クラス分類の枠組みで解くことが一般的でしたが、CLIP を使うと、範囲の決まっていない自然言語テキストを使って画像を分類できます。これは、対象のタスクのデータを使って CLIP を微調整 (fine-tune) することなく可能なので、「ゼロショット学習」が達成できることになります。

また、その逆の、テキスト→画像の方向性を考えると、あるテキストを入力し、そのテキストとの類似度が大きくなるように画像を最適化すると、自然言語から画像が生成できることになります。正確には、VQGAN (Esser et al., 2020) など、あらかじめ大量の画像によって事前学習された画像生成モデルと組み合わせ、その潜在表現を最適化することによって画像を生成します。この VQGAN+CLIP の組み合わせは、手軽に高品質な画像が生成できるため、今年の中頃にネット上で大きな話題となりました。最近では、強力な拡散モデル (diffusion model, 詳細は後述) と CLIP を組み合わせた「CLIP 誘導拡散モデル」も話題となっています。

このように、画像分類や画像生成以外にも、「汎用の画像理解エンジン」として、様々な利用が広がっています。前述した Kevin Zakka 氏のブログ記事では、ビジョンの分野で、reCAPTCHA を解く、物体検出、顕著性マップ (saliency map)の可視化、画像生成など、様々なタスクへの応用が実際の例と共に紹介されています。また、How Much Can CLIP Benefit Vision-and-Language Tasks? と題された論文 (Shen et al., 2021) でも、CLIP をビジュアル QA、画像のキャプショニング、視覚言語ナビゲーション(環境に置かれたエージェントを言語により誘導するタスク)などのタスクに応用し、強いベースラインに匹敵または超える性能を叩き出しているということです。参照文無しで画像キャプション生成の性能評価を実現する CLIPScore (Hessel et al., 2021)や、NeRF によるシーン生成 (Jain et al., 2021)、身体性 AI (Khandelwal et al., 2021)、ロボティクス (Shridhar et al., 20201) などにも応用されています。

最近では、CLIP を拡張してオーディオ・画像・テキストの3つのモダリティの関係を学習する AudioCLIP (Guzhov et al., 2021) や Wav2CLIP (Wu et al., 2021)、CLIP の学習を効率化した CLIP-Lite (Shrivastava et al., 2021)、自己教師あり学習を組み合わせた SLIP (Mu et al., 2021) など、CLIP の拡張・改善手法も多数提案されています。

【論文速報】OpenAI の超高クオリティ画像生成モデル DALL·E の論文を解説
今年2021年1月に、OpenAI から発表された画像生成モデルである「DALL·E (ダリー)」。先日、その技術的詳細を解説した論文が発表されたのにあわせ、本記事では、CLIP などの関連研究などを紹介し、その技術・モデル等の詳細について速報的に解説してみたいと思います。
ネットを席巻する謎の高画質テキスト→画像生成モデル VQGAN+CLIP を完全解説
今年の1月に、テキストから高品質の画像を生成できるモデルである DALL·E (ダリー) と共に発表された CLIP。その際は本ブログでも取り上げ、「学術上・実用上非常に重要なマイルストーンだ」という旨を書きましたが、予想通り、コンピューター・ビジョンの分野の様々なタスクにおいて、CLIP の利用が急速に広がっています。この記事では、ここ最近ネットを席巻する謎の高画質テキスト→画像生成モデル VQGAN+CLIP を解説しました。

自己教師あり学習・対照学習

自己教師あり学習 (self-supervised learning) は、データ自身から疑似的な教師信号を作成して機械学習モデルを学習する手法であり、BERT (Devlin et al., 2018)で有名な「マスク言語モデル (masked language model)」など、様々な事前学習手法で幅広く用いられています。自己教師あり学習の中でも、対照学習 (contrastive learning) は、データに対する教師信号の代わりに、データ間の「類似・非類似」関係を使って自己教師あり学習をする手法の総称です (上図)。そのシンプルさと学習された表現の品質の両方から、ここ数年の間に、様々な人工知能タスクで利用が広がっています。

対照学習は、何も今年に入って提案された新しい手法ではありません。伝統的には、自然言語処理分野でポピュラーな Word2Vec (Mikolov et al. 2013) や QuickThorught (Logeswaran and Lee, 2018) などにおいて同様の手法が使われています。

最近では、自然言語処理でも、置換された単語を検出して事前学習する ELECTRA (Clark et al., 2020)、データ拡張と対照学習により高品質な文表現を獲得する CLEAR (Wu et al., 2020)、文書からサンプルしたテキスト断片を使って高品質な文埋め込みを求める DeCLUTR (Giorgi et al., 2020)、エンコーダーに2回入力するだけのシンプルかつ効果的な文埋め込み手法 SimCSE (Gao et al., 2021) など、対照学習に基づく表現学習手法が多数提案されています。

コンピューター・ビジョンの分野では、伝統的に、ImageNet など大量にラベル付けされた画像から「教師あり」で事前学習する手法が一般的でした。しかし、ここ2〜3年の間に、自己教師あり学習および対照学習手法がかなり普及しました。最も代表的なのは、単一の画像に異なるデータ拡張を施して表現学習する SimCLR (Chen et al., 2020, 上図) と SimCLRv2 (Chen et al., 2020) でしょう。他にも、モーメンタム・エンコーダーを使って対照学習する MoCo (He et al., 2019)、自分で潜在表現をゼロから作り上げる自己学習手法 BYOL (Grill et al., 2020)、ラベル無しで知識蒸留して自己教師学習する DINO (Caron et al., 2021)、単純なシャムネットワークに基づく SimSiam (Chen and He, 2020) など、多くの手法が提案されています。

上で紹介した CLIP (Radford et al., 2021) も、画像とテキストという対象の違いはありますが、対照学習を使って訓練されています。

最近では、マスク言語モデル的な考えをコンピューター・ビジョンに使った自己教師あり学習手法である MAE (He et al., 2021) や SimMIM (Xie et al., 2021) なども話題となりました。

人気急上昇中!自然言語処理における対照学習の最前線
データの類似・非類似関係を使って自己学習する手法である対照学習。画像認識などの分野において近年急速に応用が進んでいますが、自然言語処理における応用も、ここ1〜2年で活発に研究されています。本記事では、ごく最近提案された主な対照学習+自然言語処理の手法を取り上げて解説します。
シンプルかつ効果的!深層学習で復活した「自己学習」の最新研究トレンド
モデル自身を使ってラベル無しデータに「疑似正解」を付与、そこから新たなモデルを学習する「自己学習」 (self-training)。近年の深層学習技術の発展に伴って、その有効性を示す研究が画像・言語・音声の全分野で数多く発表されています。本記事では、その「自己学習」の最新の研究トレンドをいくつか紹介したいと思います。
教師あり学習に追いついた ビジョンにおける自己教師学習・表現学習の最前線
教師ラベルを使わずに人為的なタスクによって表現を学習する「自己教師学習」。自然言語処理の BERT や GPT のようなモデルでは既に一般的ですが、コンピューター・ビジョンの分野においても、従来の教師あり事前学習手法に匹敵する性能を上げはじめており、トレンドの変化を感じます。この記事では、ビジョンにおける自己教師学習・表現学習の最前線を解説しました。
CV にもマスク型言語モデルの波が!?事前学習手法 MAE・SimMIM を解説
BERT に代表されるマスク言語モデルは、自然言語処理において事前学習に広く使われていますが、コンピューター・ビジョン (CV) 分野においても同じような仕組みを使って事前学習するモデルの利用が始まっています。本記事では、最近発表されたマスク型言語モデルのような枠組みで自己教師あり学習する手法を紹介します。

多層パーセプトロン (MLP)

2021年は、多層パーセプトロン (multilayer perceptron; MLP) が盛り上がった年でもありました。線形層と活性化関数のみを使う「元祖ニューラルネットワーク」とも言える単純なモデルでありながら、アーキテクチャに工夫を凝らし、近代的な方法によって訓練すると、驚くべき強力な性能を発揮することが示されたのです。

画像分類において、畳み込みニューラルネットワーク (CNN) やトランスフォーマーなどで広く用いられている注意機構などを全く用いずに、画像のパッチ化と、表現を「混ぜる」MLP を組み合わせるだけで、高い性能・速度のトレードオフを達成した MLP-Mixer (Tolstikhin et al., 2021.)、ゲート機構付き MLP を使いトランスフォーマー超えを達成した gMLP (Liu et al., 2021) を皮切りに、多数の MLP モデルが提案されています。Facebook (Meta) AI から発表された ResMLP (Touvron et al., 2021) や、RepMLP (Ding et al., 2021) などもありました。

「ついにトランスフォーマーを超えるモデルが出現するか」と盛り上がった割には、2021年12月現在においては、トランスフォーマーを置き換えて普及するまでには至っていません。最近発表された「新しいパラダイムシフトの準備はできているか」と題された MLP のサーベイ論文 (Liu et al., 2021) では、現在の訓練スケールでは、ある種の帰納バイアス (inductive bias)、すなわち、より良い解を学習しやすくするための構造上の工夫がまだまだ重要であり、かつ、MLP には入力解像度に依存してしまうという未解決の問題がある点を指摘しています。

CNNも注意機構もなし 全結合層だけで画像分類するMLP-Mixerの衝撃【論文速報】
畳み込み層やトランスフォーマーのような自己注意機構も使わず、多層パーセプトロンだけで高精度な画像分類を実現する「MLP-Mixer」。先週 Google Research から発表されたこちらの論文、業界内でちょっとした衝撃が走りました。本記事では、簡単な例も交えながら、要点を解説してみたいと思います。
多層パーセプトロン (MLP) 時代の到来と、トランスフォーマーの終焉
Google Brain から先週発表された多層パーセプトロン (MLP) にゲート機構を組み合わせた「gMLP」が、業界に衝撃を与えています。画像認識と BERT 的言語モデルにおいてトランスフォーマーに匹敵する性能を叩き出したからです。この記事では、この 「gMLP」の解説を中心として、関連する MLP 系の手法に少し触れ、「今後トランスフォーマーはどうなるのか」について考察してみたいと思います。

第3の深層学習ライブラリ JAX

PyTorch と TensorFlow の「二強」でしらばく落ち着くと思われた深層学習ライブラリ・フレームワークですが、去年あたりから「JAX」の名を徐々に聞くようになりました。

JAX は、Google Research によって開発された機械学習用ライブラリで、「GPU/TPU 上で動く自動微分付きの Numpy」と紹介されることが良くありますが、ライブラリのコアは Numpy 的なベクトル・行列演算と、それらに対する自動微分機能です。個人的には、Numpy や PyTorch/TensorFlow などとの最大の違いは、JAX が「(純粋)関数型指向」であり、自動微分や誤差逆伝播に関する考え方が根本的に異なっている点だと思っています。

「PyTorch vs TensorFlow in 2022」と題されたブログ記事Hacker News のコメント欄 や、「2022年。あなたは PyTorch 派?TensorFlow 派?」と題された Reddit のスレッド などを読むと、「多くの研究者が JAX に移行し始めている」「JAX を使っている」「JAX が TensorFlow を置き換える」といったコメントが数多く見られることから、コミュニティベースでも徐々に普及が進んでいる様子が読み取れます。

2021年現在でも、DeepMind から発表される多くの良質な研究が、実装で JAX と JAX ベースのニューラルネット・ライブラリ Haiku を使っています。また、JAX ベースの深層学習ライブラリ Flax は、ビジョン・トランスフォーマーの実装や、上で紹介した MLP-Mixer の公式実装 でも採用されています。最近では、Google から、JAX ベースのコンピューター・ビジョン用ライブラリである SCENIC (Dehghani et al., 2021) が発表され、画像・ビデオ・音声タスクをビジョン・トランスフォーマーで統一的に解く PolyVit (Likhosherstov et al., 2021) の実装などにも使われています。

自然言語処理 (NLP) の分野でも、NLP 用フレームワークとして人気の高い HuggingFace Transformers でも Flax が公式に採用されていたり、「現時点でオープンソースで利用できる最強の言語モデル」とも言える GPT-J が、JAX ベースのニューラルネット・ライブラリ Haiku と、JAX の並列化機構 xmap を使ったモデル並列化を使っていたりします。今年の6月に発表された Cloud TPU VM によって TPU が使いやすくなったのも普及を後押ししています。

機械学習ライブラリは、ネットワーク効果によって、ある臨界点を超えると瞬く間に普及する傾向があります。「2022年は JAX の年」になるか、今後の発展が楽しみです。

「第3の深層学習ライブラリ」JAX/Flax と TPU を使ったモダンな機械学習
TensorFlow、PyTorch に次ぐ「第3の深層学習ライブラリ」として、徐々に注目され始めている JAX と Flax。研究コードやライブラリでの採用も広がっています。本記事では、JAX / Flax に今から入門したい方のためのモダンな機械学習チュートリアルを解説しました。
無料で使える最強の言語モデル GPT-3 のオープン版 GPT-J とその使い方
「現時点で使える最強のオープンソース言語モデル」と言っても過言ではない GPT-3 のオープン版「GPT-J」が先日リリースされました。無料でこの性能、OpenAI API に課金するかどうかも考え直すレベルです。本記事では、関連モデル・技術に加え、GPT-J とその使い方を紹介しました。

拡散モデル

データに徐々にノイズを加え、その過程の逆を学習することにより画像や言語を生成する「拡散確率モデル」もしくは単に「拡散モデル (diffusion model)」。「画像生成で GAN を超えた」「尤度ベースで SOTA」「言語生成にも適用可」などの非常に画期的な手法・論文が次々と発表されて盛り上がっており、2021年の大きなトレンドの一つと言えるでしょう。

拡散モデルの基礎的研究が盛り上がったのは 2019年〜2020年にかけてでした。「どちらに行けばデータが密か」を示すベクトル場であるスコアを用いた「スコアマッチング」に基づく生成モデル (Song and Ermon, 2020) と、拡散確率モデルを用いた高品質な画像生成手法 (Ho et al., 2020) を皮切りに、画像生成を中心に拡散モデルの応用研究が盛り上がりました。

一方、自己回帰モデルなど他の尤度ベースの手法と比べて良い尤度を達成できないという問題がありました。2021年には、この問題に対して、OpenAI から拡散モデルの尤度を改善する論文 (Nichol and Dhariwal, 2021) と、「画像生成において、拡散モデルが GAN を超えた」と題された同著者らの論文 (Dhariwal and Nichol, 2021) が出版され、話題になりました。

また、テキスト生成・離散データに拡散モデルを適用した D3PM (Austin et al., 2021) や、音声生成に応用した DiffWave (Kong et al., 2020) や WaveGrad (Chen et al., 2020) など、他のモダリティへの応用も進んでいます。

最後に、最近では、上述の VQGAN+CLIP を使った画像生成と同様に、拡散モデルをテキストからの画像生成に応用した「CLIP 誘導拡散モデル (clip guided diffusion)」も出現しています。

全く新しい生成モデル 勾配ベクトル場とスコアマッチングによる画像・音声生成を解説
データの密度勾配をモデル化しそこからサンプルを生成する「スコアベース手法」。理論的にも興味深く、高品質の画像や音声を生成できることもあり、機械学習業界で盛り上がりを見せていますが、日本語での情報がほとんど無いのがネックになっています。この記事では、スコアベースの生成モデルの基礎と、画像と音声に応用した比較的新しい論文をまとめて解説します。
GANを超え、言語にも進出 拡散モデルによる画像言語生成の進歩がすごい
データに徐々にノイズを加え、その過程の逆を学習することにより画像や言語を生成する「拡散確率モデル」。ここ数ヶ月の間に、「画像生成で GAN を超えた」「尤度ベースで SOTA」「言語生成にも適用可」などの非常に画期的な手法・論文が次々と発表され、盛り上がりを見せています。本記事では最近発表された論文等も含め、最新動向を解説します。

データ・セントリックな AI

モデル中心だったこれまでの AI 開発の考えに疑問を呈し、データを中心に据える「データ・セントリックな AI」が新たにトレンドとなっています。

伝統的にも、データを中心に据える「データ・プログラミング」の手法 (Ratner et al., 2016, Ratner et al., 2017) があり、その技術を元に生まれたスタートアップ Snorkel.ai は、評価額 $1B (1千億円以上) を達成しユニコーンの仲間入りを果たしています。

「データ・セントリックな AI」の今年の立役者は、何と言っても DeepLearning.ai / Landing.ai をリードする Andrew Ng 氏でしょう。今年の3月に公開された A Chat with Andrew on MLOps: From Model-centric to Data-centric AI というトーク・セミナーにおいて、「データ・セントリックな AI」を明確なコンセプトとして提唱し、急速にその考えが広まっています。

本セミナーで、Ng 氏は、主導したあるプロジェクトを紹介しています。コンピューター・ビジョンを使って製品の欠陥を検出するシステムを開発していました。2週間の開発期間の後、データを固定してモデルを改善した場合には精度向上が得られなかった一方で、モデルを固定してデータを改善した場合、16.9% の性能向上が得られたということです。

また、Landing.ai / DeepLearning.ai 主催で、データ・セントリックな AI コンペ も開かれました。標準データセットをダウンロードし、モデル側を改善する Kaggle 等における通常のコンペの全く逆、すなわち、「モデルを固定し、データの側を改善することにより結果を向上させる」タイプのユニークなコンペです。今年の後半には、国際会議 NeurIPS 2021 に併設してデータ・セントリック AI ワークショップも開かれました。「標準ベンチマークのテストデータも間違いだらけ」であることを示した論文 (Northcutt et al., 2021) も話題となりました。

「AI にとって、データが大切」というのは、今さら言うまでもないかもしれません。実世界の問題に AI を応用する際には、「データの改善」と「モデルの改善」を天秤にかけ、データの改善の費用対効果が高いことは、多くの方が実感していることでしょう。しかし、今年に入って、これを「データ・セントリックな AI」という明確なコンセプトを打ち出すことによって、その考えを普及させた功績は大きいと思います。

AI開発の常識を覆す 新トレンド「データ・セントリックな AI」とは
モデル中心だったこれまでのAI開発の考えに疑問を呈し、データを中心に据える「データ・セントリックな AI」が新たにトレンドとなっています。少ない開発コストで高精度なシステムを訓練できたりと、現実世界にAIを活用する際に重要になるヒントも多く、要チェックです。本記事では、このデータ・セントリック AI の基本的な考えや、関連するシステム・論文などを紹介します。

音声の教師無し表現学習

2021年は、音声(スピーチ、オーディオ、音楽)に対する教師無し表現学習が大きく躍進した年でもありました。

2020年から、wav2vec 2.0 (Baevski et al., 2020) をはじめとし、音声の自己教師あり学習がさかんに研究され、様々なタスクに応用されてきました。テキストや画像などと同様に、アノテーションの無い大量のデータを集め、そこから事前学習することによって、音声認識など様々なタスクの性能が示されたのです。その勢いは、2021年になっても衰えるところを知りません。クラスタリングに基づくシンプルな離散コードから高品質な音声表現を事前学習する HuBERT (Hsu et al., 2021) をはじめとし、音声パッチをマスクすることによって事前学習する SSAST (Gong et al., 2021)、スピーチ・環境音・音楽の全てに汎用的な音声表現を学習する手法 (Wang et al., 2021) などが提案されています。

音声の表現学習手法が強力になっていくのに伴って、それらの手法に基づいた教師無しの音声タスクも様々なブレイクスルーがありました。

今年の中頃には、ラベル無しで音声認識を実現した Facebook の wav2vec-U (Baevski et al., 2021) が発表され、注目を浴びました。ここでも、wav2vec 2.0 によって学習された強力な音声表現が元となっています。また、スピーチの処理において、テキストに全く頼らない「テキストレスな NLP」に関する手法も今年になって急速に発展しました。音声入力のみから言語生成する GSLM (Lakhotia et al., 2021)、離散潜在コードを使って音声から音声に直接翻訳する手法 (Lee at al., 2021a, Lee et al., 2021b) などが代表的な手法です。世界には書き言葉を持たない言語が多数存在しており、それらの処理に対する応用が期待できます。

これらの音声に対する教師無し表現学習手法のほとんどが、Facebook/Meta AI から発表されており、他の研究機関等と比べて頭一つ抜けている印象があります。

ついにラベル無しで音声認識を実現した Facebook の wav2vec-U を解説【論文速報】
最近、「教師なしで音声認識を実現した」というモデル wav2vec-U (wav2vec Unsupervised) が発表されました。数年前の教師ありモデルに匹敵した性能を上げており、音声認識、表現学習、GAN、自己学習など、近年の深層学習技術の集大成とも呼べる成果だと思いますので、本記事では速報として紹介したいと思います。
テキストを使わないNLP!?音声から直接言語を生成・翻訳する最新モデル動向
音声に対する自己教師学習技術の発展により、「テキストを使わない NLP」、すなわち、音声から直接言語を生成・翻訳できる機械学習手法が最近になってさかんに研究されています。本記事では、この「音声に対する自己教師学習」「テキストを使わない言語生成・翻訳」に関するここ数ヶ月の研究動向を紹介します。
音声にもパッチ化・MLP・CLIPの波が 音声に対する深層学習の最先端
本記事では、オーディオ・音声に対する深層学習モデルのうち、比較的最近発表された論文を中心にトレンドを追ってみます。特に、オーディオを対象にビジョン・トランスフォーマーの仕組みを適用した AST は、仕組みも簡単で性能も良く、音声ドメインにおいて今後も注目です。

巨大言語モデル、指示チューニング

2020年に業界に衝撃を与えた GPT-3 が発表されてしばらく経ちますが、その後も巨大言語モデルの研究開発は着実に進められています。

今年に入って、大規模なデータセットやモデルを開発する草の根的な AI 研究者・開発者コミュニティである EleutherAI (イルーサー AI) が、「現時点で使える最強のオープンソース言語モデル」と言って間違いない言語モデル GPT-J-6B (60億パラメーター) をリリースしました。GPT-J-6B は、上述したように、JAX/Haiku を使って実装されています。また、AI21 Labs (イスラエルの自然言語処理スタートアップ) から超巨大言語モデル、Jurassic-1 (Lieber et al., 2021) もリリースされました。GPT-3 とほとんど同規模 (パラメータ数 178B) の言語モデルでありながら、様々な工夫が施されています。さらに、12月には、280B パラメータの最新大規模言語モデル Gopher (Rae et al., 2021) が DeepMind からリリースされ、様々な自然言語理解タスクにおいて、GPT-3 の性能を上回ることが示されました。

2021年現在、GPT-3 はもはや「最新の大規模言語モデル」ではなく、新しいモデルや様々な改善手法を比較する対象である「ベースライン」として用いられているのです。

また、上記の研究のように、単にサイズを大きくしたり細かな工夫を加えるだけでなく、大規模言語モデルをどのように上手く使って対象となるタスクを上手く解くか、という工夫に関する研究開発も進んでいます。「指示」を使って大規模言語モデルをチューニングし、ゼロショット汎化能力を高める FLAN (Wei et al., 2021)、多数のタスクで大規模系列変換モデルをチューニング、ゼロショット汎化能力を高める T0 (Sanh et al., 2021)、事前学習と大規模マルチタスク学習を組み合わせた ExT5 (Aribandi et al., 2021) などが代表的な論文です。

なお、これらの手法のいくつかは、GPT-3 的な、トランスフォーマー・デコーダーのみを用いた言語モデルではなく、T5 (Raffel et al., 2019) のようなエンコーダー・デコーダーからなる系列変換モデルに基づいています。2021年は、マルチリンガル版の T5 である mT5 (Xue et al., 2021) やバイト列を直接扱える ByT5 (Xue et al., 2021) も発表され、これらのモデルの利用も拡大しています。

無料で使える最強の言語モデル GPT-3 のオープン版 GPT-J とその使い方
「現時点で使える最強のオープンソース言語モデル」と言っても過言ではない GPT-3 のオープン版「GPT-J」が先日リリースされました。無料でこの性能、OpenAI API に課金するかどうかも考え直すレベルです。本記事では、関連モデル・技術に加え、GPT-J とその使い方を紹介しました。
最新研究から学ぶ 言語モデルの性能を向上させる5つの簡単なトリック
最近になって、言語モデルの性能を向上させる最新の研究が立て続けに発表されています。いずれも、比較的簡単な工夫で、トランスフォーマー・ベースの言語モデルの性能を改善したり、訓練を効率化したりといったことを可能にするものが多く、「GPT-3 超え」を達成したものもあれば、我々の日々の業務にも応用できそうなアイデアも多くあります。本記事では、最近の「言語モデルの性能向上テクニック」に関する文献をまとめて紹介します。
GPT-3超えが続々と登場 発展を続ける超巨大言語モデルの最先端
GPT-3 が発表されて既に1年以上、「GPT-3 超え」を達成する超巨大言語モデルがその後も次々と発表されています。本記事では、最近 DeepMind から発表された Gopher / RETRO をはじめ、最近発表され「GPT-3 超え」を達成した数々の大規模言語モデルを解説しました。

ノンパラメトリックな手法

近年の大規模な言語モデルは、知識を全てニューラルネットワークの重みのようなパラメータとして表現するものがほとんどです。これらの「パラメトリックな」モデルは、驚くべきほど大量の知識をパラメータとして保持できますが (例: Roberts et al., 2020)、知識を大量に必要とする質問応答のようなタスクにおいては、性能を向上させるためにモデルのサイズを指数関数的に大きくしなければならないという欠点があります。

そこで、2020年頃から、知識をモデルのパラメーターとして全て表現するのではなく、何らかの外部知識として表現して利用する「ノンパラメトリック」手法が近年さかんに研究されています。これらのモデルは、外部知識を検索するので、「検索ベース」の手法とも呼ばれます。

代表的な手法として、近傍検索に基づく言語モデル (kNN-LM, Khandelwal et al., 2019)、近傍検索に基づく機械翻訳 (kNN-MT, Khandelwal et al., 2020)、検索を用いた言語生成 RAG (Lewis et al., 2020, 上図)、検索+パラフレーズを使って事前学習する MARGE (Lewis et al., 2020) 等があります。

また、最近では、2兆トークンからなる DB を検索する大規模言語モデル RETRO (Borgeaud et al., 2021) が発表されました。これらのモデルは、パラメータ数を増やすことなく、言語モデルの性能を上げることができる、DB を後付けで追加・置換できる、などの利点があります。

検索・書き換えに基づくノンパラメトリックな言語モデルの最前線
近年、知識をモデルのパラメーターとして全て表現するのではなく、何らかの外部知識として表現して利用する「ノンパラメトリック」手法がさかんに研究されています。これらの手法は「検索ベース」手法とも呼ばれており、外部知識から関連する文を検索したり、書き換えたりすることによって、パラメトリックなモデルの欠点を補うことができます。本記事では、これらノンパラメトリックな言語モデルに関する最近の手法のうち、メジャーなものをいくつかピックアップして紹介します。
GPT-3超えが続々と登場 発展を続ける超巨大言語モデルの最先端
GPT-3 が発表されて既に1年以上、「GPT-3 超え」を達成する超巨大言語モデルがその後も次々と発表されています。本記事では、最近 DeepMind から発表された Gopher / RETRO をはじめ、最近発表され「GPT-3 超え」を達成した数々の大規模言語モデルを解説しました。

人工知能で進む「分野の大統一」

最後に、近年の人工知能の最も重要なトレンドである「分野の大統一」に触れておきましょう。2021年現在、人工知能の分野では「大統一 (great consolidation)」が進みつつあります。最近、Andrej Karpathy 氏 (Tesla AI のトップ) が「現在進行形で進んでいる AI 分野の統合がすごい」という内容のツイートを投稿しています。現在の業界の状況を端的に良く表していますので、以下で抄訳します:

10年ほど前は、画像・音声・言語・強化学習で、自分が詳しくない他の分野の論文を読むことはほぼ不可能でした。アプローチが全く異なっていたからです。2010年代から、機械学習、特に、ニューラルネットワークベースの手法が徐々に普及し始めました。分野ごとに異なるアーキテクチャを使ってはいましたが、論文が少しずつ似たものになってきました。2年ほど前から、どの分野でも、トランスフォーマー・ベースのモデルが普及し始め、アーキテクチャ的にも差異がほとんど無くなりました。分野内でも、分類・検出・セグメンテーション・生成など、昔はタスクごとに手法が異なっていましたが、今はほとんど変わりません。

現在において、分野毎に異なるのは、データと、入力・出力をどうやって変換するか、位置エンベディングとマスクをどうやって設計するか、ぐらいです。異なる分野であっても、論文や研究者・良いアイデアは、全て関係しています。改善手法や新しいアイデアはすぐに分野を超えて共有されます。

人間の大脳新皮質は、モダリティにかかわらず非常に均質な設計になっています。もしかしたら、自然も同じようなアーキテクチャにたどり着いたのかもしれません。このような大統一によって、ソフトウェア・ハードウェア・インフラの重要性がさらに増し、それらによってさらに進歩が加速します。

自然言語処理の分野で機械翻訳用に提案された「元祖」トランスフォーマー (Vaswani et al., 2017) は、その強力なスケール性と汎化能力により、またたく間に他のタスクや分野にも広がりました。

CNN ベースの強力なモデルが既に普及していたコンピューター・ビジョンの分野でも、画像をパッチに分割してビジョン・トランスフォーマー (Dosovitskiy et al., 2020) や DeiT (Touvron et al., 2020)を皮切りに、一気にトランスフォーマーの波が押し寄せた感があります。同様のアイデアは、スペクトグラムをパッチに分割して音声解析する SST (Gong et al., 2021) を通じて音声分野にも広まり始めました。

これらのトランスフォーマー・ベースの手法によって、入力を分類できるようになりました。一方、自然言語処理分野の GPT のように、新しい画像や音声をトランスフォーマーを使って生成・変換するにはどうしたら良いでしょうか?答えは簡単で、「画像や音声などの入力を離散的なトークンに変換し、そのトークン列を言語のようにトランスフォーマーによってモデル化する」です。この枠組み、具体的な名前が付いていませんが、ここ2年ほどの深層学習業界で最も重要なトレンドだと個人的には思っています。

この離散トークン列への変換は、潜在表現を離散トークンに結びつける自己復号器 (オートエンコーダー) である VQ-VAE (van den Oord et al. 2017) が使われるのが一般的で、dVAE (離散変分自己符号化器; discrete variational autoencoder) と呼ばれることもあります。この仕組みは、VQGAN (Esser et al., 2020)、 DALL·E (Ramesh et al., 2021)、CogView (Ding et al., 2021)、NÜWA (Wu et al., 2021) などの画像生成モデルで広く使われています。また、時間軸に拡張することによってビデオを生成する VideoGPT (Yan et al., 2021) も提案されています。

また、音楽の分野では、離散化とトランスフォーマーを組み合わせて音楽をオーディオから直接生成する Jukebox (Dhariwal et al., 2020)、音声の分野では、前述の HuBERT (Hsu et al., 2021) の表現を使った音声生成 (Lakhotia et al., 2021) にも同様の仕組みが使われています。

なお、入力を離散トークン化すると、自然言語処理の分野でポピュラーな BERT のマスク言語モデルように、一部をマスクして文脈から復元することにより、高品質な表現を学習するのが容易になります。この仕組みを利用して、ビジョン・トランスフォーマーを BERT 的に事前学習する BEIT (Bao et al., 2021)、ビデオに対する BERT 的な事前学習 VIMPAC (Tan et al., 2021) などが提案されています。

入力を離散トークン化する手法は、VQ-VAE だけではありません。前述の HuBERT (Hsu et al., 2021) や wav2vec-U (Baevski et al., 2021) では、学習された表現に対して k-means を実行して得られたクラスタを単に使っています。他にも、音声に対する可変レート離散表現を学習する SlowAE (Dieleman et al., 2021)、離散コサイン変換 (DCT) を使って画像を離散・スパース表現する手法 (Nash et al. 2021) などが提案されています。

最後に、トランスフォーマーの波が押し寄せているのは、言語・画像・音声などのドメインだけではありません。表形式データに自己注意機構を使った TabTransformer (Huang et al., 2020) や NPT (Kossen et al., 2021)、トランスフォーマーを使った推薦システムのためのフレームワーク Transformer4Rec (Moreira et al., 2021)、強化学習をトランスフォーマーの枠組みでモデル化する Decision Transformer (Chen et al., 2021) など、様々な分野・タスクでトランスフォーマーが使われています。

一方、画像認識の分野では最近、「重要なのはパッチ化であって、アーキテクチャ自体ではない」という趣旨の論文 (Anonymous, 2021) や、「トランスフォーマーの自己注意機構をプーリング層に変えても問題無い」という結果 (Yu et al., 2021) など、アーキテクチャの前提を疑うような研究も出てきています。また、前述した多層パーセプトロン (MLP) ベースのモデルに関する研究も着実に進んでいます。

現状のところ、系列化できて十分な (事前) 学習データ量が手に入るタスクであれば、「とりあえず何でもトランスフォーマー」の傾向はしばらく続きそうですが、その覇権がいつまで続くか、今後も目が離せませんね。

パッチさえあればいい?画像認識・ViT において重要な要素とは【論文速報】
「パッチさえあればいい?」と題された論文が ICLR 2022 に投稿・公開され話題になっています。ConvMixer と呼ばれる画像のパッチ化と畳み込みに基づいた非常に単純なモデル、MLP や ViT と同等の性能をより少ないパラメータ数で実現しています。本記事では、ConvMixer を論文速報として解説し、画像分類において本当に重要な要素とは何か、について解説します。
【論文速報】OpenAI の超高クオリティ画像生成モデル DALL·E の論文を解説
今年2021年1月に、OpenAI から発表された画像生成モデルである「DALL·E (ダリー)」。先日、その技術的詳細を解説した論文が発表されたのにあわせ、本記事では、CLIP などの関連研究などを紹介し、その技術・モデル等の詳細について速報的に解説してみたいと思います。
GPT がついにビデオにも進出 深層学習を使ったビデオ生成・認識研究の最先端
コンテンツ生成、予測 (自動運転、気象予報)、強化学習など、現実世界において様々な応用のあるビデオ生成・認識。トランスフォーマーや GPT が他ドメインで成功を収める中、ビデオ分野にもこの「トランスフォーマーの波」が押し寄せています。この記事では、このビデオ生成・認識分野における最近の研究動向をまとめてみたいと思います。
ビジョン用「基盤モデル」の最前線と AI で進む「大統一」とは
大規模データから事前学習され、様々なタスクに適用できる汎用モデルである「基盤モデル」。BERT など自然言語処理の分野でポピュラーになった手法が、コンピューター・ビジョン分野にも進出しています。本記事では、ごく最近発表された、コンピューター・ビジョンの複数タスクを同時に解ける、NÜWA, Florence, PolyVit 等を紹介し、基盤モデルのトレンドを追ってみたいと思います。また同時に、AI では分野の「大統一」が進みつつあります。エキサイティングなトレンドですので、最後に少し言及します。