Free Post 機械学習 DeepMind の「万能モデル」 Gato と Flamingo の技術を解説 先週、DeepMind から、単一のモデル・パラメータで、Atari のゲームを制御したり、画像のキャプションを生成したり、テキストで対話をしたり、現実のロボットアームを用いてブロックを積み上げたりできる最新の「超マルチモーダル・マルチタスクモデル Gato」が発表され、ネット上で「汎用人工知能に近づいたか」と話題になりました。また同時に、「GPT-3 の視覚×言語版」とも言える Flamingo も発表され、話題となりました。実際、Gato と Flamingo のどこが凄く、どこに課題があるのでしょうか。論文から技術詳細を解説し、考察してみたいと思います。
Free Post コンピュータービジョン 深層学習トップ会議 ICLR 2022 のベストペーパー・重要論文まとめ【CV編】 先月末に、「深層学習のトップ会議」とも言える ICLR 2022 がオンライン上で開催されました。本記事では、この ICLR 2022 から、特に CNN や分類・生成タスクに関するベストペーパー・要チェック論文を厳選して解説します。特に 1) 理論的な裏付けがしっかりしており、2) 実タスクでの性能が良く、かつ、3) 実装が比較的容易、というものを厳選しました。どの論文も興味深く実用性もあり、今後の深層学習に強いインパクトを与えると予測されます。
Free Post 機械学習 深層学習トップ会議 ICLR 2022 の要注目論文まとめ【NLP/ML一般編】 先月末、「深層学習のトップ会議」とも言える ICLR 2022 がオンライン上で開催されました。本ブログでは、全 1,095 本の採択論文の中から要チェック論文を厳選し、2週間に分けて紹介します。今週は 自然言語処理 (NLP) と機械学習全般に関する論文です。いずれの論文も、新しい概念を提案する挑戦的なものや、実務に使える実用的なものを中心に厳選しました。
Free Post 機械学習 表形式データに深層学習は「使える」のか 本当に強いモデルはこれだ 実務において幅広く使われている「表形式データ」では、GBDT など決定木アンサンブルに基づく手法が伝統的に非常に強いことが知られています。一方、他ドメインで目覚ましい性能を上げている深層学習ベースのモデルも数多く提案されています。最近になって、表形式データに対する深層学習手法をサーベイ・比較した論文が立て続けに発表されました。現時点で表形式データに一番強いモデルは何なのでしょうか。本記事では、これらのサーベイ・比較論文を紹介しながら、この答えを探ってみます。
Free Post 自然言語処理 ついに出た!Googleによる最強・最大の言語モデル PaLM を解説【論文速報】 Google から、超大規模言語モデル PaLM (「パーム」、Pathways Language Model) が発表されました。パラメータ数 540B (5400億) の本モデル、現段階で「最強・最大の言語モデル」と言っても過言ではなく、言語理解、コーディングタスク、多言語タスクなど、様々な分野で最高性能 (SOTA) を軒並み達成しています。本論文、付録 (appendix) を除いた論文の本体だけで 62 ページもある大作なので読むのも大変なのですが、本記事では、その中でも重要な要点をかいつまんで紹介します。
Free Post コンピュータービジョン OpenAI の超高品質テキスト→画像生成モデル DALL·E 2 の技術詳細を解説 先週、テキストから画像を高い品質で生成できるモデル「DALL·E 2」が OpenAI が発表されました。初代「DALL·E」から一年あまりで、さらにテキストに忠実でリアルな画像生成を実現し、ネットを賑わせました。本記事では、「DALL·E 2」の技術詳細に注目し、論文を理解するための基礎となる技術を順に追って解説しました。
Free Post 機械学習 「とりあえずReLU」で本当に大丈夫?深層学習の活性化関数はこう選べ ニューラルネットワークによって強力な非線形の予測性能を実現するのに必要不可欠な「活性化関数」。tanh や ReLU をはじめ、実に様々なものがこれまで提案されていますが、モデルやタスクに応じてどのように選んだら良いでしょうか。本記事では、最近発表されたサーベイ論文を中心に、「活性化関数をどのように選んだら良いか」をまとめました。
Free Post 機械学習 【じっくり1本】教師なし対照学習が作り出す表現は地球儀を一様に覆う 近年、利用の広がっている強力な学習手法である対照学習。その性能の秘訣を「アラインメント」と「一様性」の観点から解き明かした本論文、じっくり一本解説しました。論文の可視化の文書化の技術は一見の価値ありです。
Free Post 自然言語処理 NLPでトランスフォーマーを超えた!? 多層パーセプトロン研究の最前線 昨年から活発に研究されている多層パーセプトロン (MLP) モデル。自然言語処理 (NLP) の分野ではあまり性能が振るいませんでしたが、最近になって、NLP タスクでも「トランスフォーマー超え」を達成するモデルが立て続けに発表されています。本記事では、最近発表された期待の MLP モデル、HyperMixer と sMLP を解説します。
Free Post 機械学習 1,000層超えも!超深層トランスフォーマーを実現した DeepNet を解説【論文速報】 トランスフォーマーは非常に強力なモデルですが、レイヤーの数を増やしていくと訓練が不安定になることが知られています。最近、トランスフォーマーの訓練を安定させ、1,000層にも及ぶ「超深層トランスフォーマー」を訓練できる DeepNet が Microsoft Research から提案され、機械翻訳において目覚ましい成果を上げ話題になっています。本記事では、DeepNet とその正規化手法である DeepNorm を、論文速報として解説します。
Free Post 機械学習 長い系列を高精度に処理!話題のモデル Perceiver AR と HiP を解説 トップ研究者が「最近のモデルで最もエキサイティングなもの」と紹介するなど話題のモデル Perceiver をさらに改善した後続バージョンであるモデルが最近、相次いで発表されています。自己回帰的な認識・生成や、階層的・効率的なモデル化を可能としたこれらの手法、非常に興味深い発展ですので、本記事では元祖 Perceiver から始め、これらのモデルを解説します。
Free Post 自然言語処理 進化を続ける大規模言語モデルの最前線 (LaMDA, GPT-NeoX-20B, XGLM) 前回、本ブログにおいて超巨大言語モデルについて取り上げてから数ヶ月しか経っていませんが、大規模言語モデル分野では興味深い研究・モデルが次々と発表されています。特に、GPT-NeoX-20B など、訓練データ・コード・モデルなど、すべてオープンソースで利用できる言語モデルがいくつか発表されています。本記事では、最近のこれらの大規模言語モデルの傾向を紹介します。
Free Post 音楽情報処理 微分可能なデジタル信号処理 (DDSP) とオーディオ生成の最新動向 シンセサイザーなどのドメイン知識に基づきながらも、パラメータ等を微分可能にすることにより、生成品質と手軽さ、解釈性のバランスの取れた「微分可能なデジタル信号処理 (DDSP)」による音声・オーディオ生成およびその関連手法の利用が広まっています。本記事では、DDSP の基本からスタートし、最新の論文まで含め、関連する文献をまとめました。
Free Post 機械学習 「とりあえずAdam」で本当に大丈夫?深層学習の最適化手法はこう選べ 深層学習モデルの訓練に欠かせない最適化手法(オプティマイザー)。多数の選択肢の中から適切な最適化手法をどう選ぶかについては、同僚やネット上から共有される経験則に頼っているのが現状です。本論文ではこの「最適化手法の選び方」を、体系的な実験に基づく証拠を元に調査し直し、有用なアドバイスを提供していますので、まとめて紹介したいと思います。
Free Post 機械学習 音声・画像・言語、何でもベクトル化する最新モデル data2vec を解説 Meta AI から、また非常に興味深いモデルが発表されました。音声・画像・言語を同じ仕組みで何でもベクトル化する自己教師あり学習手法 data2vec、そのシンプルさにも関わらず様々なタスクで SOTA を達成しています。本記事では、基礎となる自己教師あり学習、具体的には、マスク予測と自己蒸留手法から始め、data2vec を丁寧に解説しました。