Free Post 音声認識 「最強の系列モデル」S4 で生成も!音声表現・音声生成の最新研究 長距離ベンチマークで従来手法を圧倒的性能で破って話題となった系列モデル S4 の出現から半年ほどですが、その音声生成への応用モデルなど、後続研究や解説記事などのフォローアップが出現し始めています。本記事では、最近発表された音声表現・音声生成の最新論文を厳選して解説します。
Free Post 機械学習 機械学習におけるベンチマーク完全ガイド 利用・構築・問題点まとめ 機械学習モデルの性能を測定・比較するための標準化されたタスク・データセットである「ベンチマーク」、機械学習分野で広く普及しており、モデルの開発を後押ししています。本記事では、コンピューター・ビジョン、自然言語処理、音声処理などにおけるベンチマークを最新のものも含めて紹介した後、これらベンチマークの利用・構築に関する示唆に富んだ論文を数本紹介し、「機械学習ベンチマークの利用・構築・問題点」を詳しくまとめました。
Free Post 機械学習 単純かつ効果的!訓練順序を工夫する「カリキュラム学習」とNLP応用 人間が学習するように、難易度に応じてデータを提示する順序を工夫する「カリキュラム学習」、シンプルかつ効果的な方法として研究が進んでいます。本記事では、カリキュラム学習の基礎をおさらいした後、自然言語処理における代表的な応用例 (機械翻訳、音声翻訳、自然言語理解、チャットボット) を幅広く紹介・解説します。
Free Post 機械学習 DeepMind の「万能モデル」 Gato と Flamingo の技術を解説 先週、DeepMind から、単一のモデル・パラメータで、Atari のゲームを制御したり、画像のキャプションを生成したり、テキストで対話をしたり、現実のロボットアームを用いてブロックを積み上げたりできる最新の「超マルチモーダル・マルチタスクモデル Gato」が発表され、ネット上で「汎用人工知能に近づいたか」と話題になりました。また同時に、「GPT-3 の視覚×言語版」とも言える Flamingo も発表され、話題となりました。実際、Gato と Flamingo のどこが凄く、どこに課題があるのでしょうか。論文から技術詳細を解説し、考察してみたいと思います。
Free Post コンピュータービジョン 深層学習トップ会議 ICLR 2022 のベストペーパー・重要論文まとめ【CV編】 先月末に、「深層学習のトップ会議」とも言える ICLR 2022 がオンライン上で開催されました。本記事では、この ICLR 2022 から、特に CNN や分類・生成タスクに関するベストペーパー・要チェック論文を厳選して解説します。特に 1) 理論的な裏付けがしっかりしており、2) 実タスクでの性能が良く、かつ、3) 実装が比較的容易、というものを厳選しました。どの論文も興味深く実用性もあり、今後の深層学習に強いインパクトを与えると予測されます。
Free Post 機械学習 深層学習トップ会議 ICLR 2022 の要注目論文まとめ【NLP/ML一般編】 先月末、「深層学習のトップ会議」とも言える ICLR 2022 がオンライン上で開催されました。本ブログでは、全 1,095 本の採択論文の中から要チェック論文を厳選し、2週間に分けて紹介します。今週は 自然言語処理 (NLP) と機械学習全般に関する論文です。いずれの論文も、新しい概念を提案する挑戦的なものや、実務に使える実用的なものを中心に厳選しました。
Free Post コンピュータービジョン モデルに「分からない」ことを出力させる「分布外検出」の最新動向 機械学習アルゴリズムは、時に自信満々に間違えることがよく指摘されています。モデルに「分からない」ことを出力させる「分布外検出」は実用上重要な技術ですが、近年、研究が大きく進んでおり、最近の ICLR 2022 でもいくつか論文が発表されました。本記事では、分布外検出の代表的な手法と最新の論文を紹介します。
Free Post 機械学習 表形式データに深層学習は「使える」のか 本当に強いモデルはこれだ 実務において幅広く使われている「表形式データ」では、GBDT など決定木アンサンブルに基づく手法が伝統的に非常に強いことが知られています。一方、他ドメインで目覚ましい性能を上げている深層学習ベースのモデルも数多く提案されています。最近になって、表形式データに対する深層学習手法をサーベイ・比較した論文が立て続けに発表されました。現時点で表形式データに一番強いモデルは何なのでしょうか。本記事では、これらのサーベイ・比較論文を紹介しながら、この答えを探ってみます。
Free Post 自然言語処理 ついに出た!Googleによる最強・最大の言語モデル PaLM を解説【論文速報】 Google から、超大規模言語モデル PaLM (「パーム」、Pathways Language Model) が発表されました。パラメータ数 540B (5400億) の本モデル、現段階で「最強・最大の言語モデル」と言っても過言ではなく、言語理解、コーディングタスク、多言語タスクなど、様々な分野で最高性能 (SOTA) を軒並み達成しています。本論文、付録 (appendix) を除いた論文の本体だけで 62 ページもある大作なので読むのも大変なのですが、本記事では、その中でも重要な要点をかいつまんで紹介します。
Free Post コンピュータービジョン OpenAI の超高品質テキスト→画像生成モデル DALL·E 2 の技術詳細を解説 先週、テキストから画像を高い品質で生成できるモデル「DALL·E 2」が OpenAI が発表されました。初代「DALL·E」から一年あまりで、さらにテキストに忠実でリアルな画像生成を実現し、ネットを賑わせました。本記事では、「DALL·E 2」の技術詳細に注目し、論文を理解するための基礎となる技術を順に追って解説しました。
Free Post 機械学習 「とりあえずReLU」で本当に大丈夫?深層学習の活性化関数はこう選べ ニューラルネットワークによって強力な非線形の予測性能を実現するのに必要不可欠な「活性化関数」。tanh や ReLU をはじめ、実に様々なものがこれまで提案されていますが、モデルやタスクに応じてどのように選んだら良いでしょうか。本記事では、最近発表されたサーベイ論文を中心に、「活性化関数をどのように選んだら良いか」をまとめました。
Free Post 機械学習 【じっくり1本】教師なし対照学習が作り出す表現は地球儀を一様に覆う 近年、利用の広がっている強力な学習手法である対照学習。その性能の秘訣を「アラインメント」と「一様性」の観点から解き明かした本論文、じっくり一本解説しました。論文の可視化の文書化の技術は一見の価値ありです。
Free Post コンピュータービジョン 正解付きデータセットを自動生成する DatasetGAN は「使える」か 高性能な機械学習モデルを訓練するためには、大規模なデータセットが必要となります。近年では、高品質の画像生成用 GAN を使い、訓練用データセットをアノテーションと共に生成する手法が発表されています。DatasetGAN に代表されるこれらのモデルは実際に「使える」のでしょうか。本記事では、これらの手法を、基礎となるモデルや関連研究も交えながら解説します。
Free Post 機械学習 1,000層超えも!超深層トランスフォーマーを実現した DeepNet を解説【論文速報】 トランスフォーマーは非常に強力なモデルですが、レイヤーの数を増やしていくと訓練が不安定になることが知られています。最近、トランスフォーマーの訓練を安定させ、1,000層にも及ぶ「超深層トランスフォーマー」を訓練できる DeepNet が Microsoft Research から提案され、機械翻訳において目覚ましい成果を上げ話題になっています。本記事では、DeepNet とその正規化手法である DeepNorm を、論文速報として解説します。
Free Post 機械学習 長い系列を高精度に処理!話題のモデル Perceiver AR と HiP を解説 トップ研究者が「最近のモデルで最もエキサイティングなもの」と紹介するなど話題のモデル Perceiver をさらに改善した後続バージョンであるモデルが最近、相次いで発表されています。自己回帰的な認識・生成や、階層的・効率的なモデル化を可能としたこれらの手法、非常に興味深い発展ですので、本記事では元祖 Perceiver から始め、これらのモデルを解説します。