音声認識

A collection of 5 posts

全く新しい生成モデル 勾配ベクトル場とスコアマッチングによる画像・音声生成を解説
Free Post
機械学習

全く新しい生成モデル 勾配ベクトル場とスコアマッチングによる画像・音声生成を解説

データの密度勾配をモデル化しそこからサンプルを生成する「スコアベース手法」。理論的にも興味深く、高品質の画像や音声を生成できることもあり、機械学習業界で盛り上がりを見せていますが、日本語での情報がほとんど無いのがネックになっています。この記事では、スコアベースの生成モデルの基礎と、画像と音声に応用した比較的新しい論文をまとめて解説します。

シンプルかつ効果的!深層学習で復活した「自己学習」の最新研究トレンド
Free Post
機械学習

シンプルかつ効果的!深層学習で復活した「自己学習」の最新研究トレンド

モデル自身を使ってラベル無しデータに「疑似正解」を付与、そこから新たなモデルを学習する「自己学習」 (self-training)。近年の深層学習技術の発展に伴って、その有効性を示す研究が画像・言語・音声の全分野で数多く発表されています。本記事では、その「自己学習」の最新の研究トレンドをいくつか紹介したいと思います。

GANを超えた!?画像・音声の「可変レート」表現学習手法が未来すぎる
Free Post
コンピュータービジョン

GANを超えた!?画像・音声の「可変レート」表現学習手法が未来すぎる

意味の密度に応じて、潜在表現の情報量を変化させる「可変レート離散表現」に関する論文が、最近 DeepMind によって立て続けに発表されました。非常に実用的かつ学術的にも興味深い研究だと思いますので、以下で、画像・音声に対する可変レートの潜在表現学習手法をそれぞれ紹介します。

フローベースの深層生成モデルと音声合成の最前線
Free Post
機械学習

フローベースの深層生成モデルと音声合成の最前線

近似なしで潜在変数や対数尤度を正確に推定可能、対数尤度を最大化させることで学習ができる、逆変換ができる、など、様々な特徴を持つフローベースの生成モデル。GAN や VAE などの他のモデルほど有名ではありませんが、近年研究が進み、Glow (Kingma and Dhariwal 2018) のように高品質な画像が生成できるようになるなど、注目され始めています。本記事では、フローベースの深層生成モデルと、フローを利用した音声合成モデルの最新の研究を追ってみたいと思います。

音声認識に「BERT 革命」がついに—音声に対する事前学習の最前線
Free Post
音声認識

音声認識に「BERT 革命」がついに—音声に対する事前学習の最前線

高精度な音声認識モデルを訓練するには、大量のラベル付き学習データ(音声と、それを文字起こししたもの)が必要であることが知られています。画像認識 (ImageNet) や自然言語処理 (BERT) の分野において成功を収めた転移学習の手法は、音声認識の分野では有効ではないのでしょうか?本記事では、現在 (2020年10月) の段階における「音声認識の転移学習革命」の最前線を追ってみたいと思います。以下で紹介する手法を追ってみると、音声認識の分野でも「ImageNet 的瞬間」が着実に進んでいることが分かります。

You've successfully subscribed to ステート・オブ・AI ガイド
Great! Next, complete checkout for full access to ステート・オブ・AI ガイド
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.
Success! Your billing info is updated.
Billing info update failed.