音声認識

A collection of 2 posts

フローベースの深層生成モデルと音声合成の最前線
Free Post
機械学習

フローベースの深層生成モデルと音声合成の最前線

近似なしで潜在変数や対数尤度を正確に推定可能、対数尤度を最大化させることで学習ができる、逆変換ができる、など、様々な特徴を持つフローベースの生成モデル。GAN や VAE などの他のモデルほど有名ではありませんが、近年研究が進み、Glow (Kingma and Dhariwal 2018) のように高品質な画像が生成できるようになるなど、注目され始めています。本記事では、フローベースの深層生成モデルと、フローを利用した音声合成モデルの最新の研究を追ってみたいと思います。

音声認識に「BERT 革命」がついに—音声に対する事前学習の最前線
Free Post
音声認識

音声認識に「BERT 革命」がついに—音声に対する事前学習の最前線

高精度な音声認識モデルを訓練するには、大量のラベル付き学習データ(音声と、それを文字起こししたもの)が必要であることが知られています。画像認識 (ImageNet) や自然言語処理 (BERT) の分野において成功を収めた転移学習の手法は、音声認識の分野では有効ではないのでしょうか?本記事では、現在 (2020年10月) の段階における「音声認識の転移学習革命」の最前線を追ってみたいと思います。以下で紹介する手法を追ってみると、音声認識の分野でも「ImageNet 的瞬間」が着実に進んでいることが分かります。

You've successfully subscribed to ステート・オブ・AI ガイド
Great! Next, complete checkout for full access to ステート・オブ・AI ガイド
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.
Success! Your billing info is updated.
Billing info update failed.