萩原 正人

萩原 正人

Google、MSR、バイドゥ、楽天技術研究所NY、Duolingo など、日中米の多くのテック大手等において、研究者・エンジニアとして自然言語処理・機械学習の研究開発に携わる。2019年にフリーランスとして独立し、教育応用・アジア言語処理を専門とする AI 研究所 Octanove Labs を設立。機械翻訳や教育応用の分野にて、世界トップレベルの研究機関等と共に数多くのプロジェクトに携わる

Seattle, WA, USA
143 posts
Website Twitter
深層学習を使った音楽生成・音楽表現学習の最先端【2021年最新版】
Free Post
音楽情報処理

深層学習を使った音楽生成・音楽表現学習の最先端【2021年最新版】

生成モデル・表現学習の急速な発展に伴い、音楽生成・音楽表現学習の分野にも大きな変化が起きています。ここ2〜3年の間に、長い楽曲を安定して生成できたり、楽器や楽曲のオーディオを直接生成できたりと、芸術的・実用的にも大きく進歩しています。本記事では、特に 2018年〜2021年のごく最近の研究を中心に最新動向を解説してみたいと思います。

GANを超え、言語にも進出 拡散モデルによる画像言語生成の進歩がすごい
Free Post
機械学習

GANを超え、言語にも進出 拡散モデルによる画像言語生成の進歩がすごい

データに徐々にノイズを加え、その過程の逆を学習することにより画像や言語を生成する「拡散確率モデル」。ここ数ヶ月の間に、「画像生成で GAN を超えた」「尤度ベースで SOTA」「言語生成にも適用可」などの非常に画期的な手法・論文が次々と発表され、盛り上がりを見せています。本記事では最近発表された論文等も含め、最新動向を解説します。

自然言語処理トップ会議 ACL 2021 から厳選!要チェック論文トップ10
Free Post
自然言語処理

自然言語処理トップ会議 ACL 2021 から厳選!要チェック論文トップ10

先々週、自然言語処理のトップ会議である ACL 2021 がオンラインで開催されました。本記事では、ACL 2021 の論文の中から、現時点での引用数や、幅広い研究や開発に役立つかどうかなど、私の主観なども混ぜながら、要チェック論文トップ10 (といいながら、合計 11 本ありますが) を選んで解説しました。なるべく幅広いタスクやプロジェクトに役立つように、特定のタスク固有のものではなく、汎用的な手法のものを優先的に選んでいます。

AI の最新動向ブログを1年続けたら収益が爆発したのでチームを拡大します
Free Post

AI の最新動向ブログを1年続けたら収益が爆発したのでチームを拡大します

本ブログ「ステート・オブ・AI ガイド」の執筆をはじめ1年が経ちました。この記事では、このブログを1年間書き続けてきた振り返りと、僭越ながらここまで成長できた理由について少し書いてみたいと思っています。また、今後さらに良質の記事を会員の皆様に届けていくために、チームの拡大を考えていますので、興味のある方は読み進めていただければと思います。

知覚信号を前処理ナシで高速に処理!話題のモデル Perceiver IO を完全解説【論文速報】
Free Post
機械学習

知覚信号を前処理ナシで高速に処理!話題のモデル Perceiver IO を完全解説【論文速報】

最近、DeepMind から発表された「Perceiver (パーシーバー)」と、それを入出力に適用した「Perceiver IO」が、機械学習界隈で話題となっています。複数のモダリティの知覚信号を前処理ナシで高速に処理でき、様々なタスクで高い性能を達成しているこれらのモデル、本記事では、この Perceiver と、それを入出力に適用した「Perceiver IO」を、速報的に詳しく解説します。

深層学習に基づく系列・セッションベース推薦システムの最新動向
Free Post
機械学習

深層学習に基づく系列・セッションベース推薦システムの最新動向

AI の他分野で深層学習手法が発展するに従い、推薦システムも急速に発展しています。特に、ユーザーの行動履歴から商品などを推薦するセッションベースの推薦システムは、自然言語処理分野での技術の発展に追随しながら大きな発展を遂げています。本記事では、RNN・トランスフォーマーに基づく手法に主に注目しながら、系列・セッションベースの推薦システムの最新動向をまとめました。

ネットを席巻する謎の高画質テキスト→画像生成モデル VQGAN+CLIP を完全解説
Free Post
コンピュータービジョン

ネットを席巻する謎の高画質テキスト→画像生成モデル VQGAN+CLIP を完全解説

今年の1月に、テキストから高品質の画像を生成できるモデルである DALL·E (ダリー) と共に発表された CLIP。その際は本ブログでも取り上げ、「学術上・実用上非常に重要なマイルストーンだ」という旨を書きましたが、予想通り、コンピューター・ビジョンの分野の様々なタスクにおいて、CLIP の利用が急速に広がっています。この記事では、ここ最近ネットを席巻する謎の高画質テキスト→画像生成モデル VQGAN+CLIP を解説しました。

NLP の最後の砦「分かち書き」を自動で学習!最新モデル Charformer を解説【論文速報】
Free Post
自然言語処理

NLP の最後の砦「分かち書き」を自動で学習!最新モデル Charformer を解説【論文速報】

多くの自然言語処理タスクで、いまだに独立のステップとして実行される「分かち書き」。これを、End-to-End で自動で学習し、文字・バイト単位の入力から直接、高品質な事前学習を実現する Charformer という手法が発表され話題になっています。「NLP の最後の砦」とも言える分かち書きの処理まで「ニューラル化」される重要なマイルストーンであると言えます。発表されてから2週間ほど時間が経ってしまいましたが、論文速報として紹介したいと思います。

GitHub の コード自動生成 AI「Copilot」の技術詳細を解説 【論文解説】
Free Post
機械学習

GitHub の コード自動生成 AI「Copilot」の技術詳細を解説 【論文解説】

高性能なコードをコメント等から生成・補完してくれる GitHub Copilot。2週間ほど前にリリースされてから、ネット上にて何かと話題になりました。今週、GitHub Copilot を支える大規模言語モデルである 「Codex」の技術詳細に関する論文が OpenAI から発表されましたので、速報的に解説してみたいと思います。なお、この論文で記述されている Codex のプロダクション版が、GitHub Copilot の裏側で動いているとのことです。

ACL 2021 ベストペーパーを完全解説 今度こそ分かる最適輸送×機械学習の応用
Free Post
機械学習

ACL 2021 ベストペーパーを完全解説 今度こそ分かる最適輸送×機械学習の応用

近年、機械学習への応用が進んでいる重要なトピックである「最適輸送」 (optimal transport) ですが、ついに ACL 2021 のベストペーパーに最適輸送を使った論文が選ばれました。本記事では、最適輸送の基礎から機械学習への応用を、ACL 2021ベストペーパーを含めて解説しました。

教師あり学習に追いついた ビジョンにおける自己教師学習・表現学習の最前線
Free Post
コンピュータービジョン

教師あり学習に追いついた ビジョンにおける自己教師学習・表現学習の最前線

教師ラベルを使わずに人為的なタスクによって表現を学習する「自己教師学習」。自然言語処理の BERT や GPT のようなモデルでは既に一般的ですが、コンピューター・ビジョンの分野においても、従来の教師あり事前学習手法に匹敵する性能を上げはじめており、トレンドの変化を感じます。この記事では、ビジョンにおける自己教師学習・表現学習の最前線を解説しました。

機械学習の次のトレンド「非中央集権型」学習の最前線 群体学習と DeDLOC
Free Post
機械学習

機械学習の次のトレンド「非中央集権型」学習の最前線 群体学習と DeDLOC

現代の機械学習においては、大規模なデータセンターの計算資源を大量に使い大規模なモデルを中央集権的に訓練するという方法が主流になっています。しかし、この方法では、計算資源や予算を潤沢に持った一部の大企業などでしか強力なモデルを訓練できないという問題があります。また、訓練データもサーバーに集約しなければならないため、プライバシーの問題もあります。これらの問題に対処するために、最近になって、中央集権的なサーバーを持たずにモデルを訓練する手法がいくつか出現し始めました。本記事ではその中でも特に最近になって提案された「群体学習」と「DeDLOC」について、関連手法をおさらいしながら解説します。

「第3の深層学習ライブラリ」JAX/Flax と TPU を使ったモダンな機械学習
Free Post
機械学習

「第3の深層学習ライブラリ」JAX/Flax と TPU を使ったモダンな機械学習

TensorFlow、PyTorch に次ぐ「第3の深層学習ライブラリ」として、徐々に注目され始めている JAX と Flax。研究コードやライブラリでの採用も広がっています。本記事では、JAX / Flax に今から入門したい方のためのモダンな機械学習チュートリアルを解説しました。

無料で使える最強の言語モデル GPT-3 のオープン版 GPT-J とその使い方
Free Post
機械学習

無料で使える最強の言語モデル GPT-3 のオープン版 GPT-J とその使い方

「現時点で使える最強のオープンソース言語モデル」と言っても過言ではない GPT-3 のオープン版「GPT-J」が先日リリースされました。無料でこの性能、OpenAI API に課金するかどうかも考え直すレベルです。本記事では、関連モデル・技術に加え、GPT-J とその使い方を紹介しました。

言語モデルを高性能化する「プロンプト」技術とは  NAACL 2021 主要論文まとめ
Free Post
自然言語処理

言語モデルを高性能化する「プロンプト」技術とは NAACL 2021 主要論文まとめ

GPT-3 などの強力な言語モデルが普及するに従い、訓練済み言語モデルの性能を最大限引き出すため「プロンプト」を活用する技術に関する研究が進んでいます。今週開催された自然言語処理トップ会議の一つ NAACL 2021 では、このプロンプト技術に関する論文が3本もベストペーパー入りするなど、大きなトレンドとなっているのを感じます。本記事では、NAACL 2021 の主要な論文を紹介しながら、この「プロンプト」技術のトレンドを紹介します。

You've successfully subscribed to ステート・オブ・AI ガイド
Great! Next, complete checkout for full access to ステート・オブ・AI ガイド
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.
Success! Your billing info is updated.
Billing info update failed.