人工知能の次のフロンティアとは？視覚×言語研究の最新動向

大量のテキストから事前学習した BERT や GPT-3 などの事前学習モデルに関する研究が話題ですが、人間の言語理解には、視覚・聴覚などとの相互作用、身体性・社会性が非常に重要です。この記事では、近年注目が高まっているマルチモーダル自然言語処理、特にその中でも、視覚×言語の最新の研究をいくつか取り上げ、紹介してみたいと思います。

萩原正人

Google、MSR、バイドゥ、楽天技術研究所NY、Duolingo など、日中米の多くのテック大手等において、研究者・エンジニアとして自然言語処理・機械学習の研究開発に携わる。2019年にフリーランスとして独立し、教育応用・アジア言語処理を専門とする AI 研究所 Octanove Labs を設立。機械翻訳や教育応用の分野にて、世界トップレベルの研究機関等と共に数多くのプロジェクトに携わる

More posts by 萩原正人.

萩原正人

2020-11-30 • 13 min read

この記事は、会員限定記事ですので、アクセスすることができません。購読してアカウントをアップグレードすると、本記事に加え、既存の会員専用コンテンツが全て読めるようになります。

料金および本ブログの詳細、団体購読などについては、「本ブログについて」をご覧ください。

人工知能の次のフロンティアとは？視覚×言語研究の最新動向

萩原正人

萩原正人

呪文よ、さらば！画像生成を制御する ControlNet＋最新手法を解説

拡散モデルの品質超え！マスクを使い高速に画像生成する Muse を解説

NeurIPS論文賞！拡散モデルを統一的に比較・改善したEDMを解説

2020年最新版モダンなフレームワークで実装する深層自然言語処理モデル

自然言語処理トップ会議 EMNLP 2020 から厳選　重要論文・講演のまとめ