この記事は、会員限定記事ですので、アクセスすることができません。購読してアカウントをアップグレードすると、本記事に加え、既存の会員専用コンテンツが全て読めるようになります。
料金および本ブログの詳細、団体購読などについては、「本ブログについて」をご覧ください。
大量のテキストから事前学習した BERT や GPT-3 などの事前学習モデルに関する研究が話題ですが、人間の言語理解には、視覚・聴覚などとの相互作用、身体性・社会性が非常に重要です。この記事では、近年注目が高まっているマルチモーダル自然言語処理、特にその中でも、視覚×言語の最新の研究をいくつか取り上げ、紹介してみたいと思います。
この記事は、会員限定記事ですので、アクセスすることができません。購読してアカウントをアップグレードすると、本記事に加え、既存の会員専用コンテンツが全て読めるようになります。
料金および本ブログの詳細、団体購読などについては、「本ブログについて」をご覧ください。