DALL·E の再現も間近か最新のビジョン×言語研究と「使える」データセットを解説

テキストから画像を生成したり、その逆に画像からキャプションを生成したりといった「ビジョン×言語」の研究。人工知能で今最も盛り上がっている分野だと言っても過言ではありませんが、今年のはじめごろに OpenAI からCLIP / DALL·E が発表され、その勢いにさらに加速がつきました。本記事では、「ビジョン×言語」分野の最新の研究と、最近発表された「使える」データセットを中心に、最新の動向を解説しました。

萩原正人

Google、MSR、バイドゥ、楽天技術研究所NY、Duolingo など、日中米の多くのテック大手等において、研究者・エンジニアとして自然言語処理・機械学習の研究開発に携わる。2019年にフリーランスとして独立し、教育応用・アジア言語処理を専門とする AI 研究所 Octanove Labs を設立。機械翻訳や教育応用の分野にて、世界トップレベルの研究機関等と共に数多くのプロジェクトに携わる

More posts by 萩原正人.

萩原正人

2021-09-22 • 11 min read

この記事は、会員限定記事ですので、アクセスすることができません。購読してアカウントをアップグレードすると、本記事に加え、既存の会員専用コンテンツが全て読めるようになります。

料金および本ブログの詳細、団体購読などについては、「本ブログについて」をご覧ください。

DALL·E の再現も間近か最新のビジョン×言語研究と「使える」データセットを解説

萩原正人

萩原正人

呪文よ、さらば！画像生成を制御する ControlNet＋最新手法を解説

拡散モデルの品質超え！マスクを使い高速に画像生成する Muse を解説

NeurIPS論文賞！拡散モデルを統一的に比較・改善したEDMを解説

最新研究から学ぶ言語モデルの性能を向上させる5つの簡単なトリック

テキストを使わないNLP！？音声から直接言語を生成・翻訳する最新モデル動向