DeepMind の「万能モデル」 Gato と Flamingo の技術を解説

先週、DeepMind から、単一のモデル・パラメータで、Atari のゲームを制御したり、画像のキャプションを生成したり、テキストで対話をしたり、現実のロボットアームを用いてブロックを積み上げたりできる最新の「超マルチモーダル・マルチタスクモデル Gato」が発表され、ネット上で「汎用人工知能に近づいたか」と話題になりました。また同時に、「GPT-3 の視覚×言語版」とも言える Flamingo も発表され、話題となりました。実際、Gato と Flamingo のどこが凄く、どこに課題があるのでしょうか。論文から技術詳細を解説し、考察してみたいと思います。

萩原正人

Google、MSR、バイドゥ、楽天技術研究所NY、Duolingo など、日中米の多くのテック大手等において、研究者・エンジニアとして自然言語処理・機械学習の研究開発に携わる。2019年にフリーランスとして独立し、教育応用・アジア言語処理を専門とする AI 研究所 Octanove Labs を設立。機械翻訳や教育応用の分野にて、世界トップレベルの研究機関等と共に数多くのプロジェクトに携わる

More posts by 萩原正人.

萩原正人

2022-05-25 • 11 min read

この記事は、会員限定記事ですので、アクセスすることができません。購読してアカウントをアップグレードすると、本記事に加え、既存の会員専用コンテンツが全て読めるようになります。

料金および本ブログの詳細、団体購読などについては、「本ブログについて」をご覧ください。

DeepMind の「万能モデル」 Gato と Flamingo の技術を解説

萩原正人

萩原正人

Adamを超える最適化器現る！？自動で発見された最適化器Lionが凄い

次世代のトランスフォーマーを目指して: 状態空間モデル S4 の発展

エルボー法はもうやめよう！k-meansのクラスタ数の最適な決め方とは

自然言語処理トップ会議 ACL 2022 から厳選！要チェック論文まとめ

深層学習トップ会議 ICLR 2022 のベストペーパー・重要論文まとめ【CV編】