大規模データから事前学習され、様々なタスクに適用できる汎用モデルである「基盤モデル」。BERT など自然言語処理の分野でポピュラーになった手法が、コンピューター・ビジョン分野にも進出しています。本記事では、ごく最近発表された、コンピューター・ビジョンの複数タスクを同時に解ける、NÜWA, Florence, PolyVit 等を紹介し、基盤モデルのトレンドを追ってみたいと思います。また同時に、AI では分野の「大統一」が進みつつあります。エキサイティングなトレンドですので、最後に少し言及します。