藤井亮宏 - ステート・オブ・AI ガイド

呪文よ、さらば！画像生成を制御する ControlNet＋最新手法を解説

最近、拡散モデルに基づいたテキスト条件付き画像生成 (text2image) が大きな注目を集めています。これらの手法では、プロンプト (呪文) で大まかに自分の意図を反映できますが、細かな意図・情報・構成等に基づいて画像を制御するのは至難の業です。ごく最近、ControlNet などをはじめとし、意味領域、輪郭線、人間の関節情報などを使って画像生成を詳細に制御する研究が複数、同時に発表されています。本記事では、テキスト以外の情報によって画像生成をコントロールする最新手法を３種類解説します。

Free Post

自然言語処理

ChatGPT研究の最前線！性能評価とAIテキスト自動検出論文のまとめ

最近大きな話題になっている ChatGPT。専門的なタスクであっても高品質な回答を出力できますが、その「回答」は定量的にどの程度正しいのでしょうか。また、大学のエッセイやレポートなどの「代筆」やフェイクニュースの自動生成などの社会問題にもなっていますが、ChatGPT の出力した文章を自動で判別することはできるのでしょうか。この記事では、最近話題を呼んでいる ChatGPT の性能を調査した論文 4 本と、ChatGPT の出力した文章の自動検出手法に関する論文 3 本、合計 7 本解説します。

Free Post

コンピュータービジョン

拡散モデルの品質超え！マスクを使い高速に画像生成する Muse を解説

近年では、拡散モデルに基づく画像生成モデルが普及していますが、逐次的であるため生成に時間がかかるという問題があります。最近、Google Research から発表された画像生成モデル Muse が、近年勢いのある拡散モデルの生成品質を超えたと話題になりました。Muse ではBERT や MAE のようなマスク言語モデル的に画像トークンを生成して高品質・高速な画像生成を実現します。本記事では、この Muse の技術詳細を、その基礎である VQGAN、MAE などもおさらいしながら解説します。

Free Post

コンピュータービジョン

NeurIPS論文賞！拡散モデルを統一的に比較・改善したEDMを解説

日々話題に事欠かさない拡散モデルは、新しい改善手法・論文等が毎日のように発表され、それらを追っていくだけでも大変だとお思いの方も多いでしょう。NeurIPS 2022 の論文賞に輝いた「拡散ベースの生成モデルの設計空間を明らかにする」と題された本論文は、乱立する拡散モデルの「設計空間」を統一的な観点から比較・改善した非常に重要なものですので、本記事で詳細に解説しました。

Free Post

コンピュータービジョン

ビジョントランスフォーマーの視野を改善し精度向上！DiNAとToMeを解説

コンピュータービジョンで高い性能を上げているビジョン・トランスフォーマー (ViT) ですが、計算量が多いという問題があります。そこで最近、ViT の「視野」の取り方を工夫することにより計算量を削減する手法がいくつか提案されました。また、トランスフォーマーの自己注意機構は本当に必要なのか、トランスフォーマー系モデルを「MetaFormer」として一般化して比較検討した最近の傾向についても少し触れます。

Free Post

コンピュータービジョン

画像の次はビデオに進出！テキスト→動画生成の最新手法をまとめて解説

最近何かと話題の「テキスト→画像生成 (text2image)」を発展させ、テキストからの動画生成を実現した「テキスト→動画生成 (text2video)」に関する論文が、Google や Meta から 9 月末から 10 月初頭にかけて立て続けに発表されました。本記事では、それら最新手法の違いに注目しながら、技術をまとめて解説します。

Free Post

機械学習

実務に役立つ！不均衡データ・ロングテール分布の対策を徹底解説

現実世界のデータでは、カテゴリ間のデータ数に偏りのある「不均衡データ」や「ロングテール分布」が頻繁に出現します。このようなデータに対して対策せずに学習すると、希少カテゴリに対して精度が低下したり、モデルが自信過剰になったりする問題が発生します。本記事では、分類や物体検知のデータセットにおいて、カテゴリごとのデータ数に偏りがあるロングテール (long tailed) 分布をもつデータセットの問題とその対応策を、最新の論文から代表的な手法を選び解説します。

Free Post

コンピュータービジョン

シンプルな自己回帰モデルで最高品質の画像生成を実現！ Parti を解説

Google から、自己回帰的トランスフォーマーによってテキストからの画像生成を実現する Parti が発表されました。拡散モデルなどを使っていないシンプルなモデルにもかかわらず、スケール性によってこれまでで最高の生成品質を実現しています。本記事では、この Parti を、技術的な詳細から多手法との比較まで、詳しく解説していきます。

Free Post

コンピュータービジョン

DALL·E 2 を早くも破る！超リアル画像生成モデル Imagen を解説

5 月末に Google から、テキストに忠実かつ非常に写実的な画像を生成できる Imagen が発表されました。最近発表された DALL·E 2 に続き、テキストをもとに画像を生成する「テキスト→画像 (text-to-image)」タスクが急速に発展しています。本記事では、Imagen に採用されている技術の解説を丁寧に紐解いていきます。

Free Post

コンピュータービジョン

モデルに「分からない」ことを出力させる「分布外検出」の最新動向

機械学習アルゴリズムは、時に自信満々に間違えることがよく指摘されています。モデルに「分からない」ことを出力させる「分布外検出」は実用上重要な技術ですが、近年、研究が大きく進んでおり、最近の ICLR 2022 でもいくつか論文が発表されました。本記事では、分布外検出の代表的な手法と最新の論文を紹介します。

Free Post

コンピュータービジョン

正解付きデータセットを自動生成する DatasetGAN は「使える」か

高性能な機械学習モデルを訓練するためには、大規模なデータセットが必要となります。近年では、高品質の画像生成用 GAN を使い、訓練用データセットをアノテーションと共に生成する手法が発表されています。DatasetGAN に代表されるこれらのモデルは実際に「使える」のでしょうか。本記事では、これらの手法を、基礎となるモデルや関連研究も交えながら解説します。

Free Post

コンピュータービジョン

生成品質で DALL·E を超えた！？　拡散モデルによる画像生成の最新動向

テキストから高品質な画像を生成する OpenAI のモデル DALL·E が世間を賑わせて１年ほど経ちます。その間に、データに対するノイズを除去して高品質な画像・テキストを生成する「拡散モデル」も急速に発展し、さらに高品質な画像生成も可能になりました。本記事ではまず、拡散モデルの基礎を簡単におさらいした後、ごく最近発表された拡散モデルに関する論文を３本紹介して解説します。

CV にもマスク型言語モデルの波が！？事前学習手法 MAE・SimMIM を解説

Free Post

コンピュータービジョン

CV にもマスク型言語モデルの波が！？事前学習手法 MAE・SimMIM を解説

BERT に代表されるマスク言語モデルは、自然言語処理において事前学習に広く使われていますが、コンピューター・ビジョン (CV) 分野においても同じような仕組みを使って事前学習するモデルの利用が始まっています。本記事では、最近発表されたマスク型言語モデルのような枠組みで自己教師あり学習する手法を紹介します。

Free Post

コンピュータービジョン

パッチさえあればいい？画像認識・ViT において重要な要素とは【論文速報】

「パッチさえあればいい？」と題された論文が　ICLR 2022 に投稿・公開され話題になっています。ConvMixer と呼ばれる画像のパッチ化と畳み込みに基づいた非常に単純なモデル、MLP や ViT と同等の性能をより少ないパラメータ数で実現しています。本記事では、ConvMixer を論文速報として解説し、画像分類において本当に重要な要素とは何か、について解説します。

Free Post

コンピュータービジョン

ビジョン・トランスフォーマーはなぜCNNより強い？その仕組みを解明【論文速報】

昨年10月にビジョン・トランスフォーマー (ViT) が画像認識にて最高精度を達成して以来、コンピューター・ビジョンの分野を席巻しています。そもそも、ViT の強さはどこにあるのでしょうか？本記事では、Google Research から発表された最近の論文を論文速報として紹介しながら、CNN (ResNet) とビジョン・トランスフォーマーとの違いを探っていきます。