コンピュータービジョン

A collection of 47 posts

呪文よ、さらば!画像生成を制御する ControlNet+最新手法を解説
Free Post
コンピュータービジョン

呪文よ、さらば!画像生成を制御する ControlNet+最新手法を解説

最近、拡散モデルに基づいたテキスト条件付き画像生成 (text2image) が大きな注目を集めています。これらの手法では、プロンプト (呪文) で大まかに自分の意図を反映できますが、細かな意図・情報・構成等に基づいて画像を制御するのは至難の業です。ごく最近、ControlNet などをはじめとし、意味領域、輪郭線、人間の関節情報などを使って画像生成を詳細に制御する研究が複数、同時に発表されています。本記事では、テキスト以外の情報によって画像生成をコントロールする最新手法を3種類解説します。

拡散モデルの品質超え!マスクを使い高速に画像生成する Muse を解説
Free Post
コンピュータービジョン

拡散モデルの品質超え!マスクを使い高速に画像生成する Muse を解説

近年では、拡散モデルに基づく画像生成モデルが普及していますが、逐次的であるため生成に時間がかかるという問題があります。最近、Google Research から発表された画像生成モデル Muse が、近年勢いのある拡散モデルの生成品質を超えたと話題になりました。Muse ではBERT や MAE のようなマスク言語モデル的に画像トークンを生成して高品質・高速な画像生成を実現します。本記事では、この Muse の技術詳細を、その基礎である VQGAN、MAE などもおさらいしながら解説します。

NeurIPS論文賞!拡散モデルを統一的に比較・改善したEDMを解説
Free Post
コンピュータービジョン

NeurIPS論文賞!拡散モデルを統一的に比較・改善したEDMを解説

日々話題に事欠かさない拡散モデルは、新しい改善手法・論文等が毎日のように発表され、それらを追っていくだけでも大変だとお思いの方も多いでしょう。NeurIPS 2022 の論文賞に輝いた「拡散ベースの生成モデルの設計空間を明らかにする」と題された本論文は、乱立する拡散モデルの「設計空間」を統一的な観点から比較・改善した非常に重要なものですので、本記事で詳細に解説しました。

ビジョントランスフォーマーの視野を改善し精度向上!DiNAとToMeを解説
Free Post
コンピュータービジョン

ビジョントランスフォーマーの視野を改善し精度向上!DiNAとToMeを解説

コンピュータービジョンで高い性能を上げているビジョン・トランスフォーマー (ViT) ですが、計算量が多いという問題があります。そこで最近、ViT の「視野」の取り方を工夫することにより計算量を削減する手法がいくつか提案されました。また、トランスフォーマーの自己注意機構は本当に必要なのか、トランスフォーマー系モデルを「MetaFormer」として一般化して比較検討した最近の傾向についても少し触れます。

ビジョン・自然言語における人工データからの事前学習手法の最前線
Free Post
コンピュータービジョン

ビジョン・自然言語における人工データからの事前学習手法の最前線

機械学習モデルの訓練には通常、大量のラベル付き教師データが必要になりますが、このようなデータを作るにはコストがかかり、また著作権やバイアスなどの問題もあります。そのため、実際のデータを使わず、人工データによって代替することにより、機械学習モデルの学習・事前学習を補助する「人工データからの事前学習手法」に関する研究が進んでいます。研究によっては、自然なデータセットを使った場合に匹敵する性能を上げる場合もあったということです。本記事では、ビジョン・自然言語処理における人工データからの事前学習手法をいくつかピックアップして紹介します。

ピクセルベースの NLP!「画像化テキスト」からの言語処理の最前線
Free Post
自然言語処理

ピクセルベースの NLP!「画像化テキスト」からの言語処理の最前線

最近になって、テキストを画像としてレンダリングしたものを入力として言語処理する「画像化テキスト」に関する研究が進んでいます。文字を「見た目」にしたがって処理するため、未知文字や未知語が原理的に出現せず、かつ、これまで見たことのない単語・文字・言語であっても、形から音や意味などを推測できるという利点があります。本記事では、この「画像化テキスト」を処理する手法を、最近発表されたものも含めて紹介します。

画像の次はビデオに進出!テキスト→動画生成の最新手法をまとめて解説
Free Post
コンピュータービジョン

画像の次はビデオに進出!テキスト→動画生成の最新手法をまとめて解説

最近何かと話題の「テキスト→画像生成 (text2image)」を発展させ、テキストからの動画生成を実現した「テキスト→動画生成 (text2video)」に関する論文が、Google や Meta から 9 月末から 10 月初頭にかけて立て続けに発表されました。本記事では、それら最新手法の違いに注目しながら、技術をまとめて解説します。

Stable Diffusion を基礎から理解したい人向け論文攻略ガイド【無料記事】
Free Post
コンピュータービジョン

Stable Diffusion を基礎から理解したい人向け論文攻略ガイド【無料記事】

登場してから何かと世間を賑わせている Stable Diffusion。技術的には、過去2年間ほどで研究開発が急速に進んだ「拡散モデル」の応用ですが、どの論文をどのような順番で読んだら良いか困ってしまう方も多いのではないでしょうか。本記事では、この Stable Diffusion の背景となる技術を基礎から理解したい方向けの、必読論文のリストとその概要を紹介します。

言語にも拡散モデル革命か 離散データを生成する「ビット拡散」を解説
Free Post
自然言語処理

言語にも拡散モデル革命か 離散データを生成する「ビット拡散」を解説

最近、テキストから高品質な画像を生成するモデルが世間を賑わせていますが、その多くは「拡散モデル」に基づいています。画像のピクセルなど、連続値データを生成するのは得意な拡散モデルですが、テキストなどの離散データの生成についてはあまり上手く行っていませんでした。最近になって、離散データをビット列として拡散モデルで生成する「ビット拡散」が発表されました。非常にシンプルながら強力な手法であり、今後の発展が望めます。本記事では、このビット拡散を関連研究と共に紹介します。

べき乗則を突破!?少ないデータで高精度モデルを訓練する手法がすごい
Free Post
機械学習

べき乗則を突破!?少ないデータで高精度モデルを訓練する手法がすごい

機械学習モデルの性能は、データ量やモデルサイズなどのスケールに対して、べき乗則 (power law) に従って改善するという「スケール則」が、様々なモデル・データにおいて示されています。最近発表された論文では、このスケール則を突破し、訓練データ内の重要なサンプルを同定することにより、指数関数に従ってより効率的にモデルの性能を改善する手法が発表されています。本記事では、このべき乗則を突破し、少ないデータで高精度モデルを訓練する論文を関連研究と共に紹介します。

画像生成 AI の最前線!拡散モデル・画像生成モデルの最新研究を解説
Free Post
コンピュータービジョン

画像生成 AI の最前線!拡散モデル・画像生成モデルの最新研究を解説

テキストの記述にしたがって高品質な画像を生成する「画像生成 AI」。最近、一般向けのサービスも多く登場し、普及が急速に進んでいますが、指示をテキストで書かなければならず、編集が難しいなどの問題があります。最近の論文では、言語に加えて「物体」「概念」を使って画像を生成したり、プロンプトを使って画像の細かな編集を可能にしたりと、生成される画像の質に加え、その「制御性」に改善を加える方向にシフトしつつある印象です。本記事では、この「テキストからの画像生成」技術に関して、次の発展フロンティアとなる技術を、比較的最近発表された論文から読み解きます。

最新論文から見るビジョン・トランスフォーマー(ViT)の性能向上Tips
Free Post
コンピュータービジョン

最新論文から見るビジョン・トランスフォーマー(ViT)の性能向上Tips

トランスフォーマーを画像分類タスクに適用したビジョン・トランスフォーマー (ViT) は、2020年に提案されて以来、その強力な性能から、画像分類だけでなく、物体検出や領域分割、ビデオの分析など、幅広いコンピューター・ビジョンのタスクで使われています。一方で、大量の事前学習データを必要としたり、データ拡張・正則化を工夫する必要があったりと、訓練にコツが必要でした。発表から2年ほど経ち、「どのように訓練すれば、ViT の性能を最大限発揮できるか」という知見が論文などで発表されてきています。本記事では、比較的新しい論文から、「ViT の性能向上 Tips」に注目し、まとめてみたいと思います。

シンプルな自己回帰モデルで最高品質の画像生成を実現! Parti を解説
Free Post
コンピュータービジョン

シンプルな自己回帰モデルで最高品質の画像生成を実現! Parti を解説

Google から、自己回帰的トランスフォーマーによってテキストからの画像生成を実現する Parti が発表されました。拡散モデルなどを使っていないシンプルなモデルにもかかわらず、スケール性によってこれまでで最高の生成品質を実現しています。本記事では、この Parti を、技術的な詳細から多手法との比較まで、詳しく解説していきます。

DALL·E 2 を早くも破る!超リアル画像生成モデル Imagen を解説
Free Post
コンピュータービジョン

DALL·E 2 を早くも破る!超リアル画像生成モデル Imagen を解説

5 月末に Google から、テキストに忠実かつ非常に写実的な画像を生成できる Imagen が発表されました。最近発表された DALL·E 2 に続き、テキストをもとに画像を生成する「テキスト→画像 (text-to-image)」タスクが急速に発展しています。本記事では、Imagen に採用されている技術の解説を丁寧に紐解いていきます。

深層学習トップ会議 ICLR 2022 のベストペーパー・重要論文まとめ【CV編】
Free Post
コンピュータービジョン

深層学習トップ会議 ICLR 2022 のベストペーパー・重要論文まとめ【CV編】

先月末に、「深層学習のトップ会議」とも言える ICLR 2022 がオンライン上で開催されました。本記事では、この ICLR 2022 から、特に CNN や分類・生成タスクに関するベストペーパー・要チェック論文を厳選して解説します。特に 1) 理論的な裏付けがしっかりしており、2) 実タスクでの性能が良く、かつ、3) 実装が比較的容易、というものを厳選しました。どの論文も興味深く実用性もあり、今後の深層学習に強いインパクトを与えると予測されます。

You've successfully subscribed to ステート・オブ・AI ガイド
Great! Next, complete checkout for full access to ステート・オブ・AI ガイド
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.
Success! Your billing info is updated.
Billing info update failed.