藤井 亮宏

藤井 亮宏

大阪大学大学院理学研究科物理学専攻博士前期課程修了。大学時代の専門は第一原理計算。その後(株)村田製作所にて通信モジュールのパッケージ材料開発に従事。2017年11月より、(株)エクサウィザーズにて、機械学習エンジニアとして従事する。また、ブログやTwitterで機械学習に関する情報をほぼ毎日発信したり、機械学習勉強会の開催/参加を積極的に行い、機械学習コミュニティの発展に貢献している。

8 posts
シンプルな自己回帰モデルで最高品質の画像生成を実現! Parti を解説
Free Post
コンピュータービジョン

シンプルな自己回帰モデルで最高品質の画像生成を実現! Parti を解説

Google から、自己回帰的トランスフォーマーによってテキストからの画像生成を実現する Parti が発表されました。拡散モデルなどを使っていないシンプルなモデルにもかかわらず、スケール性によってこれまでで最高の生成品質を実現しています。本記事では、この Parti を、技術的な詳細から多手法との比較まで、詳しく解説していきます。

DALL·E 2 を早くも破る!超リアル画像生成モデル Imagen を解説
Free Post
コンピュータービジョン

DALL·E 2 を早くも破る!超リアル画像生成モデル Imagen を解説

5 月末に Google から、テキストに忠実かつ非常に写実的な画像を生成できる Imagen が発表されました。最近発表された DALL·E 2 に続き、テキストをもとに画像を生成する「テキスト→画像 (text-to-image)」タスクが急速に発展しています。本記事では、Imagen に採用されている技術の解説を丁寧に紐解いていきます。

モデルに「分からない」ことを出力させる「分布外検出」の最新動向
Free Post
コンピュータービジョン

モデルに「分からない」ことを出力させる「分布外検出」の最新動向

機械学習アルゴリズムは、時に自信満々に間違えることがよく指摘されています。モデルに「分からない」ことを出力させる「分布外検出」は実用上重要な技術ですが、近年、研究が大きく進んでおり、最近の ICLR 2022 でもいくつか論文が発表されました。本記事では、分布外検出の代表的な手法と最新の論文を紹介します。

正解付きデータセットを自動生成する DatasetGAN は「使える」か
Free Post
コンピュータービジョン

正解付きデータセットを自動生成する DatasetGAN は「使える」か

高性能な機械学習モデルを訓練するためには、大規模なデータセットが必要となります。近年では、高品質の画像生成用 GAN を使い、訓練用データセットをアノテーションと共に生成する手法が発表されています。DatasetGAN に代表されるこれらのモデルは実際に「使える」のでしょうか。本記事では、これらの手法を、基礎となるモデルや関連研究も交えながら解説します。

生成品質で DALL·E を超えた!? 拡散モデルによる画像生成の最新動向
Free Post
コンピュータービジョン

生成品質で DALL·E を超えた!? 拡散モデルによる画像生成の最新動向

テキストから高品質な画像を生成する OpenAI のモデル DALL·E が 世間を賑わせて1年ほど経ちます。その間に、データに対するノイズを除去して高品質な画像・テキストを生成する「拡散モデル」も急速に発展し、さらに高品質な画像生成も可能になりました。本記事ではまず、拡散モデルの基礎を簡単におさらいした後、ごく最近発表された拡散モデルに関する論文を3本紹介して解説します。

CV にもマスク型言語モデルの波が!?事前学習手法 MAE・SimMIM を解説
Free Post
コンピュータービジョン

CV にもマスク型言語モデルの波が!?事前学習手法 MAE・SimMIM を解説

BERT に代表されるマスク言語モデルは、自然言語処理において事前学習に広く使われていますが、コンピューター・ビジョン (CV) 分野においても同じような仕組みを使って事前学習するモデルの利用が始まっています。本記事では、最近発表されたマスク型言語モデルのような枠組みで自己教師あり学習する手法を紹介します。

パッチさえあればいい?画像認識・ViT において重要な要素とは【論文速報】
Free Post
コンピュータービジョン

パッチさえあればいい?画像認識・ViT において重要な要素とは【論文速報】

「パッチさえあればいい?」と題された論文が ICLR 2022 に投稿・公開され話題になっています。ConvMixer と呼ばれる画像のパッチ化と畳み込みに基づいた非常に単純なモデル、MLP や ViT と同等の性能をより少ないパラメータ数で実現しています。本記事では、ConvMixer を論文速報として解説し、画像分類において本当に重要な要素とは何か、について解説します。

ビジョン・トランスフォーマーはなぜCNNより強い?その仕組みを解明【論文速報】
Free Post
コンピュータービジョン

ビジョン・トランスフォーマーはなぜCNNより強い?その仕組みを解明【論文速報】

昨年10月にビジョン・トランスフォーマー (ViT) が画像認識にて最高精度を達成して以来、コンピューター・ビジョンの分野を席巻しています。そもそも、ViT の強さはどこにあるのでしょうか?本記事では、Google Research から発表された最近の論文を論文速報として紹介しながら、CNN (ResNet) とビジョン・トランスフォーマーとの違いを探っていきます。

You've successfully subscribed to ステート・オブ・AI ガイド
Great! Next, complete checkout for full access to ステート・オブ・AI ガイド
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.
Success! Your billing info is updated.
Billing info update failed.