コンピュータービジョン

A collection of 12 posts

シンプルかつ効果的!深層学習で復活した「自己学習」の最新研究トレンド
Free Post
機械学習

シンプルかつ効果的!深層学習で復活した「自己学習」の最新研究トレンド

モデル自身を使ってラベル無しデータに「疑似正解」を付与、そこから新たなモデルを学習する「自己学習」 (self-training)。近年の深層学習技術の発展に伴って、その有効性を示す研究が画像・言語・音声の全分野で数多く発表されています。本記事では、その「自己学習」の最新の研究トレンドをいくつか紹介したいと思います。

GANを超えた!?画像・音声の「可変レート」表現学習手法が未来すぎる
Free Post
コンピュータービジョン

GANを超えた!?画像・音声の「可変レート」表現学習手法が未来すぎる

意味の密度に応じて、潜在表現の情報量を変化させる「可変レート離散表現」に関する論文が、最近 DeepMind によって立て続けに発表されました。非常に実用的かつ学術的にも興味深い研究だと思いますので、以下で、画像・音声に対する可変レートの潜在表現学習手法をそれぞれ紹介します。

トランスフォーマーが汎用計算エンジンになる?凍結事前学習トランスフォーマーの驚異的な汎化能力
Free Post
機械学習

トランスフォーマーが汎用計算エンジンになる?凍結事前学習トランスフォーマーの驚異的な汎化能力

言語・ビジョン・音声など、様々な分野で大きな成果を上げているトランスフォーマー。言語のみで事前学習されたトランスフォーマーのごく一部を微調整するだけで、画像認識などで驚異的な汎化能力を示すことが分かってきました。本記事では、近年のトランスフォーマーの転移学習・マルチタスク学習に関する論文をいくつか紹介しながら、トレンドを追ってみたいと思います。

【論文速報】OpenAI の超高クオリティ画像生成モデル DALL·E の論文を解説
Free Post
コンピュータービジョン

【論文速報】OpenAI の超高クオリティ画像生成モデル DALL·E の論文を解説

今年2021年1月に、OpenAI から発表された画像生成モデルである「DALL·E (ダリー)」。先日、その技術的詳細を解説した論文が発表されたのにあわせ、本記事では、CLIP などの関連研究などを紹介し、その技術・モデル等の詳細について速報的に解説してみたいと思います。

【論文速報】ついにトランスフォーマーにライバル出現!?次世代の注意機構「ラムダネットワーク」を解説
Free Post
コンピュータービジョン

【論文速報】ついにトランスフォーマーにライバル出現!?次世代の注意機構「ラムダネットワーク」を解説

先週、「ラムダネットワーク」と呼ばれる「次世代の注意機構」とも言える変換機構を持つネットワークが発表されました。注意の重みを計算することなく、効率的に入力を出力に変換できることもあり、各所で話題になっています。本記事では、速報的に、この「ラムダネットワーク」の論文を解説してみたいと思います(今週は2本立てです)。

人工生命と人工知能の融合 ニューラル・セル・オートマトンを使った機械学習の最前線
Free Post
機械学習

人工生命と人工知能の融合 ニューラル・セル・オートマトンを使った機械学習の最前線

ここ1〜2年ほどで、連続値の状態を持ち、微分可能なニューラルネットワークによって状態を更新する「ニューラル・セル・オートマトン (NCA)」に関する研究が進んでいます。生物の成長をシミュレーションしたり、分類・セグメンテーションなど基礎的な機械学習タスクを解くことができるなど非常に興味深い成果が多く出ており、個人的に注目している分野です。この記事では、最近のセル・オートマトン+機械学習の手法をいくつか紹介しながら、人工生命と人工知能の分野の融合を垣間見てみたいと思います。

画像生成にも革命!OpenAI の画像生成モデル DALL·E の技術詳細に迫る
Free Post
コンピュータービジョン

画像生成にも革命!OpenAI の画像生成モデル DALL·E の技術詳細に迫る

先週、OpenAI から 「DALL·E (ダリー)」と呼ばれる、言語から画像を生成する画像生成モデルが発表されました。ネットでは、「テキストから高クオリティの画像を生成できる」という点が特に取り沙汰されている印象ですが、その技術的詳細については、論文がまだ公表されていないこともあって、あまり議論されていません。本記事では、公式の記事や、CLIP などの関連研究などを紹介し、その技術・モデル等の詳細について速報的に解説してみたいと思います。

機械学習トップ会議 NeurIPS 2020 から見るデータ拡張・教師なし表現学習のトレンド
Free Post
機械学習

機械学習トップ会議 NeurIPS 2020 から見るデータ拡張・教師なし表現学習のトレンド

先々週の 12/7〜12/12 にかけて、機械学習系のトップ会議である NeurIPS 2020 がオンラインで開催されました。発表の分野も多岐に渡るため、その全てを単一の記事でカバーすることは到底できません。本記事では、発表された論文の中から、現時点での引用数などを参考にしながら、重要な論文、特に、データ拡張および半教師あり学習に関する重要論文をいくつか取り上げ解説してみたいと思います。

説明可能な人工知能(XAI)とは?機械学習のモデルを説明・解釈する最新手法まとめ
Free Post
機械学習

説明可能な人工知能(XAI)とは?機械学習のモデルを説明・解釈する最新手法まとめ

近年、ニューラルネットワークに基づく大規模な深層学習モデルの普及によって、機械学習の様々なタスクにおいて非常に高い性能が達成されています。一方、これらのモデルは、伝統的な線形回帰や決定木などのモデルと比べて、どのような仕組みで予測が出力されているかが分かりにくい「ブラックボックス化」しているという問題があります。最近、NeurIPS、ACL などのトップ会議において、この「説明可能な人工知能」に関するチュートリアル講義が相次いで開催されました。本記事では、これらのチュートリアルから厳選した、「押さえておくべき説明・解釈手法」をいくつかご紹介します。

人工知能の次のフロンティアとは?視覚×言語研究の最新動向
Free Post
コンピュータービジョン

人工知能の次のフロンティアとは?視覚×言語研究の最新動向

大量のテキストから事前学習した BERT や GPT-3 などの事前学習モデルに関する研究が話題ですが、人間の言語理解には、視覚・聴覚などとの相互作用、身体性・社会性が非常に重要です。この記事では、近年注目が高まっているマルチモーダル自然言語処理、特にその中でも、視覚×言語の最新の研究をいくつか取り上げ、紹介してみたいと思います。

「論文は読むな」画像×AIの専門家から初心者へのアドバイス
Free Post
コンピュータービジョン

「論文は読むな」画像×AIの専門家から初心者へのアドバイス

Deeplearning.ai において、敵対的生成ネットワーク (GAN) の専攻コースが9月末にローンチされました。コースのローンチにあわせて、「GANs for Good」(社会のための GAN)と題されたバーチャルセミナー・パネルディスカッションが行われました。「GAN の生みの親」Ian Goodfellow 氏をはじめ、画像×AI の分野で著名なそうそうたるメンバーからの講演とパネルディスカッションがありました。以下では、抄訳とともに紹介したいと思います。

画像・テキストに対する教師なし翻訳・スタイル変換はなぜうまく行くのか?その2つの秘訣
Free Post
コンピュータービジョン

画像・テキストに対する教師なし翻訳・スタイル変換はなぜうまく行くのか?その2つの秘訣

近年では、敵対的生成ネットワーク (GAN) などの関連技術の発展にともない、画像やテキストの生成技術が急速に発展し、生成の質も向上しています。本記事では、教師なしスタイル変換・翻訳の関連研究を、画像・言語(テキスト)の両分野に注目しながら追ってみたいと思います。対応付けのある訓練データを使わずに変換モデルを学習するという、一見、不可能そうに思えるこの問題がある程度うまく解けるのはどうしてなのでしょうか?トレンドを追っていくと、これらの手法の共通のキーとなるアイデアが浮かび上がってきます。

You've successfully subscribed to ステート・オブ・AI ガイド
Great! Next, complete checkout for full access to ステート・オブ・AI ガイド
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.
Success! Your billing info is updated.
Billing info update failed.