ステート・オブ・AI ガイド

2023 年注目トレンドの一つ！ツール拡張言語モデルの最前線

近年急速に能力を高めている言語モデルですが、事実のでっち上げがあったり最新の出来事に対応できなかったりとまだ課題もあります。これらに対処するため、検索エンジンなどのツールを使えるように言語モデルを拡張する研究が最近注目を集めています。その潜在的な影響力の大きさから、多くの研究者やエンジニアがこの分野に参入し始めています。そのため、ツール拡張された言語モデルは 2023 年の大きな注目技術の一つとなることが予想されます。そこで、本記事ではツール使用に関連する研究のうちいくつかをご紹介します。

Free Post

自然言語処理

「ステート・オブ・AI ガイド」サービス終了のお知らせ

本ブログ「ステート・オブ・AI ガイド」のサービスを 2023 年 3 月 31 日 (金) をもちまして正式に終了させていただくこととなりました。

Free Post

自然言語処理

埋め込みで論理演算！データを確率分布で表す確率埋め込みの最前線

データを「点」ではなく「確率分布」として埋め込む「確率埋め込み」の研究が盛んに行われており、複雑な論理演算を実現できる埋め込み表現として注目が集まっています。本記事では、ガウス分布・ベータ分布・ガンマ分布を用いた確率埋め込みの最新研究を厳選して解説します。

Free Post

自然言語処理

現時点で最高性能・高効率のオープン大規模言語モデル LLaMA を解説

先々週、Meta AI が大規模言語モデル LLaMA (ラマ) を公開しました。大規模言語モデルを構築する最新のテクニックを活用し、OPT や BLOOM などのオープンなモデルはもちろん、GPT-3 や PaLM のようなクローズドなモデルに比べても、多くのタスク・ベンチマークにて優位な性能を達成しています。コードおよびモデルとも研究用のオープンソースとして公開されており、これまでのオープン大規模言語モデルの中では最もインパクトの強いものであると言えそうです。本記事では、この大規模言語モデル LLaMA の学習法や性能などを詳細に解説します。

Free Post

コンピュータービジョン

呪文よ、さらば！画像生成を制御する ControlNet＋最新手法を解説

最近、拡散モデルに基づいたテキスト条件付き画像生成 (text2image) が大きな注目を集めています。これらの手法では、プロンプト (呪文) で大まかに自分の意図を反映できますが、細かな意図・情報・構成等に基づいて画像を制御するのは至難の業です。ごく最近、ControlNet などをはじめとし、意味領域、輪郭線、人間の関節情報などを使って画像生成を詳細に制御する研究が複数、同時に発表されています。本記事では、テキスト以外の情報によって画像生成をコントロールする最新手法を３種類解説します。

Free Post

機械学習

Adamを超える最適化器現る！？自動で発見された最適化器Lionが凄い

AdamW のような最適化器 (オプティマイザー) がほぼ標準として幅広く使われている深層学習界隈にて、それを超える強力な最適化器が現れました。Google Brain は、自動プログラム探索手法を通じて、AdamW よりも高性能かつ効率の良い最適化器 Lion を発見しています。画像認識・生成、自然言語生成などの幅広い実用タスクにおいて、Adam を超えた性能と最適化の効率を達成した、ということです。本記事では、Google Brain から発表された最適化器自動探索アルゴリズムおよびその結果の Lion の論文を解説します。

Minecraftでダイヤモンド初収集！世界モデル最新手法 DreamerV3 を解説【無料記事】

Free Post

強化学習

Minecraftでダイヤモンド初収集！世界モデル最新手法 DreamerV3 を解説【無料記事】

1月の初めごろ、 DeepMind から DreamerV3 という強化学習アルゴリズムが発表されました。このアルゴリズムは、極めて難しいタスクとして知られる Minecraft のダイヤモンド収集タスクを初めてゼロから解くことができたとして話題になりました。更に同アルゴリズムは固定のハイパーパラメータで複数のベンチマークタスクを解けることも論文中で報告されており、注目に値します。本記事ではこの DreamerV3 と、その前作である Dreamer、 DreamerV2 について解説しました。

Free Post

機械学習

次世代のトランスフォーマーを目指して: 状態空間モデル S4 の発展

状態空間モデルに基づき、高性能・高効率に長い系列を処理できることで話題になった S4 の後続研究が続々と登場しています。本記事では、次世代のトランスフォーマーとして有望視される S4 の発展的な研究を厳選して解説します。

Free Post

自然言語処理

ChatGPT研究の最前線！性能評価とAIテキスト自動検出論文のまとめ

最近大きな話題になっている ChatGPT。専門的なタスクであっても高品質な回答を出力できますが、その「回答」は定量的にどの程度正しいのでしょうか。また、大学のエッセイやレポートなどの「代筆」やフェイクニュースの自動生成などの社会問題にもなっていますが、ChatGPT の出力した文章を自動で判別することはできるのでしょうか。この記事では、最近話題を呼んでいる ChatGPT の性能を調査した論文 4 本と、ChatGPT の出力した文章の自動検出手法に関する論文 3 本、合計 7 本解説します。

Free Post

音楽情報処理

2023年に爆発的な進歩！テキストからの音楽・オーディオ生成の最前線

2023年になってまだ１ヶ月ですが、世界中の研究機関から「テキストからの音楽・オーディオ生成」を実現する手法・論文が矢継ぎ早に 10 本以上も発表され、「画像・ChatGPT の次に AI が革命を起こすのは音楽か」と世間を賑わせています。本記事では、2023年に入って最近発表された「音楽・オーディオ生成 AI」の主要な論文・手法をまとめて解説しました。2022年の比べ、高品質・長時間かつテキスト入力に忠実な音楽を生成できるようになっており、進歩の早さは目をみはるものがあります。

Free Post

機械学習

エルボー法はもうやめよう！k-meansのクラスタ数の最適な決め方とは

深層学習が全盛期となった今でも広く使われている k-means のクラスタリング。もし「エルボー法」を使って最適なクラスタ数を決めているとしたら注意が必要です。最近発表され話題になった本論文では、「k-means にエルボー法を使うのはやめよう」という挑発的なタイトルと共に、その問題点やクラスタ数を決めるためのより良い手法などを包括的に調査しています。本記事では、この論文を解説しながら、エルボー法や k-means の問題点、その改善方法などを見ていきましょう。

Free Post

コンピュータービジョン

拡散モデルの品質超え！マスクを使い高速に画像生成する Muse を解説

近年では、拡散モデルに基づく画像生成モデルが普及していますが、逐次的であるため生成に時間がかかるという問題があります。最近、Google Research から発表された画像生成モデル Muse が、近年勢いのある拡散モデルの生成品質を超えたと話題になりました。Muse ではBERT や MAE のようなマスク言語モデル的に画像トークンを生成して高品質・高速な画像生成を実現します。本記事では、この Muse の技術詳細を、その基礎である VQGAN、MAE などもおさらいしながら解説します。

$今年こそ基礎固め！arXiv で読めるML数学・理論の学習リソース10選$

Free Post

機械学習

今年こそ基礎固め！arXiv で読めるML数学・理論の学習リソース10選

機械学習・人工知能の分野では、初心者向けの入門書などは多数ありますが、機械学習の数学や理論などをしっかり学ぼうとすると、「どこから始めたらよいか分からない」という方も多いのではないでしょうか。本記事では、「今年こそ数学・理論の基礎固めをしたい」という方向けに、arXiv で読める無料のリソースの中から、ML数学・理論や、特定のトピックを包括的に学べる教科書、ブックレット、サーベイ論文などを10選まとめました。

Free Post

共同執筆者募集のお知らせ (リモート・副業可・時給６千円〜)

「ステート・オブ・AI ガイド」では、今後も読者の皆様にさらに高品質な記事をコンスタントに届けていくために、共同執筆者を募集しております。

人工知能(AI)・機械学習(ML)の最新動向を論文・国際学会のトレンド等から読み解き、分かりやすく解説します。

2023 年注目トレンドの一つ！ツール拡張言語モデルの最前線

最新・最高性能の大規模言語モデルGPT-4は果たして「AI研究」なのか

「ステート・オブ・AI ガイド」サービス終了のお知らせ

埋め込みで論理演算！データを確率分布で表す確率埋め込みの最前線

現時点で最高性能・高効率のオープン大規模言語モデル LLaMA を解説

呪文よ、さらば！画像生成を制御する ControlNet＋最新手法を解説

Adamを超える最適化器現る！？自動で発見された最適化器Lionが凄い

Minecraftでダイヤモンド初収集！世界モデル最新手法 DreamerV3 を解説【無料記事】

次世代のトランスフォーマーを目指して: 状態空間モデル S4 の発展

ChatGPT研究の最前線！性能評価とAIテキスト自動検出論文のまとめ

2023年に爆発的な進歩！テキストからの音楽・オーディオ生成の最前線

エルボー法はもうやめよう！k-meansのクラスタ数の最適な決め方とは

拡散モデルの品質超え！マスクを使い高速に画像生成する Muse を解説

今年こそ基礎固め！arXiv で読めるML数学・理論の学習リソース10選

共同執筆者募集のお知らせ (リモート・副業可・時給６千円〜)