人工知能(AI)・機械学習(ML)の最新動向を論文・国際学会のトレンド等から読み解き、分かりやすく解説します。

ニューラルネットを0と1で決定的に初期化する最新手法ZerOを解説
Free Post
機械学習

ニューラルネットを0と1で決定的に初期化する最新手法ZerOを解説

ニューラルネットの重みの初期化、デフォルトのままで本当に大丈夫か、あまり考えたことも無いという方も多いのではないでしょうか。最適化器やバッチ正規化などの手法の陰に隠れて地味な存在ですが、場合によっては、訓練の収束の成否やスピードに直結する重要な要素でもあります。本記事では、最近発表され話題になった「ニューラルネットを0と1で決定的に初期化する手法 ZerO」を中心に据えながらも、これまで発表されたメジャーな初期化法を順を追って振り返り解説します。

1GPUで1日だけ訓練して高性能「一夜漬け BERT」の秘訣とは
Free Post
自然言語処理

1GPUで1日だけ訓練して高性能「一夜漬け BERT」の秘訣とは

テスト (微調整) の前に、1GPU で1日だけ訓練させて高性能を達成した「一夜漬け (cramming) BERT」が話題です。BERT などの基盤モデルの事前学習には通常、強力な計算資源と長い時間がかかるものですが、本論文はそれを短縮し、個人や中小企業・研究室などでも事前学習を可能にすると期待できます。本記事では、この「一夜漬け BERT」の論文を中心に、その高速・高性能の秘訣をまとめました。

AI 激動の年!2022年の人工知能10大トレンドと必読論文
Free Post
機械学習

AI 激動の年!2022年の人工知能10大トレンドと必読論文

2022年も、人工知能の分野は急速に発展しました。本記事では、最新の深層学習の論文を何百本と読み解いて分かった「2022年の最重要トレンド」を詳細な参考文献と共に紹介します。人工知能の分野は、進歩が早くてキャッチアップが大変ですが、本記事を読めば、大まかなトレンドと重要研究をおさえられるように書きました。なお、厳密には 2022年に発表されたものではなくても、トレンドを理解する上で重要な論文は全て含めるようにしています。

歪んだ空間の使い方: 双曲埋め込み+深層学習の主要研究まとめと最新動向
Free Post
自然言語処理

歪んだ空間の使い方: 双曲埋め込み+深層学習の主要研究まとめと最新動向

自然言語処理を中心に、データをベクトルで表現する埋め込み表現は、深層学習の基礎的な技術として盛んに研究されています。本記事では、歪んだ空間である双曲空間上のベクトルとしてデータを埋め込む手法である「双曲埋め込み (Hyperbolic Embeddings)」を紹介します。まず、双曲埋め込みの代表的な手法である Poincaré Embeddings について周辺技術から解説し、さらに双曲埋め込みの発展的・応用的な手法について解説します。そして最後に、双曲埋め込みと強化学習を組み合わせ、強化学習における状態と行動の階層関係を暗黙的に学習する最新の手法についても紹介します。

NeurIPS論文賞!拡散モデルを統一的に比較・改善したEDMを解説
Free Post
コンピュータービジョン

NeurIPS論文賞!拡散モデルを統一的に比較・改善したEDMを解説

日々話題に事欠かさない拡散モデルは、新しい改善手法・論文等が毎日のように発表され、それらを追っていくだけでも大変だとお思いの方も多いでしょう。NeurIPS 2022 の論文賞に輝いた「拡散ベースの生成モデルの設計空間を明らかにする」と題された本論文は、乱立する拡散モデルの「設計空間」を統一的な観点から比較・改善した非常に重要なものですので、本記事で詳細に解説しました。

ChatGPTのコア技術RLHF(人間フィードバックによる強化学習)を解説
Free Post
自然言語処理

ChatGPTのコア技術RLHF(人間フィードバックによる強化学習)を解説

OpenAI から対話に最適化した最新の言語モデルである ChatGPT が発表され、大きな話題となっています。その中でも、人間による評価と強化学習の技術を使い、言語モデルを人間の指示・嗜好にアラインメントさせる「人間によるフィードバックを用いた強化学習 Reinforcement Learning from Human Feedback (RLHF)」が重要な役割を果たしていると考えられ、注目が集まっています。本記事では、この RLHF の技術を関連論文と共に解説します。

機械学習トップ会議 NeurIPS 2022 のベストペーパー・重要論文を解説
Free Post
機械学習

機械学習トップ会議 NeurIPS 2022 のベストペーパー・重要論文を解説

先週の 11/26〜12/4 にかけて、機械学習系のトップ会議である NeurIPS 2022 がオンラインと現地のハイブリッドで開催されました。発表の分野も多岐に渡るため、その全てを単一の記事でカバーすることは到底できません。本記事では、主に優秀論文賞 (outstanding papers) を受賞した論文の中から、興味深く実用的にも重要なものをピックアップして紹介します。

その訓練法は間違っていた!?進化を続ける言語モデル研究の最新動向
Free Post
自然言語処理

その訓練法は間違っていた!?進化を続ける言語モデル研究の最新動向

急速に研究開発の進む大規模言語モデル分野ですが、「これまでの言語モデルの訓練方法は最適ではなかった」という研究結果が発表され、より少ない計算量で高い性能を上げる言語モデルが開発されています。本記事では、言語モデルのスケール則および指示チューニングなど、言語モデルの性能を最大限に発揮する訓練・チューニング法に関して、重要な論文をピックアップして最新の研究結果を解説します。

ビジョントランスフォーマーの視野を改善し精度向上!DiNAとToMeを解説
Free Post
コンピュータービジョン

ビジョントランスフォーマーの視野を改善し精度向上!DiNAとToMeを解説

コンピュータービジョンで高い性能を上げているビジョン・トランスフォーマー (ViT) ですが、計算量が多いという問題があります。そこで最近、ViT の「視野」の取り方を工夫することにより計算量を削減する手法がいくつか提案されました。また、トランスフォーマーの自己注意機構は本当に必要なのか、トランスフォーマー系モデルを「MetaFormer」として一般化して比較検討した最近の傾向についても少し触れます。

拡散モデルがここにも オーディオ・音楽生成の最新手法を解説
Free Post
音楽情報処理

拡散モデルがここにも オーディオ・音楽生成の最新手法を解説

拡散モデルを使った近年の画像生成 AI の成功を受け、その他の分野にも「拡散モデルの波」が押し寄せています。オーディオ・音楽の生成も例外ではなく、CLIP 的にオーディオとテキストの関連をとらえる「CLAP」や、拡散モデルによって高品質なオーディオ・音楽を生成するモデルなどが次々と発表されています。本記事では、最近発表されたオーディオ・音楽生成モデルの最新動向をまとめました。

拡散モデル・対照学習による高品質なテキスト生成・デコーディング手法の最前線
Free Post
自然言語処理

拡散モデル・対照学習による高品質なテキスト生成・デコーディング手法の最前線

画像生成における成功を受け、テキスト生成にも拡散モデルの応用が急速に進んでいます。従来の GPT のような単方向的な生成の問題点を解決するデコーディング手法も様々なものが開発・実装されています。本記事では、ごく最近発表された多くのテキスト生成・デコーディング手法とトレンドを解説しました。

ビジョン・自然言語における人工データからの事前学習手法の最前線
Free Post
コンピュータービジョン

ビジョン・自然言語における人工データからの事前学習手法の最前線

機械学習モデルの訓練には通常、大量のラベル付き教師データが必要になりますが、このようなデータを作るにはコストがかかり、また著作権やバイアスなどの問題もあります。そのため、実際のデータを使わず、人工データによって代替することにより、機械学習モデルの学習・事前学習を補助する「人工データからの事前学習手法」に関する研究が進んでいます。研究によっては、自然なデータセットを使った場合に匹敵する性能を上げる場合もあったということです。本記事では、ビジョン・自然言語処理における人工データからの事前学習手法をいくつかピックアップして紹介します。

ピクセルベースの NLP!「画像化テキスト」からの言語処理の最前線
Free Post
自然言語処理

ピクセルベースの NLP!「画像化テキスト」からの言語処理の最前線

最近になって、テキストを画像としてレンダリングしたものを入力として言語処理する「画像化テキスト」に関する研究が進んでいます。文字を「見た目」にしたがって処理するため、未知文字や未知語が原理的に出現せず、かつ、これまで見たことのない単語・文字・言語であっても、形から音や意味などを推測できるという利点があります。本記事では、この「画像化テキスト」を処理する手法を、最近発表されたものも含めて紹介します。

画像の次はビデオに進出!テキスト→動画生成の最新手法をまとめて解説
Free Post
コンピュータービジョン

画像の次はビデオに進出!テキスト→動画生成の最新手法をまとめて解説

最近何かと話題の「テキスト→画像生成 (text2image)」を発展させ、テキストからの動画生成を実現した「テキスト→動画生成 (text2video)」に関する論文が、Google や Meta から 9 月末から 10 月初頭にかけて立て続けに発表されました。本記事では、それら最新手法の違いに注目しながら、技術をまとめて解説します。

単語を箱で表現!新たな埋め込み手法 Box Embedding を基礎から理解
Free Post
自然言語処理

単語を箱で表現!新たな埋め込み手法 Box Embedding を基礎から理解

近年、単語をベクトル表現する埋め込み技術が広く用いられていますが、単語を「点」でしか表現できず、概念の広がりや階層関係を表現できないという問題がありました。そこで、データを「箱」などの領域によって表現する埋め込み手法が研究されています。本記事では、データを箱として表現し、ベクトルよりも強力な埋め込みを学習する「Box Embedding」について基礎から丁寧に解説します。

You've successfully subscribed to ステート・オブ・AI ガイド
Great! Next, complete checkout for full access to ステート・オブ・AI ガイド
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.
Success! Your billing info is updated.
Billing info update failed.