機械学習

A collection of 80 posts

Adamを超える最適化器現る!?自動で発見された最適化器Lionが凄い
Free Post
機械学習

Adamを超える最適化器現る!?自動で発見された最適化器Lionが凄い

AdamW のような最適化器 (オプティマイザー) がほぼ標準として幅広く使われている深層学習界隈にて、それを超える強力な最適化器が現れました。Google Brain は、自動プログラム探索手法を通じて、AdamW よりも高性能かつ効率の良い最適化器 Lion を発見しています。画像認識・生成、自然言語生成などの幅広い実用タスクにおいて、Adam を超えた性能と最適化の効率を達成した、ということです。本記事では、Google Brain から発表された最適化器自動探索アルゴリズムおよびその結果の Lion の論文を解説します。

エルボー法はもうやめよう!k-meansのクラスタ数の最適な決め方とは
Free Post
機械学習

エルボー法はもうやめよう!k-meansのクラスタ数の最適な決め方とは

深層学習が全盛期となった今でも広く使われている k-means のクラスタリング。もし「エルボー法」を使って最適なクラスタ数を決めているとしたら注意が必要です。最近発表され話題になった本論文では、「k-means にエルボー法を使うのはやめよう」という挑発的なタイトルと共に、その問題点やクラスタ数を決めるためのより良い手法などを包括的に調査しています。本記事では、この論文を解説しながら、エルボー法や k-means の問題点、その改善方法などを見ていきましょう。

今年こそ基礎固め!arXiv で読めるML数学・理論の学習リソース10選
Free Post
機械学習

今年こそ基礎固め!arXiv で読めるML数学・理論の学習リソース10選

機械学習・人工知能の分野では、初心者向けの入門書などは多数ありますが、機械学習の数学や理論などをしっかり学ぼうとすると、「どこから始めたらよいか分からない」という方も多いのではないでしょうか。本記事では、「今年こそ数学・理論の基礎固めをしたい」という方向けに、arXiv で読める無料のリソースの中から、ML数学・理論や、特定のトピックを包括的に学べる教科書、ブックレット、サーベイ論文などを10選まとめました。

ニューラルネットを0と1で決定的に初期化する最新手法ZerOを解説
Free Post
機械学習

ニューラルネットを0と1で決定的に初期化する最新手法ZerOを解説

ニューラルネットの重みの初期化、デフォルトのままで本当に大丈夫か、あまり考えたことも無いという方も多いのではないでしょうか。最適化器やバッチ正規化などの手法の陰に隠れて地味な存在ですが、場合によっては、訓練の収束の成否やスピードに直結する重要な要素でもあります。本記事では、最近発表され話題になった「ニューラルネットを0と1で決定的に初期化する手法 ZerO」を中心に据えながらも、これまで発表されたメジャーな初期化法を順を追って振り返り解説します。

1GPUで1日だけ訓練して高性能「一夜漬け BERT」の秘訣とは
Free Post
自然言語処理

1GPUで1日だけ訓練して高性能「一夜漬け BERT」の秘訣とは

テスト (微調整) の前に、1GPU で1日だけ訓練させて高性能を達成した「一夜漬け (cramming) BERT」が話題です。BERT などの基盤モデルの事前学習には通常、強力な計算資源と長い時間がかかるものですが、本論文はそれを短縮し、個人や中小企業・研究室などでも事前学習を可能にすると期待できます。本記事では、この「一夜漬け BERT」の論文を中心に、その高速・高性能の秘訣をまとめました。

AI 激動の年!2022年の人工知能10大トレンドと必読論文
Free Post
機械学習

AI 激動の年!2022年の人工知能10大トレンドと必読論文

2022年も、人工知能の分野は急速に発展しました。本記事では、最新の深層学習の論文を何百本と読み解いて分かった「2022年の最重要トレンド」を詳細な参考文献と共に紹介します。人工知能の分野は、進歩が早くてキャッチアップが大変ですが、本記事を読めば、大まかなトレンドと重要研究をおさえられるように書きました。なお、厳密には 2022年に発表されたものではなくても、トレンドを理解する上で重要な論文は全て含めるようにしています。

歪んだ空間の使い方: 双曲埋め込み+深層学習の主要研究まとめと最新動向
Free Post
自然言語処理

歪んだ空間の使い方: 双曲埋め込み+深層学習の主要研究まとめと最新動向

自然言語処理を中心に、データをベクトルで表現する埋め込み表現は、深層学習の基礎的な技術として盛んに研究されています。本記事では、歪んだ空間である双曲空間上のベクトルとしてデータを埋め込む手法である「双曲埋め込み (Hyperbolic Embeddings)」を紹介します。まず、双曲埋め込みの代表的な手法である Poincaré Embeddings について周辺技術から解説し、さらに双曲埋め込みの発展的・応用的な手法について解説します。そして最後に、双曲埋め込みと強化学習を組み合わせ、強化学習における状態と行動の階層関係を暗黙的に学習する最新の手法についても紹介します。

NeurIPS論文賞!拡散モデルを統一的に比較・改善したEDMを解説
Free Post
コンピュータービジョン

NeurIPS論文賞!拡散モデルを統一的に比較・改善したEDMを解説

日々話題に事欠かさない拡散モデルは、新しい改善手法・論文等が毎日のように発表され、それらを追っていくだけでも大変だとお思いの方も多いでしょう。NeurIPS 2022 の論文賞に輝いた「拡散ベースの生成モデルの設計空間を明らかにする」と題された本論文は、乱立する拡散モデルの「設計空間」を統一的な観点から比較・改善した非常に重要なものですので、本記事で詳細に解説しました。

機械学習トップ会議 NeurIPS 2022 のベストペーパー・重要論文を解説
Free Post
機械学習

機械学習トップ会議 NeurIPS 2022 のベストペーパー・重要論文を解説

先週の 11/26〜12/4 にかけて、機械学習系のトップ会議である NeurIPS 2022 がオンラインと現地のハイブリッドで開催されました。発表の分野も多岐に渡るため、その全てを単一の記事でカバーすることは到底できません。本記事では、主に優秀論文賞 (outstanding papers) を受賞した論文の中から、興味深く実用的にも重要なものをピックアップして紹介します。

最強の S4 早くも破る!移動平均ベース最新深層モデル MEGA を解説
Free Post
機械学習

最強の S4 早くも破る!移動平均ベース最新深層モデル MEGA を解説

「最強の系列モデル」と話題になった S4 を早くも破るモデルが登場しています。移動平均とゲート機構をベースとした最新深層モデル「MEGA」、トランスフォーマーよりも高速・省メモリであり、長距離モデリング、言語モデル・機械翻訳、音声・画像分類などでことごとく従来モデルを抜いて最高性能を達成しています。本記事では、ゲート機構・GLU の基礎から始め、この MEGA の技術詳細を解説しました。

実務に役立つ!不均衡データ・ロングテール分布の対策を徹底解説
Free Post
機械学習

実務に役立つ!不均衡データ・ロングテール分布の対策を徹底解説

現実世界のデータでは、カテゴリ間のデータ数に偏りのある「不均衡データ」や「ロングテール分布」が頻繁に出現します。このようなデータに対して対策せずに学習すると、希少カテゴリに対して精度が低下したり、モデルが自信過剰になったりする問題が発生します。本記事では、分類や物体検知のデータセットにおいて、カテゴリごとのデータ数に偏りがあるロングテール (long tailed) 分布をもつデータセットの問題とその対応策を、最新の論文から代表的な手法を選び解説します。

生産性に直結!効果的なハイパーパラメータ最適化の10のアドバイス
Free Post
機械学習

生産性に直結!効果的なハイパーパラメータ最適化の10のアドバイス

機械学習に携わる方であれば、「ハイパーパラメータ最適化」がいかに性能に影響し、いかに多くの時間がかかるか、身をもって体験されている方も多いのではないでしょうか。人手によってチューニングされる場合も多く、「職人芸」ともされるパラメータ最適化ですが、徐々に、最適な最適化手法や、ベスト・プラクティスに関する知見が共有されています。本記事では、機械学習開発で避けて通れない「ハイパーパラメータ最適化」を効果的に行うためのアドバイスを、論文・関連文献などからまとめました。

べき乗則を突破!?少ないデータで高精度モデルを訓練する手法がすごい
Free Post
機械学習

べき乗則を突破!?少ないデータで高精度モデルを訓練する手法がすごい

機械学習モデルの性能は、データ量やモデルサイズなどのスケールに対して、べき乗則 (power law) に従って改善するという「スケール則」が、様々なモデル・データにおいて示されています。最近発表された論文では、このスケール則を突破し、訓練データ内の重要なサンプルを同定することにより、指数関数に従ってより効率的にモデルの性能を改善する手法が発表されています。本記事では、このべき乗則を突破し、少ないデータで高精度モデルを訓練する論文を関連研究と共に紹介します。

陰の立役者 VQ-VAE が強力に!新・量子化モデル SQ-VAE を完全解説
Free Post
機械学習

陰の立役者 VQ-VAE が強力に!新・量子化モデル SQ-VAE を完全解説

画像や音声などの連続値データを、離散的な潜在変数の系列で表現する VQ-VAE。トランスフォーマーと並んで、近年の AI 分野において最も重要な技術の一つであると言っても過言ではありませんが、訓練が難しく、うまく使うために様々なテクニックが必要でした。最近、Sony から、「確率的な量子化処理」を取り入れた SQ-VAE が発表されました。訓練のためのテクニックが必要なく、コードブック使用率を高め、より質の高い生成ができるなど、今後のインパクトが期待できます。本記事では、この SQ-VAE を、VAE や VQ-VAE の基礎までさかのぼって解説します。

You've successfully subscribed to ステート・オブ・AI ガイド
Great! Next, complete checkout for full access to ステート・オブ・AI ガイド
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.
Success! Your billing info is updated.
Billing info update failed.