自然言語処理

A collection of 64 posts

その訓練法は間違っていた!?進化を続ける言語モデル研究の最新動向
Free Post
自然言語処理

その訓練法は間違っていた!?進化を続ける言語モデル研究の最新動向

急速に研究開発の進む大規模言語モデル分野ですが、「これまでの言語モデルの訓練方法は最適ではなかった」という研究結果が発表され、より少ない計算量で高い性能を上げる言語モデルが開発されています。本記事では、言語モデルのスケール則および指示チューニングなど、言語モデルの性能を最大限に発揮する訓練・チューニング法に関して、重要な論文をピックアップして最新の研究結果を解説します。

拡散モデル・対照学習による高品質なテキスト生成・デコーディング手法の最前線
Free Post
自然言語処理

拡散モデル・対照学習による高品質なテキスト生成・デコーディング手法の最前線

画像生成における成功を受け、テキスト生成にも拡散モデルの応用が急速に進んでいます。従来の GPT のような単方向的な生成の問題点を解決するデコーディング手法も様々なものが開発・実装されています。本記事では、ごく最近発表された多くのテキスト生成・デコーディング手法とトレンドを解説しました。

ビジョン・自然言語における人工データからの事前学習手法の最前線
Free Post
コンピュータービジョン

ビジョン・自然言語における人工データからの事前学習手法の最前線

機械学習モデルの訓練には通常、大量のラベル付き教師データが必要になりますが、このようなデータを作るにはコストがかかり、また著作権やバイアスなどの問題もあります。そのため、実際のデータを使わず、人工データによって代替することにより、機械学習モデルの学習・事前学習を補助する「人工データからの事前学習手法」に関する研究が進んでいます。研究によっては、自然なデータセットを使った場合に匹敵する性能を上げる場合もあったということです。本記事では、ビジョン・自然言語処理における人工データからの事前学習手法をいくつかピックアップして紹介します。

ピクセルベースの NLP!「画像化テキスト」からの言語処理の最前線
Free Post
自然言語処理

ピクセルベースの NLP!「画像化テキスト」からの言語処理の最前線

最近になって、テキストを画像としてレンダリングしたものを入力として言語処理する「画像化テキスト」に関する研究が進んでいます。文字を「見た目」にしたがって処理するため、未知文字や未知語が原理的に出現せず、かつ、これまで見たことのない単語・文字・言語であっても、形から音や意味などを推測できるという利点があります。本記事では、この「画像化テキスト」を処理する手法を、最近発表されたものも含めて紹介します。

単語を箱で表現!新たな埋め込み手法 Box Embedding を基礎から理解
Free Post
自然言語処理

単語を箱で表現!新たな埋め込み手法 Box Embedding を基礎から理解

近年、単語をベクトル表現する埋め込み技術が広く用いられていますが、単語を「点」でしか表現できず、概念の広がりや階層関係を表現できないという問題がありました。そこで、データを「箱」などの領域によって表現する埋め込み手法が研究されています。本記事では、データを箱として表現し、ベクトルよりも強力な埋め込みを学習する「Box Embedding」について基礎から丁寧に解説します。

GPT-3 レベルが無料!オープンな大規模言語モデル開発の最新動向
Free Post
自然言語処理

GPT-3 レベルが無料!オープンな大規模言語モデル開発の最新動向

最近になって、オープンなライセンスで利用できる「GPT-3 レベル」の大規模言語モデルが次々と公開されています。これまでは、モデルが公開されなかったり、有料 API でしか利用できなかったりという場合が多かったのですが、今後、言語モデルの研究・利用の敷居がずっと下がりそうです。本記事では、最近の大規模言語モデル開発の動向をまとめました。

言語にも拡散モデル革命か 離散データを生成する「ビット拡散」を解説
Free Post
自然言語処理

言語にも拡散モデル革命か 離散データを生成する「ビット拡散」を解説

最近、テキストから高品質な画像を生成するモデルが世間を賑わせていますが、その多くは「拡散モデル」に基づいています。画像のピクセルなど、連続値データを生成するのは得意な拡散モデルですが、テキストなどの離散データの生成についてはあまり上手く行っていませんでした。最近になって、離散データをビット列として拡散モデルで生成する「ビット拡散」が発表されました。非常にシンプルながら強力な手法であり、今後の発展が望めます。本記事では、このビット拡散を関連研究と共に紹介します。

JAX/Flax と TPU を使って大規模言語モデルを爆速で訓練するチュートリアル
Free Post
自然言語処理

JAX/Flax と TPU を使って大規模言語モデルを爆速で訓練するチュートリアル

「第3の深層学習ライブラリ」として、2年ほど前から徐々に普及が進んでいる JAX/Flax。昨年、本ブログで記事として取り上げてからも、様々な学習資料が公開されたり、実際の機械学習モデルの訓練に採用されたりと、普及が進んでいます。本記事では、基礎を簡単におさらいした後、JAX/Flax と TPU を使い、「日本語の大規模言語モデル」を高速に訓練する方法をチュートリアル形式で解説します。

新たなタイプの自然言語処理!言語モデルを賢く使うテクニック10選
Free Post
自然言語処理

新たなタイプの自然言語処理!言語モデルを賢く使うテクニック10選

GPT-3 などの大規模・汎用言語モデルの出現によって、自然言語処理においてタスクを解くやり方にも変化が生じています。タスクやドメインごとにモデル・手法を工夫するかわりに、プロンプトとしてどのように指示を与えるか、言語モデルとどのようにやりとりするか、という点に焦点が移っています。本記事では、言語モデルを使って、数値計算・論理推論などの複雑な問題を、より精度高く解かせるための手法に関する研究およびトレンドを、ごく最近発表された論文も含め10個ほど紹介します。

最新の機械翻訳技術の総集編!Googleが1,000言語を訳せる秘密とは
Free Post
自然言語処理

最新の機械翻訳技術の総集編!Googleが1,000言語を訳せる秘密とは

機械翻訳がまだ対応できない「次の 1,000 言語」を翻訳できるニューラル機械翻訳システムを構築するには?最近 Google から発表された論文では、超多言語モデリングと近年のニューラル機械翻訳の技術を駆使し、グーグル翻訳に低資源言語を追加するプロセスが詳細に解説されています。近年の深層機械翻訳に関する有用なテクニックの総集編としても読め、機械翻訳に関わる人以外にもオススメです。

単純かつ効果的!訓練順序を工夫する「カリキュラム学習」とNLP応用
Free Post
機械学習

単純かつ効果的!訓練順序を工夫する「カリキュラム学習」とNLP応用

人間が学習するように、難易度に応じてデータを提示する順序を工夫する「カリキュラム学習」、シンプルかつ効果的な方法として研究が進んでいます。本記事では、カリキュラム学習の基礎をおさらいした後、自然言語処理における代表的な応用例 (機械翻訳、音声翻訳、自然言語理解、チャットボット) を幅広く紹介・解説します。

自然言語処理トップ会議 ACL 2022 から厳選!要チェック論文まとめ
Free Post
自然言語処理

自然言語処理トップ会議 ACL 2022 から厳選!要チェック論文まとめ

先週 (5月22日〜27日)、自然言語処理のトップ会議である ACL 2022 がオンラインおよび対面のハイブリッド形式で開催されました。本記事では、ACL 2022 の論文の中から、現時点での引用数や、幅広い研究や開発に役立つかどうかなど、私の主観なども混ぜながら、要チェック論文を選んで解説しました。

深層学習トップ会議 ICLR 2022 の要注目論文まとめ【NLP/ML一般編】
Free Post
機械学習

深層学習トップ会議 ICLR 2022 の要注目論文まとめ【NLP/ML一般編】

先月末、「深層学習のトップ会議」とも言える ICLR 2022 がオンライン上で開催されました。本ブログでは、全 1,095 本の採択論文の中から要チェック論文を厳選し、2週間に分けて紹介します。今週は 自然言語処理 (NLP) と機械学習全般に関する論文です。いずれの論文も、新しい概念を提案する挑戦的なものや、実務に使える実用的なものを中心に厳選しました。

ついに出た!Googleによる最強・最大の言語モデル PaLM を解説【論文速報】
Free Post
自然言語処理

ついに出た!Googleによる最強・最大の言語モデル PaLM を解説【論文速報】

Google から、超大規模言語モデル PaLM (「パーム」、Pathways Language Model) が発表されました。パラメータ数 540B (5400億) の本モデル、現段階で「最強・最大の言語モデル」と言っても過言ではなく、言語理解、コーディングタスク、多言語タスクなど、様々な分野で最高性能 (SOTA) を軒並み達成しています。本論文、付録 (appendix) を除いた論文の本体だけで 62 ページもある大作なので読むのも大変なのですが、本記事では、その中でも重要な要点をかいつまんで紹介します。

NLPでトランスフォーマーを超えた!? 多層パーセプトロン研究の最前線
Free Post
自然言語処理

NLPでトランスフォーマーを超えた!? 多層パーセプトロン研究の最前線

昨年から活発に研究されている多層パーセプトロン (MLP) モデル。自然言語処理 (NLP) の分野ではあまり性能が振るいませんでしたが、最近になって、NLP タスクでも「トランスフォーマー超え」を達成するモデルが立て続けに発表されています。本記事では、最近発表された期待の MLP モデル、HyperMixer と sMLP を解説します。

You've successfully subscribed to ステート・オブ・AI ガイド
Great! Next, complete checkout for full access to ステート・オブ・AI ガイド
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.
Success! Your billing info is updated.
Billing info update failed.