萩原 正人

萩原 正人

Google、MSR、バイドゥ、楽天技術研究所NY、Duolingo など、日中米の多くのテック大手等において、研究者・エンジニアとして自然言語処理・機械学習の研究開発に携わる。2019年にフリーランスとして独立し、教育応用・アジア言語処理を専門とする AI 研究所 Octanove Labs を設立。機械翻訳や教育応用の分野にて、世界トップレベルの研究機関等と共に数多くのプロジェクトに携わる

Seattle, WA, USA
143 posts
Website Twitter
日本語処理にも革命!?分かち書きをせず高品質な事前学習を実現する CANINE がすごい 【論文速報】
Free Post
自然言語処理

日本語処理にも革命!?分かち書きをせず高品質な事前学習を実現する CANINE がすごい 【論文速報】

自然言語処理において避けては通れない前処理である「分かち書き」を全くすることなしに、高品質な事前学習言語モデルを訓練する CANINE (ケイナイン) という手法に関する論文が発表されました。「これからの日本語処理のやり方を根本的に変えてしまうかもしれない」とあまりに衝撃を受けたので、論文速報として解説したいと思います。

人気急上昇中!自然言語処理における対照学習の最前線
Free Post
自然言語処理

人気急上昇中!自然言語処理における対照学習の最前線

データの類似・非類似関係を使って自己学習する手法である対照学習。画像認識などの分野において近年急速に応用が進んでいますが、自然言語処理における応用も、ここ1〜2年で活発に研究されています。本記事では、ごく最近提案された主な対照学習+自然言語処理の手法を取り上げて解説します。

【論文速報】ついにトランスフォーマーにライバル出現!?次世代の注意機構「ラムダネットワーク」を解説
Free Post
コンピュータービジョン

【論文速報】ついにトランスフォーマーにライバル出現!?次世代の注意機構「ラムダネットワーク」を解説

先週、「ラムダネットワーク」と呼ばれる「次世代の注意機構」とも言える変換機構を持つネットワークが発表されました。注意の重みを計算することなく、効率的に入力を出力に変換できることもあり、各所で話題になっています。本記事では、速報的に、この「ラムダネットワーク」の論文を解説してみたいと思います(今週は2本立てです)。

【論文速報】OpenAI の超高クオリティ画像生成モデル DALL·E の論文を解説
Free Post
コンピュータービジョン

【論文速報】OpenAI の超高クオリティ画像生成モデル DALL·E の論文を解説

今年2021年1月に、OpenAI から発表された画像生成モデルである「DALL·E (ダリー)」。先日、その技術的詳細を解説した論文が発表されたのにあわせ、本記事では、CLIP などの関連研究などを紹介し、その技術・モデル等の詳細について速報的に解説してみたいと思います。

人工生命と人工知能の融合 ニューラル・セル・オートマトンを使った機械学習の最前線
Free Post
機械学習

人工生命と人工知能の融合 ニューラル・セル・オートマトンを使った機械学習の最前線

ここ1〜2年ほどで、連続値の状態を持ち、微分可能なニューラルネットワークによって状態を更新する「ニューラル・セル・オートマトン (NCA)」に関する研究が進んでいます。生物の成長をシミュレーションしたり、分類・セグメンテーションなど基礎的な機械学習タスクを解くことができるなど非常に興味深い成果が多く出ており、個人的に注目している分野です。この記事では、最近のセル・オートマトン+機械学習の手法をいくつか紹介しながら、人工生命と人工知能の分野の融合を垣間見てみたいと思います。

フローベースの深層生成モデルと音声合成の最前線
Free Post
機械学習

フローベースの深層生成モデルと音声合成の最前線

近似なしで潜在変数や対数尤度を正確に推定可能、対数尤度を最大化させることで学習ができる、逆変換ができる、など、様々な特徴を持つフローベースの生成モデル。GAN や VAE などの他のモデルほど有名ではありませんが、近年研究が進み、Glow (Kingma and Dhariwal 2018) のように高品質な画像が生成できるようになるなど、注目され始めています。本記事では、フローベースの深層生成モデルと、フローを利用した音声合成モデルの最新の研究を追ってみたいと思います。

ついにパラメータ1兆個超え!スイッチ・トランスフォーマーと混合エキスパートモデルを完全解説
Free Post
自然言語処理

ついにパラメータ1兆個超え!スイッチ・トランスフォーマーと混合エキスパートモデルを完全解説

2021年1月に発表された「スイッチ・トランスフォーマー」の論文、「ついにパラメータが1兆個超え」ということで話題になったのが記憶に新しいかもしれません。本記事では、そのスイッチ・トランスフォーマーの論文を、前身となった混合エキスパート (MoE) モデルにさかのぼって解説したいと思います。

マルチリンガル自然言語処理が幅広く学べる カーネギーメロン大講義がオススメ
Free Post
自然言語処理

マルチリンガル自然言語処理が幅広く学べる カーネギーメロン大講義がオススメ

昨年の5月に、低リソース自然言語処理ブートキャンプが開催されました。カーネギーメロン大の一線の研究者による、低リソース自然言語処理のチュートリアルと、実際のデータセットやライブラリを使った演習が盛りだくさん。本記事では、講演をまとめ訳と共に紹介します。

グラフ+深層学習の最重要手法・論文トップ10の総まとめ
Free Post
機械学習

グラフ+深層学習の最重要手法・論文トップ10の総まとめ

グラフ構造を持つデータに対するニューラルネットワークであるグラフ・ニューラルネットワーク (GNN) は、深層学習の中でも研究が活発な分野の一つです。ソーシャルネットワーク上のユーザー属性の予測、推薦、化合物の分類、自然言語文の構造解析、画像セグメンテーションなど、グラフ状の構造を持つ様々なタスクや分野に応用されています。本記事では、これまで提案されてきた、重要な GNN に関する手法・論文を 10 個ほどまとめとして紹介します。

機械学習エンジニアリングについて読んでおきたい 14編のオススメ文献・教科書
Free Post
機械学習

機械学習エンジニアリングについて読んでおきたい 14編のオススメ文献・教科書

機械学習が現実のプロダクトへと導入・活用される機会が増えるに従い、機械学習システムを開発・デプロイする「機械学習エンジニアリング」についても重要性が増しています。本記事では、機械学習エンジニアリング、特に、機械学習システムの設計・開発・デプロイ・サービングなどにまつわる落とし穴やアドバイスなどをまとめた良質な文献・教科書を全部で14編、まとめと共に紹介いたします。

【2021年最新版】日本語BERTを徹底比較 事前学習言語モデルのオススメはこれ
Free Post
自然言語処理

【2021年最新版】日本語BERTを徹底比較 事前学習言語モデルのオススメはこれ

日本語で、BERT などの事前学習モデルを使った自然言語処理タスクを解く機会が増えてきました。しかし、BERT だけでも、様々な研究機関・企業が、訓練データ、サイズ、分かち書きの方法等の異なる様々なバージョンを公開しており、「どれをどう使ったら良いかよく分からない」という方も多いのではないでしょうか。この記事では、2021年1月の現段階で公開されている様々な BERT のモデルのタスク性能を比較し、現時点でのオススメについて紹介してみたいと思います。

画像生成にも革命!OpenAI の画像生成モデル DALL·E の技術詳細に迫る
Free Post
コンピュータービジョン

画像生成にも革命!OpenAI の画像生成モデル DALL·E の技術詳細に迫る

先週、OpenAI から 「DALL·E (ダリー)」と呼ばれる、言語から画像を生成する画像生成モデルが発表されました。ネットでは、「テキストから高クオリティの画像を生成できる」という点が特に取り沙汰されている印象ですが、その技術的詳細については、論文がまだ公表されていないこともあって、あまり議論されていません。本記事では、公式の記事や、CLIP などの関連研究などを紹介し、その技術・モデル等の詳細について速報的に解説してみたいと思います。

検索・書き換えに基づくノンパラメトリックな言語モデルの最前線
Free Post
自然言語処理

検索・書き換えに基づくノンパラメトリックな言語モデルの最前線

近年、知識をモデルのパラメーターとして全て表現するのではなく、何らかの外部知識として表現して利用する「ノンパラメトリック」手法がさかんに研究されています。これらの手法は「検索ベース」手法とも呼ばれており、外部知識から関連する文を検索したり、書き換えたりすることによって、パラメトリックなモデルの欠点を補うことができます。本記事では、これらノンパラメトリックな言語モデルに関する最近の手法のうち、メジャーなものをいくつかピックアップして紹介します。

今年のAIトレンド概観 2020年に論文で言及された機械学習トピック TOP20
Free Post
機械学習

今年のAIトレンド概観 2020年に論文で言及された機械学習トピック TOP20

2020年ももう年の瀬が迫っていますが、今年も機械学習・人工知能の分野は話題には事欠きませんでした。本記事では、2020年に arXiv において機械学習・自然言語処理・コンピュータービジョンの各分野で発表された全論文を自然言語処理の技術を使って解析することによって、「2020年に最も言及された機械学習トピック」のランキングを作って発表します。

機械学習トップ会議 NeurIPS 2020 から見るデータ拡張・教師なし表現学習のトレンド
Free Post
機械学習

機械学習トップ会議 NeurIPS 2020 から見るデータ拡張・教師なし表現学習のトレンド

先々週の 12/7〜12/12 にかけて、機械学習系のトップ会議である NeurIPS 2020 がオンラインで開催されました。発表の分野も多岐に渡るため、その全てを単一の記事でカバーすることは到底できません。本記事では、発表された論文の中から、現時点での引用数などを参考にしながら、重要な論文、特に、データ拡張および半教師あり学習に関する重要論文をいくつか取り上げ解説してみたいと思います。

You've successfully subscribed to ステート・オブ・AI ガイド
Great! Next, complete checkout for full access to ステート・オブ・AI ガイド
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.
Success! Your billing info is updated.
Billing info update failed.