萩原 正人

萩原 正人

Google、MSR、バイドゥ、楽天技術研究所NY、Duolingo など、日中米の多くのテック大手等において、研究者・エンジニアとして自然言語処理・機械学習の研究開発に携わる。2019年にフリーランスとして独立し、教育応用・アジア言語処理を専門とする AI 研究所 Octanove Labs を設立。機械翻訳や教育応用の分野にて、世界トップレベルの研究機関等と共に数多くのプロジェクトに携わる

Seattle, WA, USA
91 posts
Website Twitter
NLP における分かち書き最適化・分かち書きフリー手法の総まとめ
Free Post
自然言語処理

NLP における分かち書き最適化・分かち書きフリー手法の総まとめ

自然言語処理分野では、最近、入力を文字・バイト・ピクセル単位でそのまま処理する「分かち書きフリー」の手法が多数出現しています。また、トークン単位に分割する分かち書きを対象タスクと合わせて最適化する手法に関する研究も進んでいます。本記事では、これら「分かち書きフリー」「分かち書き最適化」の手法に注目し、最近の動向を解説しました。

穴埋め言語モデルを「内閣■■大臣」のような簡単な練習問題で甘やかさないコツ【じっくり1本】
Free Post
自然言語処理

穴埋め言語モデルを「内閣■■大臣」のような簡単な練習問題で甘やかさないコツ【じっくり1本】

マスク言語モデルは、黒塗りしたテキストを復元するという練習問題を何億問も解くことで汎用のテキストエンコーダに成長します。ところが練習問題の中には文全体を見なくても解けてしまう簡単なものがたくさん含まれています。今回紹介する ICLR 2021 の論文では、これらの簡単すぎる問題を難しい問題に差し替えると言語モデルの品質が向上する… という面白い話が示されています。前提知識の説明からじっくり1本ご紹介します。

音声にも「基盤モデル」の波が 音声処理のための大規模モデル最前線
Free Post
音声認識

音声にも「基盤モデル」の波が 音声処理のための大規模モデル最前線

BERT や CLIP など、大規模なデータによって自己教師あり学習によって訓練され、様々なタスクに微調整して適用できる「基盤モデル」の波が音声認識などの音声処理の分野にも押し寄せています。本記事では、この「音声 × 基盤モデル」の最新論文について解説しました。また、最近、人気が上昇しているオーディオ処理用ライブラリ「torchaudio」の論文も出版されましたので、そちらについても解説しました。

今年から本気出す  AI分野で良い研究コードを書くためのアドバイス集
Free Post
機械学習

今年から本気出す AI分野で良い研究コードを書くためのアドバイス集

「良い研究コードを書くためのハンドブック」と題された書籍が最近発表されました。プロジェクト構成、スタイルガイド、実験管理、オープンソースとしての公開まで、AI 分野で良い研究コードを書くためのアドバイスが満載です。本記事では、ガイドブックの内容と、関連する他の資料のアドバイスを項目ごとにまとめ、抄訳として紹介しました。

モデルのパッチ、マージも  オープンソース的な未来の機械学習開発
Free Post
機械学習

モデルのパッチ、マージも オープンソース的な未来の機械学習開発

T5 などの著名な貢献のある Colin Raffel 氏による、「オープンソース・ソフトウェア (OSS) 的にモデルを開発する提言」と題されたブログ記事。OSS 的に、モデルにパッチを当てたり、マージしたりといった手法を駆使し、共同でモデルが開発できるような仕組みを提案し、話題になっています。本記事では、その提言の概要と、同時に発表されたいくつかの関連研究をまとめて解説します。

GPT-3超えが続々と登場 発展を続ける超巨大言語モデルの最先端
Free Post
自然言語処理

GPT-3超えが続々と登場 発展を続ける超巨大言語モデルの最先端

GPT-3 が発表されて既に1年以上、「GPT-3 超え」を達成する超巨大言語モデルがその後も次々と発表されています。本記事では、最近 DeepMind から発表された Gopher / RETRO をはじめ、最近発表され「GPT-3 超え」を達成した数々の大規模言語モデルを解説しました。

ビジョン用「基盤モデル」の最前線と AI で進む「大統一」とは
Free Post
コンピュータービジョン

ビジョン用「基盤モデル」の最前線と AI で進む「大統一」とは

大規模データから事前学習され、様々なタスクに適用できる汎用モデルである「基盤モデル」。BERT など自然言語処理の分野でポピュラーになった手法が、コンピューター・ビジョン分野にも進出しています。本記事では、ごく最近発表された、コンピューター・ビジョンの複数タスクを同時に解ける、NÜWA, Florence, PolyVit 等を紹介し、基盤モデルのトレンドを追ってみたいと思います。また同時に、AI では分野の「大統一」が進みつつあります。エキサイティングなトレンドですので、最後に少し言及します。

トップ会議 EMNLP 2021 から学ぶ 文埋め込み・言語モデル研究の最前線
Free Post
自然言語処理

トップ会議 EMNLP 2021 から学ぶ 文埋め込み・言語モデル研究の最前線

3週間ほど前に、自然言語処理分野のトップ会議のひとつである EMNLP 2021 がオンライン・オフラインのハイブリッド形式で開催されました。新しく強力な文埋め込みモデルや、トランスフォーマー・モデルの新たな解釈・変更の検証など、興味深く実用的な研究が多数発表されています。本記事では、EMNLP 2021 において発表された論文から厳選した注目論文を分かりやすく解説します。

長距離データで断トツの最高性能  状態空間系列モデル S4 を解説
Free Post
機械学習

長距離データで断トツの最高性能 状態空間系列モデル S4 を解説

これまでどんなモデルでも解けなかった系列タスク Path-X をはじめて解いて話題となっている系列モデル S4。状態空間モデルに基づき、連続時間系列・RNN・CNN 的な計算を統一的に扱えるなど、理論面・実用面の両方で非常に興味深い手法ですので、本記事で解説しました。

機械学習トップ会議 NeurIPS 2021 から厳選 要チェック論文まとめ
Free Post
機械学習

機械学習トップ会議 NeurIPS 2021 から厳選 要チェック論文まとめ

表形式データを高精度に処理する注意モデル、ニューラルネットのパラメータを一発で予測するニューラルネット、新たなデータ拡張手法、MLP など、今年も非常に興味深い研究が多数発表されています。本記事では、機械学習トップ会議 NeurIPS 2021 から厳選した要チェック論文を紹介します。

GPT-3 のみから機械翻訳モデルを訓練!?機械翻訳研究の最新動向
Free Post
自然言語処理

GPT-3 のみから機械翻訳モデルを訓練!?機械翻訳研究の最新動向

GPT-3 だけを使い、教師無しで機械翻訳モデルを訓練したり、100言語を英語を介さずに相互に翻訳できるモデルを訓練したりと、ここ最近、機械翻訳の分野でも非常に興味深い研究が続々と発表されています。本記事では、多言語翻訳・教師無し翻訳・機械翻訳のスケール性、に注目した最新の研究動向をいくつかピックアップして解説します。

ResNetの逆襲!最新の訓練手法で古典的モデルを強くする方法【論文速報】
Free Post
コンピュータービジョン

ResNetの逆襲!最新の訓練手法で古典的モデルを強くする方法【論文速報】

コンピューター・ビジョンで最も幅広く使われていると言っても過言ではない ResNet。「ResNetの逆襲」と題されたこの論文では、最適化手法やデータ拡張・正則化など、近年提案された強力な訓練方法を使って学習すると、非常に強力な性能を発揮することが分かりました。「そもそも機械学習における進歩はどこから来るか」という示唆を与える重要な論文ですので、論文速報として紹介しました。

音声にもパッチ化・MLP・CLIPの波が 音声に対する深層学習の最先端
Free Post
音声認識

音声にもパッチ化・MLP・CLIPの波が 音声に対する深層学習の最先端

本記事では、オーディオ・音声に対する深層学習モデルのうち、比較的最近発表された論文を中心にトレンドを追ってみます。特に、オーディオを対象にビジョン・トランスフォーマーの仕組みを適用した AST は、仕組みも簡単で性能も良く、音声ドメインにおいて今後も注目です。

You've successfully subscribed to ステート・オブ・AI ガイド
Great! Next, complete checkout for full access to ステート・オブ・AI ガイド
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.
Success! Your billing info is updated.
Billing info update failed.