Free Post コンピュータービジョン 画像生成にも革命!OpenAI の画像生成モデル DALL·E の技術詳細に迫る 先週、OpenAI から 「DALL·E (ダリー)」と呼ばれる、言語から画像を生成する画像生成モデルが発表されました。ネットでは、「テキストから高クオリティの画像を生成できる」という点が特に取り沙汰されている印象ですが、その技術的詳細については、論文がまだ公表されていないこともあって、あまり議論されていません。本記事では、公式の記事や、CLIP などの関連研究などを紹介し、その技術・モデル等の詳細について速報的に解説してみたいと思います。
Free Post 自然言語処理 検索・書き換えに基づくノンパラメトリックな言語モデルの最前線 近年、知識をモデルのパラメーターとして全て表現するのではなく、何らかの外部知識として表現して利用する「ノンパラメトリック」手法がさかんに研究されています。これらの手法は「検索ベース」手法とも呼ばれており、外部知識から関連する文を検索したり、書き換えたりすることによって、パラメトリックなモデルの欠点を補うことができます。本記事では、これらノンパラメトリックな言語モデルに関する最近の手法のうち、メジャーなものをいくつかピックアップして紹介します。
Free Post 機械学習 今年のAIトレンド概観 2020年に論文で言及された機械学習トピック TOP20 2020年ももう年の瀬が迫っていますが、今年も機械学習・人工知能の分野は話題には事欠きませんでした。本記事では、2020年に arXiv において機械学習・自然言語処理・コンピュータービジョンの各分野で発表された全論文を自然言語処理の技術を使って解析することによって、「2020年に最も言及された機械学習トピック」のランキングを作って発表します。
Free Post 機械学習 機械学習トップ会議 NeurIPS 2020 から見るデータ拡張・教師なし表現学習のトレンド 先々週の 12/7〜12/12 にかけて、機械学習系のトップ会議である NeurIPS 2020 がオンラインで開催されました。発表の分野も多岐に渡るため、その全てを単一の記事でカバーすることは到底できません。本記事では、発表された論文の中から、現時点での引用数などを参考にしながら、重要な論文、特に、データ拡張および半教師あり学習に関する重要論文をいくつか取り上げ解説してみたいと思います。
Free Post 機械学習 説明可能な人工知能(XAI)とは?機械学習のモデルを説明・解釈する最新手法まとめ 近年、ニューラルネットワークに基づく大規模な深層学習モデルの普及によって、機械学習の様々なタスクにおいて非常に高い性能が達成されています。一方、これらのモデルは、伝統的な線形回帰や決定木などのモデルと比べて、どのような仕組みで予測が出力されているかが分かりにくい「ブラックボックス化」しているという問題があります。最近、NeurIPS、ACL などのトップ会議において、この「説明可能な人工知能」に関するチュートリアル講義が相次いで開催されました。本記事では、これらのチュートリアルから厳選した、「押さえておくべき説明・解釈手法」をいくつかご紹介します。
Free Post 自然言語処理 2020年最新版 モダンなフレームワークで実装する深層自然言語処理モデル 近年では、深層学習モデルを使って自然言語処理タスクを解く機会が増えていますが、モデルを開発・実装する方法にはさまざまなものがあります。機械学習モデルの開発には試行錯誤が必要となるので、どのフレームワークを使って実験を進めていくのかは大切な要素の一つです。本記事では、2020年の現在において、BERT のような事前学習モデルを使った深層自然言語処理の研究開発において、ベストプラクティスであると思われるフレームワーク、手法をコード例と共に紹介していきます。
Free Post コンピュータービジョン 人工知能の次のフロンティアとは?視覚×言語研究の最新動向 大量のテキストから事前学習した BERT や GPT-3 などの事前学習モデルに関する研究が話題ですが、人間の言語理解には、視覚・聴覚などとの相互作用、身体性・社会性が非常に重要です。この記事では、近年注目が高まっているマルチモーダル自然言語処理、特にその中でも、視覚×言語の最新の研究をいくつか取り上げ、紹介してみたいと思います。
Free Post 自然言語処理 自然言語処理トップ会議 EMNLP 2020 から厳選 重要論文・講演のまとめ 先週、自然言語処理分野のトップ会議のひとつである EMNLP 2020 がオンラインで開催されました。近年の AI/ML 系の学会の例に漏れず、本会議だけで 700本以上の論文が採択され、とても全部をチェックできる量ではありません。本記事では、EMNLP 2020 の中から、ベストペーパーとその佳作賞、重要な講演や論文などを厳選して紹介します。
Free Post 機械学習 機械学習の仕事に就くには 技術採用担当者が語る秘訣とアドバイス 「機械学習の仕事に就く — 技術採用担当者が語る秘訣」と題されたバーチャルセミナー・パネルディスカッションが行われました。米国(主にシリコンバレー)を代表するスタートアップの採用担当者から、機械学習の仕事に興味のある方向けに、アドバイスや秘訣などを直接聞ける非常に良い機会ですので、抄訳と共に紹介します。
Free Post 機械学習 ニューラルネットを使ったランキング学習 総まとめ ランキングを機械学習によって最適化する手法である「ランキング学習」(learning to rank; LTR)、検索エンジンや推薦システムなど幅広い応用があり、アカデミア・産業界において活発に研究されている分野の一つです。近年のニューラルネットワークや最適化手法の発展により、新たなモデルが次々に開発されています。本記事では、ランキング学習について、特にニューラルネットなど微分可能なモデルを使った手法を中心にまとめてみたいと思います。
Free Post 自然言語処理 WordPieceからBPE-dropoutまで 〜 ニューラル時代のサブワード分割・トークン化手法 完全ガイド 深層学習を用いた自然言語処理では、テキストを「サブワード」と呼ばれる単語よりも短い単位に分割する手法が頻繁に用いられます。本記事では、WordPiece, Byte-pair encoding (BPE), SentencePiece など、数多くあるサブワード分割の手法・ソフトウェアを取り上げ、それぞれの特徴や違いなどを解説します。
Free Post 機械学習 バッチ・レイヤー…どれを使う?今度こそ分かる深層モデルの正規化手法 完全ガイド 高精度な深層モデルを訓練するためには、正規化を正しく適用することが欠かせません。正規化といっても様々な種類があり、「名前だけは聞いたことがある」「実装に含まれているので何となく使っている」という方も多いのではないでしょうか。本記事では、バッチ正規化をはじめとして、重み正規化、レイヤー正規化、インスタンス正規化、グループ正規化など、様々な種類の正規化をとりあげ、それぞれの仕組みや、長所・短所について解説してみたいと思います。
Free Post 音声認識 音声認識に「BERT 革命」がついに—音声に対する事前学習の最前線 高精度な音声認識モデルを訓練するには、大量のラベル付き学習データ(音声と、それを文字起こししたもの)が必要であることが知られています。画像認識 (ImageNet) や自然言語処理 (BERT) の分野において成功を収めた転移学習の手法は、音声認識の分野では有効ではないのでしょうか?本記事では、現在 (2020年10月) の段階における「音声認識の転移学習革命」の最前線を追ってみたいと思います。以下で紹介する手法を追ってみると、音声認識の分野でも「ImageNet 的瞬間」が着実に進んでいることが分かります。
Free Post コンピュータービジョン 「論文は読むな」画像×AIの専門家から初心者へのアドバイス Deeplearning.ai において、敵対的生成ネットワーク (GAN) の専攻コースが9月末にローンチされました。コースのローンチにあわせて、「GANs for Good」(社会のための GAN)と題されたバーチャルセミナー・パネルディスカッションが行われました。「GAN の生みの親」Ian Goodfellow 氏をはじめ、画像×AI の分野で著名なそうそうたるメンバーからの講演とパネルディスカッションがありました。以下では、抄訳とともに紹介したいと思います。
Free Post 自然言語処理 トップ研究者が語る、自然言語処理へ入門したい人へのアドバイス 今年の7月に、自然言語処理の専攻コースが新たにローンチされました。ローンチに伴って、自然言語処理分野の著名な研究者によるバーチャル・セミナーが開催され、「自然言語処理へ飛び込む (Break into NLP)」というタイトルで講演・パネルディスカッションが行われました。自然言語処理の分野に興味のある方に有用なアドバイスが数多くありましたので、ここで抄訳とともに紹介したいと思います。