１GPUで１日だけ訓練して高性能「一夜漬け BERT」の秘訣とは

テスト (微調整) の前に、１GPU で１日だけ訓練させて高性能を達成した「一夜漬け (cramming) BERT」が話題です。BERT などの基盤モデルの事前学習には通常、強力な計算資源と長い時間がかかるものですが、本論文はそれを短縮し、個人や中小企業・研究室などでも事前学習を可能にすると期待できます。本記事では、この「一夜漬け BERT」の論文を中心に、その高速・高性能の秘訣をまとめました。

萩原正人

Google、MSR、バイドゥ、楽天技術研究所NY、Duolingo など、日中米の多くのテック大手等において、研究者・エンジニアとして自然言語処理・機械学習の研究開発に携わる。2019年にフリーランスとして独立し、教育応用・アジア言語処理を専門とする AI 研究所 Octanove Labs を設立。機械翻訳や教育応用の分野にて、世界トップレベルの研究機関等と共に数多くのプロジェクトに携わる

More posts by 萩原正人.

萩原正人

2023-01-05 • 13 min read

この記事は、会員限定記事ですので、アクセスすることができません。購読してアカウントをアップグレードすると、本記事に加え、既存の会員専用コンテンツが全て読めるようになります。

料金および本ブログの詳細、団体購読などについては、「本ブログについて」をご覧ください。

１GPUで１日だけ訓練して高性能「一夜漬け BERT」の秘訣とは

萩原正人

萩原正人

2023 年注目トレンドの一つ！ツール拡張言語モデルの最前線

最新・最高性能の大規模言語モデルGPT-4は果たして「AI研究」なのか

埋め込みで論理演算！データを確率分布で表す確率埋め込みの最前線

ニューラルネットを0と1で決定的に初期化する最新手法ZerOを解説

AI 激動の年！2022年の人工知能10大トレンドと必読論文