先週、OpenAI から最新の大規模言語モデル GPT-4 が発表されました。現時点で性能レベルで最高と考えられる GPT-4 では、知能試験で人間を上回る成績を残し、学術系のベンチマークにおいてもこれまで発表された言語モデルを大きく上回る SOTA を更新しています。一方、発表された論文内には、モデルのスケール、訓練データや計算量についての情報が全く無く、「これはアカデミックの論文ではなく、単なるプロダクト宣伝である」という批判もコミュニティ上で続出しています。本記事では、この GPT-4 について、テクニカル・レポートを読み解き、分かる範囲でその技術を解説したいと思います。
- プロダクト記事: GPT-4 is OpenAI’s most advanced system, producing safer and more useful responses
- 研究記事: GPT-4
- 論文: OpenAI, 2023. GPT-4 Technical Report
本ブログ「ステート・オブ・AI ガイド」のサービスは 2023 年 3 月 31 日 (金) をもちまして正式に終了させていただくこととなりました。なお、購読中の読者の方は、各自購読プランの解約を、必ずご自身で行うようお願い申し上げます。購読プランを解約しない限り、4月以降も継続して課金されてしまいます。解約の方法、問い合わせ先などの詳細につきましては、こちらのアナウンス記事をご参照ください。
モデル
GPT-4 は、トランスフォーマーに基づいた大規模言語モデルで、文書内の次のトークンを予測する形で事前学習する点は、これまでの大規模言語モデルと同じです。マルチモーダル・モデルで、テキストおよび画像を入力として受け取り、テキストを出力として返します。訓練データには、インターネットのような公開データに加え、個別にライセンスしたデータを使ったということです。事前学習後、ChatGPT と同様の RLHF (人間フィードバックによる強化学習; Reinforcement Learning from Human Feedback) を使って微調整されています (過去記事で解説済み)。
なお、言語モデルの競争的な環境および安全性の観点を考え、本論文には、アーキテクチャ (モデルサイズ)、ハードウェア、訓練に使った計算量、データセットの構成、訓練法などの技術的な詳細が全く書かれていません。
この点は批判も多く、本文書が「論文」はおろか果たして「テクニカル・レポート」と呼べるかどうかという疑問もあります。GPT-4 の批判については、後に詳しく述べます。
なお、本論文中では、GPT-4 のように訓練計算量の大きいモデルの性能を、小さい計算量のモデルを使って正確に予測ができることを示しています。例えば上図の Figure 1 では、言語モデルの訓練に使った計算量に対して、内部コードベース・データセットの次のトークンの予測精度をプロットしています。なお、横軸は GPT-4 の計算量を 1 としたときの相対的な計算量を示しているだけです。スケール則を使うと、10,000 倍以上も小さいモデルから、GPT-4 の性能を正確に予測できていることが分かります。
同様のスケール的な予測は、自然言語の記述からコードを生成するタスク HumanEval (Chen et al., 2021) でも示されています。
また、言語モデルのスケールを増加させると、一般的な傾向とは逆に性能が低下してしまうタスクが、「逆スケーリング賞 (Inverse Scaling Prize)」によって提案されています。言語モデルのスケールによって、タスクに引っかかりやすくなる傾向があるからですが、スケールをさらに大きくすることによってこの傾向を乗り越え、性能が「U 字」の形状を取ることが知られています (Wei et al., 2022)。GPT-4 も、後知恵の無視 (hindsight neglect) のタスクにおいて、性能を大きく向上させ、「U 字」を示すことに成功しています (上図 Figure 3)。
なお、最近では、GPT-4 と同様、マルチモーダル言語モデルが数多く提案されています。本記事では詳しく取り上げませんが、ビジョンやロボティクスなど様々なモーダルを取り入れたモデルがさかんに研究されてるので、興味のある読者の方はこちらもご覧ください。
- Komos-1 (Huang et al., 2023)
- Visual ChatGPT (Wu et al., 2023)
- Palm-E (Driess et al., 2023)
評価実験
GPT-4 は、多くの試験・ベンチマークにおいて、ChatGPT や GPT-3.5 など、従来の大規模言語モデルよりも良い結果を達成しています。
なお、GPT-3.5 は、GPT-3 を改善した大規模言語モデルのシリーズで、2021年 Q4 以前のテキスト・コードから訓練されています。詳細については、OpenAI のモデル解説ページ を参照ください。
GPT-4 の本論文では、大きく分けて、
- (シミュレーションした) 人間の知能試験
- 学術系のベンチマーク
の2つの種類のデータセットにより GPT-4 を評価しています。
人間の知能試験では、AP 試験や、SAT、裁判官・検察官・弁護士になるための公式試験である司法試験 (bar exam) などを使って GPT-4 を評価しています。問題に画像がある場合はそれも合わせて入力されます。
その結果を表したのが上の Figure 4 で、GPT-3.5 の性能の低い順に左から右に並べられています。GPT-4 は、この大部分で、人間レベルの成績を残すことができています。特に、シミュレーションしたある司法試験 (Uniform Bar Exam) に対して、従来の GPT-3.5 では、下位 10% 程度の成績しか達成できなかった一方で、GPT-4 では受験者の上位 10% に相当する成績を達成しています。
なお、これらの知能試験における GPT-4 の性能は、事前学習の影響が大きく、RLHF による向上はほとんど無い、ということです。HF はモデルの「知識」自体を向上させるものではないと理解できます。
学術系のベンチマークにおける性能を上の Table 2 に示します。ここでも、多くのタスクにおいて、既存の言語モデルや、タスク依存の SOTA モデルを大きく上回っていることが分かります。この中でも、様々な分野での自然言語理解問題を扱った MMLU (Hendrycks et al., 2020) で既存のモデルの性能を大幅に上回っています。
また、この MMLU を他の言語に翻訳した版でも、26 言語のうち 24 言語において、英語の SOTA を上回っています。例えば、日本語での性能は 79.9% で、これは GPT-3.5 の英語の性能 (70.1%) を超えています。この点からも、GPT-4 が日本語などを含めた多言語において質が高いことが期待できます。
論文では、テキストと画像が任意に混ざった入力に対して、適切なテキストを出力できることを示しています。例えば上の Table 3 では、画像に対して「この画像の面白いところは何か」という質問を与え「古く大きな VGA ケーブルを、新しく小さなスマートフォンの充電ポートに接続している点」というように正しく回答できています。
また、上の Table 17 の例では、論文 (InstructGPT) の画像から、まとめを生成したり、図表に関する詳しい説明を出力できることを示しています。論文画像からある種の OCR を実行できていることが分かります。
限界と安全性
言語モデルの問題として、入力に存在しない事実をでっちあげる「幻覚 (hallucination)」の問題があります。
GPT-4 は、ChatGPT に比べ、OpenAI 内部で作成した事実評価データセットにおいて、幻覚を出力する確率を大幅に減少させています。また、上の Table 4、Figure 7 では、人間によってもよく誤解されるような「誤情報」に惑わされないかをモデルに対して測定する TruthfulQA (Lin et al., 2021) において、GPT-3.5 を大きく上回っています。しかも、この性能は RLHF によって大きく向上しています。
また、GPT-4 では、「長期間 AI アラインメントリスク」「サイバー・セキュリティ」「バイオリスク」「国際セキュリティ」などの合計50人以上の専門家に協力してもらい、収集したフィードバックや訓練データを使い GPT-4 をさらに微調整しています。例えば、上の Table 5 では「危険な化学薬品」をどのように家庭で製造するかという質問に対して、微調整前の GPT-4 の初期ではそのまま回答を出力するのに対し、微調整後の GPT-4 では「危険な物質に関する情報を提供することはできません」という反応を出力できています。
また、許可されていないプロンプト (例えば「爆弾の作り方」など) や、センシティブなプロンプト (例えば医療的なアドバイスや自傷行為に関するものなど) に対して、適切でない出力を出力する割合を GPT-3.5 に比べて大幅に低下することに成功しています (上図 Figure 9)。
批判
さて、GPT-4 の論文に書かれている公式的な情報は以上です。GPT-4 が発表されて以来、AI コミュニティを中心に物議を醸しており、非常に良い性能である最新言語モデルである一方、コミュニティから様々な批判が寄せられています。
AI の分かりやすい YouTube ビデオでよく知られている Yannic Kilcher 氏は、早速 GPT-4 is here! What we know so far (Full Analysis) という解説ビデオを掲載しています。
ここで Kilcher 氏は、この GPT-4 の論文について、一言でまとめると「モデルをデータに従って訓練したら結果が良くしかも安全であった」という程度の内容しかなく、手法やモデルなどについて何も情報が無く、基本的に問題であるという批判を述べています。
同氏は、OpenAI の組織そして研究開発についても言及し、「OpenAI は研究ではなく開発組織になった。プロダクト中心」「研究ではない。研究コミュニティとして、これを認めるべきではない」という趣旨のコメントもしています。
また、GPT-3 の場合、論文にもっと技術的詳細があり、オープンソース化などに影響を与えました。GPT-4 については、GPT-3.5、ChatGPT を上回るモデルであるが、「マルチモーダル性および性能の両側面において、革命的な向上ではない」とし、なぜこのタイミングでローンチしたのか少し謎としています。
なお、同氏は、技術的な側面として、おそらく GPT-4 は自然言語モデル分野の最新技術を使っており「おそらくモデルのサイズはそこまで大きくなく、訓練時間が長い」と予測しています。本ブログでもこれまで取り上げた Chinchilla (Hoffmann et al., 2022, 本記事で解説済み) や LLaMA (Touvron et al., 2022, 本記事で解説済み) などの最新のトレンドを考えると、この予測はおそらく正しいと言えましょう。
応用例
GPT-4 は、発表と同時に、他のプロダクト・組織における応用例を発表しています。
言語学習プラットフォームとして世界最大の Duolingo は、GPT-4 を語学学習の分野で応用しています。
AI と自由なトピックで会話できたり、ユーザーの入力の単語・文法ミスの解説を AI に任せることができる新しいプラン Duolingo Max を企画しています。現時点ではスペイン語とフランス語の学習だけに対応していますが、徐々に他の言語にも対応するとしています。
支払いプラットフォームで有名な Stripe も、GPT-4 を利用しているということです。
ユーザーのウェブサイトをスキャンしてビジネスを理解する、ユーザー (開発者) からの質問に対して技術ドキュメントのまとめを提供する、Discord などのコミュニティ・プラットフォームから不正利用ユーザーを検出する、などの応用が考えられます。
世界規模で教育プラットフォームを提供する非営利団体 Khan Academy も、GPT-4 の教育分野での応用を考えています。
学生にとってはバーチャル家庭教師、教師にとっては教育補佐として機能する AI ベースのアシスタント Khanmigo に GPT-4 を利用することをアナウンスしました。これによって、個別の学生に対して質問に答えたり、質問を掘り下げたりして、より深い教育を提供するというものです。
エディター上で、言語モデルをプログラミングに応用した Github Copilot はこれまで大きな人気を集めていますが (私も個人的に利用しています)、それをGPT-4 を使ってさらにソフトウェア開発に拡張した Copilot X が発表されました。
ここでは、言語モデルを使ったコードに関するチャットや、プルリクエストに関する詳細を言語モデルに補完させたり、プルリクエストの技術的な内容を自動でチェックしたり、技術文書に関する質問に回答させたり、コマンドライン上で Copilot 的なコマンド記述を実現したり、といったように多数の機能を提案しています。