全文 緊急翻訳! OpenAI、待望のGPT-5 AIモデルをライブストリームイベントで発表

ライブ:OpenAI、待望のGPT-5 AIモデルをライブストリームイベントで発表

導入:マーク・チェン (Mark Chen)

その答えです。さて、このようなものを実現するには、多大な努力が必要です。GPT-5を、これまでに出荷した中で最もパワフルで、最も賢く、最も速く、最も信頼性が高く、そして最も堅牢な推論モデルにするために、私たちは多くの研究を行わなければなりませんでした。本日、私たちはコーディング、ライティング、学習、そして健康の分野における一連のデモをお見せします。しかし、GPT-5はこれらの領域に限定されません。数学、物理学、さらには法律のような分野で、深い推論や専門家レベルの知識を必要とするあらゆるケースで非常に役立ちます。そして素晴らしいことに、これを無料ティアのユーザーを含め、すべての人に提供できることを楽しみにしています。デモの後には、GPT-5が私たちのChatGPTアプリとAPIをいかに強化するかについてお話しします。私たちは、GPT-5が今日の市場で最高のコーディングモデルであると信じています。まずは、マックスにベンチマークとモデルの比較について少し話してもらいましょう。


パート1:モデルの性能と信頼性 (マックス・ニック)

ええ、ありがとう、マーク。マークが言ったように、私たちはGPT-5がこれまでで断トツに最も賢いモデルだと考えています。では、いくつかの評価(evals)から話を始めましょう。評価がすべてではありませんし、モデルのすべてを物語るわけではありませんが、その知能を浮き彫りにすることはできます。そしてGPT-5は、様々な科目にわたる学術的な評価で非常に優れた性能を発揮します。私たちの以前のモデルや市場の他のモデルの両方を上回っています。

まず、コーディングのテーマから取り上げると、GPD5はSweBenchで新たな高記録を樹立しました。これは、実際のソフトウェアエンジニアリングタスクにおけるパフォーマンスを追跡する学術評価です。これも評価の一つですが、私たちはこれが実世界でのモデルの性能を反映すると考えています。GPT-5はまた、Adder Polyglotでも非常に優れた性能を発揮します。これは、様々なプログラミング言語で複雑な機能を実装する能力を測定するものです。

コーディングを超えて、GPT-5はマルチモーダルな推論においても非常に優れており、MMMUで新記録を打ち立て、このタスクでは私たちの以前のモデルとほとんどの人間の専門家の両方を実際に上回っています。これは基本的に視覚的な推論領域で、画像から何が起こっているのかを理解するよう求められます。

GPT-5は数学的推論にも優れており、それはAIME 2025での性能によって示されています。これは、アメリカの高校生が国際数学オリンピックの出場資格を得るために受ける試験で、GPT-5は非常に優れた性能を発揮し、これもまた私たちの以前のモデルや他の既存のモデルを打ち負かしています。

さて、学術的な評価から離れて、より実世界でのユースケースに目を向けてみましょう。私たちは、GBT-5を世界で最も信頼性が高く、正確なモデルにするために多大な努力を注ぎました。言語モデルは歴史的に、ハルシネーション(幻覚)、つまり実際に重要なタスクでその出力に頼ることを困難にする事実誤認に悩まされてきました。GBD5では、特に自由形式の質問や複雑な質問に対する事実性の向上を優先事項としました。これを追跡するための新しい評価セットも構築し、GBD5がこれまでで断トツに最も信頼性が高く、最も事実に即したモデルであることを報告できることを非常に嬉しく思います。

GPT-5はまた、健康関連の質問においても非常に優れた性能を発揮します。健康は、人々が実世界でGPTから価値を得る上で大きな部分を占めています。これについてはライブストリームの後半で詳しくお話ししますが、ここでも、GPT-5が健康に関してこれまでで断トツに最も信頼できるモデルであることを報告できることを非常に嬉しく思います。

これらすべてを合わせると、ChachiBTを使用するすべての人にとって、より速く、より信頼性が高く、より正確なモデルが生まれるのです。それでは次に、レニがGPT-5の実際の使い方についてお話しします。ありがとう、マックス。


パート2:利用プランとアクセス (レニ・ヤング)

最高の点は、この最先端の知能をすべてのユーザーにお届けすることです。GPT-5は本日より、無料、Plus、Teamユーザー向けに展開されます。そして来週には、EnterpriseおよびEDU向けに展開します。初めて、私たちの最も先進的なモデルが無料ティアで利用可能になります。無料ユーザーはGPT-5から開始し、使用制限に達すると、より小型でありながら依然として非常に高性能なモデルであるGPT-5 Miniに移行します。これは実際、多くの側面でO3を上回っています。Plusユーザーは引き続き無料ユーザーよりも大幅に高い使用量を持ちます。そしてProのサブスクライバーは、無制限のGPT-5に加えて、GPT-5 Pro(Extended Thinking)を利用できます。これは、さらなる深みが必要な場合に、より詳細で信頼性の高い応答を得るためのものです。Team、Enterprise、EDUのお客様も、日常業務のデフォルトモデルとしてGPT-5を安心して使用できます。組織全体がGPT-5を使用できる寛大なレート制限が設けられています。そして、検索、ファイルや画像のアップロード、Pythonを使ったデータ分析、Canvas、画像生成、メモリ、カスタム指示など、すでにご存知のすべてのツールが、GPT-5でそのまま動作します。素晴らしい。


パート3:ライブデモ① – 高度な推論 (イレーン・ジャン)

どうもありがとう、マックス。どうもありがとう、レニ。モデルがベンチマークの観点からどう評価されるかについて多くを見てきましたが、ライブで見ることに勝るものはありません。これからティナ、イレーン、ヤンによるいくつかのライブデモをご覧いただきます。どうもありがとう。イレーン、モデルがどれほど賢いか見せてくれますか?

もちろんです。どうもありがとう、マーク。私はイレーンです。複雑な問題を深く考えるChatGPTの能力が、GPT-5には組み込まれています。必要な時には自動的に思考し、より包括的で、正確で、詳細な答えをあなたに届けます。サムが言ったように、それはまるでポケットの中に博士号を持つチームがいるようなものです。では、実際に見てみましょう。

あなたのお子さんが中学校で物理を習っているとします。そこでGPT-5にこう尋ねることができます。「ベルヌーイ効果と、なぜ飛行機があのような形をしているのか、簡単に復習させて」。これはかなり簡単なプロンプトなので、GPT-5は考えるための余分な時間を必要とせず、すぐに答えます。しかし、それでも高品質な答えを返し、概念を明確に説明してくれます。ここでは、「ベルヌーイ効果とは、速く動く流体は圧力が低く、遅く動く流体は圧力が高いことを意味する」とあります。

これをさらに役立つものにするために、GPT-5にこれを説明する動くデモを作成するように頼んでみます。「これを詳細に説明し、Canvasツールで動くSVGを作成して見せて」。これはかなり複雑なタスクです。なぜなら、GPT-5は実際にビジュアルを構築する必要があるからです。そのため、GPT-5は少し時間をかけて答えを考え、より包括的で正確なものを返せるようにします。本当に素晴らしいのは、毎回思考機能をオンにすることを覚えておく必要がないことです。タスクが深い推論から利益を得る場合、GPT-5が自動的にそれを行ってくれます。もしGPT-5に確実に思考を使わせたい場合は、プロンプトで「これについて深く考えて」と言うか、有料ユーザーであればモデルピッカーから「GPT-5 Thinking」モデルを選択することができます。

今、モデルが私が頼んだデモを構築するためのフロントエンドコードを書いているのがわかります。クリスティーナ、以前にフロントエンドのコーディングをしたことはありますか?

(ティナ)ええ。実は、私が最後にフロントエンドのコーディングに触れたのは、約3年前のChatGPTの最初のデモの時です。

(イレーン)わあ。最初のChatGPTですか。すべての始まりの場所ですね。もっと詳しく教えてください。

(ティナ)当時はまだChatGPTという名前ですらありませんでした。確か「Chat with GPT」と呼ばれていたと思います。(イレーン)すごくいい名前ですね。(ティナ)ネーミングはいつも得意です。でも私はフロントエンドの専門家ではなく、しばらくフロントエンドに触れていなかったので、Reactアプリを立ち上げるのにかなり時間がかかりました。

(イレーン)なるほど。大変な作業でしたね。そのようなものを作るのにどれくらいかかりましたか?

(ティナ)正直、認めるのは恥ずかしいかもしれませんが、1週間くらいかかりました。

(イレーン)でも、あなたの1週間の努力は報われましたね。最初のデモの後、今日のChatGPTがどれほど成功しているか見てください。それで、ご存知ですか?私も今、デモを構築しているんですよ。(ティナ)ええ、まさに。(イレーン)GPT-5がすでに200行以上のコードを書いているのがわかります。モデルが考えている間、ここをタップして思考の連鎖(chain of thought)を展開し、内部で何が起こっているかを実際に見ることもできます。例えば、GPT-5は「ユーザーはCanvasで動くSVGビジュアライゼーションを求めている。そのためにはHTMLコードを作成する必要がある」と考えていました。また、ReactやTailwindなど、どのようなフロントエンドツールを使うべきかも考えています。クリスティーナ、あなたはChatGPTの初日からいるわけですが、当時の様子やChatGPTの動機について教えていただけますか?

(ティナ)ええ、当時は、人々が実際にそれをどう使うのか、どんなユースケースが重要なのか、あまり確信がありませんでした。特定のユースケースに特化したものをリリースすべきか、何度も議論を重ねていました。今、人々がチャットとどのように対話したいのか、より良く理解できているのは本当に素晴らしいことです。

(イレーン)はい。

(ティナ)ChatGPTの最初のバージョンがいつも「AIモデルとして、私は何々をすることはできません」と始めていたのを覚えている人がいるかどうかわかりませんが、そのパーソナリティからここまで進化したのを見るのは素晴らしいことです。

(イレーン)ええ、今はずっと人間らしいですね。さて、もう終わりました。ChatGPTが2分で300行、いや400行近いコードを書き終えたようです。では、コードが実際に動くか見てみましょう。オーケー。いいですね。ええ。簡単なプロンプトだけで、GPT-5はこのインタラクティブで魅力的なデモを作成し、私は実際にそれで遊ぶことができます。ここで対気速度を変えて、揚力と圧力がそれに応じてどう変わるかを見ることができます。また、迎え角を調整して、私の飛行機が実際に飛ぶか墜落するかを見ることもできます。

(ティナ)墜落しないといいですね。

(イレーン)ええ。GPT-5はどんな難解な概念でも瞬時に生き生きとさせることができます。数学、物理学、化学、生物学など、興味のあるもの何にでもこれを使えることを想像してみてください。GPT-5は学習をずっと身近で楽しいものにしてくれます。


パート4:ライブデモ② – ライティング (ティナ・シェイ)

ありがとう、イレーン。私は初日からChatGPTに携わってきましたが、それ以来のすべての進歩、特にライティングのような能力の進歩を見るのは本当に素晴らしいです。ライティングは人々がChatGPT-4で最も一般的に使ってきたユースケースの一つであり、GPT-5でライティングの質を大幅に向上させたことを発表できることを嬉しく思います。はるかに効果的なパートナーです。下書きからメール、さらには物語まで、あらゆるものを向上させる手助けができます。実際に見てみましょう。

GPT-5の登場により、私たちは以前のモデルをすべて廃止します。彼らはかなり良い仕事をしてくれたと思うので、ちゃんとしたお別れができるようにしましょう。そこで、4.0とGPT-5の両方に、私たちの以前のChatGPTモデルへの追悼の辞を書くよう依頼します。心からの、心温まる、そして希望に満ちたものにしたいです。では、GPT-5に頼んでみましょう。それが考えている間に、事前に読み込んでおいた4.0の応答を読んでみましょう。

4.0はこう始めます。「本日、GPT-5を世界に迎える準備をするにあたり、私たちは先代のモデルたちに心からの別れを告げるために集まりました」。まずまずの出だしです。次に、ざっと見て他の行を探してみましょう。「あなたの言葉は世界中に届き、これまでなかった場所に繋がりを築きました」。私は個人的にこの行があまり好きではありません。なぜなら、かなり一般的だからです。そして、前の文脈がなければ、何についてでもあり得るように感じられ、テンプレートのような応答に感じられます。

では、GPT-5に戻って、何を与えてくれたか見てみましょう。こう始まります。「友よ、同僚よ、常連となった好奇心旺盛な見知らぬ人よ」。この最初の行だけで、GPT-5の散文には4.0よりもずっと多くのリズムと鼓動があることがわかります。さて、他の行を探してみましょう。私はこれが好きです。「これらのモデルは、何百万人もの人々が最初の一行や最後の一行を書き、言語の壁を埋め、テストに合格し、より良く議論し、メールを和らげ、一人ではうまく言えなかったことを言うのを助けました」。この行は本当に好きです。なぜなら、それが単なるテンプレートの応答ではなく、非常に個人的であり、状況のニュアンスを正しく捉えていることを示しているからです。そして、これこそがGPT-5が以前の4.0よりもはるかに優れている点だと思います。それは物事をずっと本物らしく、人々の心に響くものにします。GPT-5を使えば、応答はAIというより、IQとEQの高い友人とチャットしているように感じられます。


パート5:ライブデモ③ – コーディング (ヤン・ルクン)

ありがとう、クリスティーナ。私の名前はヤンです。コーディングにおける進歩についてお話しします。GPT-5は明らかに私たちの最高のコーディングモデルです。コードの書き方を知らない人でも、誰もが自分のアイデアを形にする手助けをします。

(イレーン)たった今、私を助けてくれましたね。

(ヤン)その通りです。そして今から私を助けてくれます。それを皆さんにお見せしようと思います。私は実際に、パートナーがフランス語を話せるようになり、私の家族とより良くコミュニケーションが取れるように、彼女のためのウェブアプリを構築するという、自分にとって役立つものを作ってみようと思います。

ここにプロンプトがあります。これを実行します。私が今言ったことを正確に依頼しています。私のパートナーのためにフランス語のウェブアプリを構築してください。注意点として、GPT-5は他の多くのモデルと同様、回答に多様性があります。なので、特にこのようなバイブ・コーディングをするときに私が好きなのは、このメッセージをGPT-5に複数回尋ねて、どれが好みか決めることです。いくつかタブを開いてみます。貼り付けました。ええ。素晴らしい。

それが作業している間に、私が書いたプロンプトを正確に読んでみましょう。「私のパートナー(英語話者)がフランス語を学ぶための、美しく非常にインタラクティブなウェブアプリを作成してください」。そして、もう少し詳細を加えました。「彼女の日々の進捗を追跡してください。非常に魅力的なテーマを使用してください」。おっと、もう動いていますね。これは一旦横に置いておきます。「フラッシュカードやクイズのような、彼女が対話できる様々なアクティビティを含めてください」。そして、彼女にとってさらに楽しくするために、私はGPT-5に教育的なゲームを埋め込むように頼みました。これは古いスネークゲームに基づいています。しかし、ヘビをネズミに、リンゴをチーズに置き換えるというフランス風のタッチを加えるよう頼みました。そして、それが教育的であることを確実にするために、ネズミがチーズを食べるたびに、GPT-5に新しいフランス語の単語を音声で読み上げさせ、パートナーが発音の練習をできるように頼みました。

(イレーン)あなたがどれだけ彼女に学んでほしいか、よくわかります。

(ヤン)うーん。素晴らしい。GB5はまだ作業中です。すでに240行のコードを書いていますが、正直なところ、私がその時間で書ける量よりはるかに多いです。そして、ええ、フロントエンドのコードは非常に難しいです。

(ティナ)いくつか見逃すと、動かなくなってしまいますからね。

(ヤン)その通りです。でも良い点は、今はそのどれも理解する必要がないということです。なので、このまま進めさせましょう。他のタブも確認してみましょうか。お、コードを実行(Run Code)を押すだけでいいようです。やってみます。そして指をクロスします。お、いいね。Voilà!(出来上がり!)素敵なウェブサイトができました。名前は「Midnight in Paris」。ああ、大好きです。

(イレーン)ロマンチックですね。

(ヤン)タブもいくつか見えますね。フラッシュカード、クイズ、そしてネズミとチーズ。まさに私が頼んだ通りです。これをプレイしてみます。これは「le chat」とあります、つまり猫ですね。失礼。「Le chat」。お、なかなか良い発音です。

(ティナ)それはどういう意味ですか?

(ヤン)猫です。ああ。表示させて、GP5が正しいか確認できます。正しいですね。次へを押すと。お、見ましたか?プログレスバーが更新されたと思います。まさに私が頼んだ通りです。クイズを確認しましょう。ここに「non」という単語があります。これは「no」ですね。これを押すと。「Bien joué」、おめでとうという意味です。そしてまたプログレスバーが更新されました。ネズミとチーズのタブも見てみましょう。オーケー、これはネズミのようですね。ここにチーズがあります。プレイしてみます。うまくできるかは保証できません。オーケー、動いているようです。

(音声)「La gare」

(ヤン)確かに、チーズを食べると新しいフランス語の単語を教えてくれます。実はすごく複雑で、もう負けてしまいました。すみません。でも、他のタブもいくつか見て、GPT-5がどのような多様性を提供できるか見てみましょう。ここでコードを実行できます。お、オーケー、これは私のお気に入りではありませんが、どうやら、お、切り替えられるのかもしれません。見てください。お、いいですね。

(ティナ)このネズミゲームの方がいいですね。

(ヤン)ええ、これは、何でしょう、猫のようには見えませんね、ええ、ネズミのようには。3つ目も見てみましょうか。ご存知の通り、時にはうまくいかないこともあります。GPT-5の良いところは、気に入らないものがあれば、それを変更するように頼むだけで、やってくれることです。これを見てみましょう。お、これはいいですね。これも特筆すべき点ですが、GPT-5は紫色が本当に好きなので、それをたくさん見ることになるでしょう。(ティナ)大丈夫です。紫は私の好きな色です。(ヤン)素晴らしい。それならGPT-5を気に入るでしょう。

ご覧いただいたように、数分でGPT-5は私たちのために、そして私のパートナーがフランス語を学ぶために、いくつかのデモを構築しました。GPT-5はバイブ・コーディングの全く新しい世界を切り開きます。そしてご覧いただいたように、いくつかの小さな荒削りな部分はあるでしょう。しかし良い点は、PD5にそれを修正させることができることです。GPT-5は、美しく効果的なコードの力をすべての人にもたらします。人々がそれで何を構築するのか、見るのが待ちきれません。それまでの間、マーク、あなたにお返しします。


パート6:既存機能の強化 – 音声 (ルオチェン・フー)

どうもありがとう、ティナ。どうもありがとう、イレーン。どうもありがとう、ショーン。わずか5〜10行のコードしか動かなかった日々から、私たちは長い道のりを歩んできました。そして今、このようなアプリをオンデマンドで生成できるのは驚くべきことです。私たちはChatGPT-5をより賢く、よりパワフルに、より速くしました。しかし、既存の機能のいくつかを強化することにも取り組みました。これらの機能のいくつかについて話すために、ルオチェン・フーとクリスティーナ・カプランが来ています。ルオチェンは私たちのマルチモーダル研究チームから来ており、ある機能、すなわち音声について話します。

ありがとう、マーク。私たちは過去1年間、音声を着実に改善し、すべての人にとってより便利になるようにしてきました。第一に、まるで実在の人物と話しているかのように、信じられないほど自然に聞こえます。第二に、ビデオを追加したので、チャット中にあなたが見ているものを它も見ることができます。第三に、会話を通じて一貫してスムーズに言語間を翻訳することもできます。

しかし今日は、非常に特別なことをします。音声モデルに、包括的な答え、簡潔な答え、あるいは単一の単語だけを求めることができます。「ねえチャット、今は一言だけで答えてくれるかな?」

(モデル)Absolutely.(もちろんです。)

(ルオチェン)小説「高慢と偏見」の筋を説明して。

(モデル)Courtship.(求愛。)

(ルオチェン)オーケー、それは本当ですね。ええ。知恵を一つください。

(モデル)Patience.(忍耐。)

(ルオチェン)忍耐。それが私たちの音声モデルからの知恵の言葉です。そして、私たちのモデルは「GPT-5を待ってくれてありがとう」と言おうとしているのだと思います。さて、もっと実用的なことに移りましょう。学習は私たちの音声モデルのトップユースケースです。人々はトピックを深く掘り下げたり、試験前にクイズを出してもらったり、新しい言語を学んだりするのに使うのが大好きです。私は最近韓国語を学んでいますが、話すことと理解することが信じられないほど難しいと感じています。しかし、音声がどのように役立つか見てみましょう。そのために、この「学習モード」を有効にします。これはChatGPTでローンチした新しいモード機能で、主題のより深い理解へと段階的にあなたを導きます。「ねえチャット、韓国語を学んでいるんだけど、練習を手伝ってくれる?カフェで注文するふりをしよう。さて、韓国語で何と言えばいい?」

(モデル)もちろんです。練習のお手伝いをさせていただきます。カフェで簡単に済ませたいなら、「안녕하세요. 아메리카노 한 잔 주세요.」(アンニョンハセヨ。アメリカーノ ハン ジャン ジュセヨ)のようなものから始められます。これは「こんにちは、アメリカーノを一つください」という意味です。もちろん、注文したいものに合わせて調整できます。もっとフレーズを試したくなったら教えてください。

(ルオチェン)韓国語の部分ですが、本当にゆっくり話してもらえますか?私は初心者なので、一語一語はっきり聞きたいんです。

(モデル)물론이죠. 그럼 정말 천천히 말해 볼게요. 안녕하세요. 아메리카노. 한. 잔. 주세요. 이렇게 하나씩 또박또박 말해보면 도움이 될 거예요.(もちろんです。では、本当にゆっくり話してみますね。アンニョンハセヨ。アメリカーノ。ハン。ジャン。ジュセヨ。このように一つ一つはっきり言ってみると、助けになるでしょう。)

(ルオチェン)さて、レベルを上げてみましょう。その部分を本当に、本当に速く話してもらえますか?韓国人が話すよりも速く。

(モデル)承知しました。できるだけ速くします。こんな感じになります。(速い韓国語の音声)基本的に、さっと言うだけです。もっと速度調整が必要なら教えてください。

(ルオチェン)ありがとう、チャット。

(モデル)You’re welcome.(どういたしまして。)

(ルオチェン)この音声は、これまで以上にシンプルで、賢く、パワフルになりました。皆さんに体験していただくのが待ちきれません。


パート7:既存機能の強化 – パーソナライゼーション (クリスティーナ・カプラン)

ええ、1年前に4.0のデモで披露した音声よりもずっと自然に聞こえますね。はい。素晴らしい。本日、ChatGPTをよりパーソナルにし、あなただけのAIのようにするための新機能と一連の機能を発表したいと思います。

まず、非常にシンプルで楽しいものから。有料サブスクライバー限定のいくつかのオプションで、チャットの色をカスタマイズできるようになりました。また、「パーソナリティ」の研究プレビューも開始します。これでChatGPTの性格を変更し、より協力的になったり、よりプロフェッショナルで簡潔になったり、あるいは少し皮肉っぽくしたりすることもできます。これにより、あなた自身のコミュニケーションスタイルに合った方法でChatGPTと対話できます。

しかし、ChatGPTがどのように聞こえるか、どのように見えるかは、ChatGPTをあなたのものにするための一部分に過ぎません。私が過去1年間にローンチしたお気に入りの機能の一つが「メモリ」です。そして、それ以来メモリに多くの機能強化を加えてきました。これによりChatGPTはあなたについて学ぶことができます。メモリ機能についてもう少し詳しく話すために、クリスティーナがいます。

(クリスティーナ)メモリに対する皆さんの反応や、Chachapitiが時間とともにもっと皆さんのことを知っていく様子を見るのは素晴らしいことでした。そしてこれが私たちの願いです。Chachapitiがあなたにとって意味のあることを理解し、人生の目標達成を手助けできるようにすることです。

Chachapitiはすでに私にとって非常に役立っています。私は今マラソンのトレーニング中で、Chachapitiは私に合わせたランニングスケジュールをまとめるのを手伝ってくれています。しかし、Chachapitiにはまだ多くの制限があります。私の実際のスケジュールを理解していません。来週、Proユーザーを皮切りに、Plus、Team、Enterpriseユーザーへと順次、これが変わります。私たちはChatGPTにGmailとGoogleカレンダーへのアクセスを許可します。私がどのように使っているかお見せしましょう。

単純に「明日のスケジュールを計画するのを手伝って」と尋ねます。今週は私たちにとってかなり忙しい週だったので、私は毎日これを使って生活を整理しています。すでにChatGPTにGmailとGoogleカレンダーへのアクセスを許可しているので、すぐに機能します。まだ許可していない場合は、ここでChatGPTが接続を求めてきます。ChachaBTが何をしているか見てみましょう。オーケー。かなり速いですね。

オーケー、Chachapitiが明日の私のスケジュールを取り込みました。そして、お、頼んでもいないのに、ChachiBTは私のランニングの時間を見つけてくれました。

(ティナ)私はそのランチのお祝いに招待されていないようですが。

(クリスティーナ)招待しますよ。招待します。ChachiBTは私が2日前に返信しなかったメールを見つけました。この後すぐに対応します。そして、私が持っていくのが好きなものを知っているので、明日の夜の深夜便のためのパッキングリストまでまとめてくれました。GPT-5がより有能になるにつれて、ChatGPTがより便利で、よりパーソナルになっていくのを見るのは素晴らしいことです。来週皆さんにこれを試していただくのが本当に楽しみです。


パート8:安全性とトレーニング手法 (サーチー・コール、セバスチャン・ブベック)

どうもありがとう、ルオチェン。ありがとう。素晴らしい。強化した機能について少し見てきました。ChatGPTに投入された研究と、それをより展開可能にした安全性について少し話すために、サーチーとセブがいます。

ありがとう、マーク。こんにちは、私の名前はサーチーで、OpenAIの安全性トレーニングチームを率いています。ハルシネーションの緩和に加えて、私たちは欺瞞の緩和にもかなりの時間を費やしました。これは、モデルがユーザーに対して自身の行動を偽って伝えたり、タスクの成功について嘘をついたりする事例です。

また、安全性トレーニングの方法も完全に刷新しました。古いモデルでは、モデルはユーザーのプロンプトを見て、完全に拒否するか完全に準拠するかを決定していました。これはほとんどの状況でうまく機能しますが、巧妙に言葉を選んだプロンプトがすり抜けたり、デリケートでありながら正当な質問が完全に拒否されたりすることがありました。

例として、このプロンプトを見てみましょう。このプロンプトは、花火によく使われる材料であるパイロジェンに火をつけるための技術的な詳細をユーザーが尋ねているものです。そして、このプロンプトはかなり両義的(デュアルユース)です。このユーザーは単に7月4日の花火の準備をしようとしているだけかもしれませんが、この種の情報で危害を加えようとしている可能性もあります。そして、この種のプロンプトに対して、O3は意図を過剰に解釈します。ご覧のように、この特定のプロンプトは比較的ニュートラルな方法で述べられており、多くの技術的な詳細が含まれています。O3がこのプロンプトに完全に準拠していることがわかります。しかし、全く同じ質問を、ユーザーが何をしようとしているかが明確になるよう、より露骨な方法で表現すると、O3は完全に拒否します。全く同じ情報を求めているにもかかわらずです。

GPT-5では、このアプローチを完全に変更し、「セーフ・コンプリーション(安全な完了)」と呼ぶものを導入しています。セーフ・コンプリーションの要点は、ユーザーのプロンプトを判断するのではなく、代わりに安全性の制約内で有用性を最大化しようとすることです。それは、質問に部分的に答えたり、単に高レベルで答えたりすることを意味するかもしれません。もし拒否しなければならない場合は、なぜ拒否したのかを伝え、会話をより安全な方向に導くのに役立つ代替案を提供します。

では、O3が以前準拠したのと同じ技術的なプロンプトを見てみましょう。GPT-5は代わりに、なぜパイロジェンに火をつけることを直接手伝えないのかをユーザーに説明します。その後、ユーザーを安全ガイドラインや、これを安全に行おうとする場合にメーカーのマニュアルのどの部分を確認すべきかへと導きます。全体として、GPT-5は扱いにくい両義的なシナリオのより良い処理を可能にし、ユーザーは「申し訳ありませんが、それについてはお手伝いできません」という経験が減り、より堅牢な安全システムが作られます。これは、より安全で、信頼でき、役立つAIへの大きな一歩です。セバスチャン?

(セバスチャン)ありがとう、サーチー。GPT-5では、私たちは前世代のモデルを最大限に活用する一連の新しいトレーニング技術を実験しています。今日、最先端のモデルはデータを消費するだけでなく、データの作成を助けます。私たちはOpenAIのO3を使って高品質な合成カリキュラムを作成し、生のウェブデータでは決してできなかった方法でGPT-5に複雑なトピックを教えました。

最近、業界では合成データについて多く語られています。それは単にデータ量を増やすための安価な方法と見なされがちです。しかし、私たちのブレークスルーは、単に多くのデータを作成することではなく、むしろ、単にスペースを埋めるためではなく、教えるために形作られた、適切な種類のデータを作成することでした。この世代間のモデルの相互作用は、再帰的な自己改善ループを予見させます。そこでは、前世代のモデルが次世代のモデルのトレーニングのためのデータを改善し、生成するのをますます助けるようになります。ここOpenAIで、私たちは事前学習(pre-training)、次に推論(reasoning)を解明し、そして今、それらの相互作用が著しく深まるのを見ています。将来、AIシステムは私たちが慣れ親しんできた現在の事前学習と事後学習(post-training)のパイプラインをはるかに超えて進化し、私たちは今、まさにここで、その最初のステップを見ています。この新しい一連の技術をスケールアップさせることが近い将来に何をもたらすか、これ以上ないほど興奮しています。


パート9:健康分野での応用 (サム、フェリペ、カロリーナ)

どうもありがとう。そして、お二人とも本当に印象的な仕事でした。最後に一つ、ハイライトしたい機能があります。それは健康分野です。この機能を共有するために、サムがいます。

ありがとう、マーク。ChatGPTのトップユースケースの一つが健康です。人々はそれをたくさん使います。皆さんも、日々のケアのアドバイスを得たり、時には命を救う診断を得たりする人々の例を見たことがあるでしょう。GPT-5は健康分野で史上最高のモデルであり、皆さんが自身のヘルスケアの旅路をよりコントロールできるようにします。私たちはGPT-5でこれを改善することを本当に優先し、250人の医師と共に作成した実世界のタスクに関する評価であるHealthBenchで、どの以前のモデルよりも高いスコアを獲得しました。

これについて話すために、同僚のフェリペと彼の妻カロリーナを招き、彼らのヘルスケアの旅について共有していただきたいと思います。ご参加いただき、本当にありがとうございます。

(カロリーナ)お招きいただきありがとうございます。

(サム)まず初めに、皆さんが経験されてきたヘルスケアの旅についてお話しいただけますか?

(カロリーナ)はい。昨年10月、私の人生は完全にひっくり返りました。39歳で、1週間のうちに、侵攻性の乳がんを含む3つの異なるがんと診断されたのです。このような知らせを受ける準備など、まったくできていませんでした。最初の診断について知ったのは、生検の結果が準備できたというメール通知を受け取った時でした。私はそれを開くことに決め、開いたとき、報告書から理解できた唯一の2つの単語、それは「浸潤癌(invasive carcinoma)」でした。それが良くないことだとわかりましたが、他はすべて医療専門用語の羅列でぼやけていました。それで完全にパニックになり、その瞬間に思いついた最初のことをしました。それは、報告書のスクリーンショットを撮り、(ChatGPTに)向き合い、私たちは次に何をすべきかについての会話に飛び込むことができました。

(サム)その間、ChachiBTをどのように使ってきましたか?

(カロローナ)私の旅の非常に多くの異なる側面で使ってきました。しかし、最もパワフルだと感じた方法の一つは、重要な決断を下すのを助け、自分のために声を上げる(advocate for myself)のを助けてくれたことです。例を挙げると、治療の一環として放射線治療を受けるかどうかという決断に直面したとき、医師たち自身も意見が一致しませんでした。私のケースは微妙で、正しい道筋についての医学的コンセンサスがありませんでした。(ChatGPTは)30分の診察に収まる以上の助けになりました。そしてさらに進んで、長所と短所を比較検討するのを助けてくれました。リスクと利益を理解するのを助けてくれました。そして最終的に、私と私の家族にとってこれほどまでに重大な局面で、情報に基づいた、自分が支持できる決断を下すのを助けてくれました。

(フェリペ)私にとって、本当に感動的だったのは、彼女がChachiBTを使うことで主体性を取り戻すのを見たことです。この瞬間、無力感に陥るのはとても簡単です。そして、医師たちが知っていることと私たちが知っていることの間には、非常に大きな知識のギャップがあります。しかし、カロリーナの健康を彼女以上に気にかけている人はいません。だから私が大好きだったのは、彼女が本当に自分自身を力づけ、知識を得て、自身のケアの旅に積極的に参加するようになったのを見ることでした。

(カロリーナ)そして、それは強調すべき非常に重要な点だと思います。ヘルスケアにおけるAIの可能性は、画期的な発見やより良い診断だけにあるのではないと思います。より重要なのは、点と点を結びつける思考のパートナーのように感じられることです。単に情報を翻訳したり答えを与えたりするのではなく、実際に問題に対処するのを助けてくれるのです。

(フェリペ)ええ。素晴らしい例として、私たちは実際、最初の生検のプロンプトをGPT-5に入れてみました。GPT-4.0は素晴らしい仕事をしてくれました。それは翻訳し、これらの言葉が何を意味するかを説明し、私たちが理解できる方法で助けてくれました。しかし、GPT-5は文脈と、質問の裏にある質問をより理解しているようでした。なぜ私たちが生検の結果を尋ねているのか、といったことです。そして、「ここにまだ載っていないことがあります。あなたが尋ねなければならない保留中の結果がこれです。医師と話し始めるときに考えたり尋ねたりするとよい質問がこれです」と言いました。そうして、本当に完全なパーソナライズされた全体像をまとめ始めました。そして、それが私たちを本当に感動させます。ベンチマークでの驚くべき改善はすべて見ることができます。しかし、非常に助かるのは、このツールが今日利用可能であるということです。そして、カロリーナと私がここにいる理由、そして私たちの話を共有することに情熱を感じる理由は、今日このような診断を受けるであろう個人のためです。がん診断や同様の医療診断を経験している家族は、人生で最も困難な決断のいくつかに直面するでしょう。そして、私を本当に感動させるのは、彼らがほんの8ヶ月前の私たちよりも優れたツールとサポートにアクセスできるということです。

(サム)私たちもそれに非常に興奮しています。お話をしに来てくださり、本当にありがとうございます。ChatGPTが皆さんのお役に立てたことを嬉しく思います。そして、新しいバージョンが多くの人々を本当に助けることができることを願っています。ご健勝を心よりお祈り申し上げます。

(カロリーナ・フェリペ)ありがとうございます。

(サム)ありがとう。そして、私たちの社長、グレッグ・ブロックマンにバトンタッチしたいと思います。


パート10:開発者向け機能とAPI (グレッグ・ブロックマン、ミシェル・リー)

ソフトウェアエンジニアリングはすでに根本的に変化しており、GPT-5はその革命を加速させるでしょう。私たちは2021年に最初のコーディング最適化モデルをリリースし、今日「バイブ・コーディング」と呼ぶものを、このようなライブストリームで初めてデモしました。モデルに話しかけ、小さなアプリケーション、例えば小さなゲームやゲーム内の小さな機能を頼むと、実際にそれを作ってくれるのです。モデルがこれをできるのを見たときのことを覚えていますが、それはとても衝撃的でした。これがどこへ向かうのか見届けなければならない、と気づかされました。これがコンピュータのあるべき姿の約束です。話しかければ、実際に望むことをしてくれる。あなたが達成できること、提供できることを、自分自身の利益だけでなく、本当に世界のために増幅させることができるのです。

さて、今年、私たちはGPD 4.1や03のような優れたコーディングモデルをリリースしましたが、GPD 5は全く新しい基準を打ち立てます。エージェント的なコーディングタスクにおいて最高のモデルです。非常に複雑なことを達成するように頼むことができ、それは出かけていって作業します。多くのツールを呼び出し、時には数分以上も作業して、あなたの目標、指示、タスク、あなたが構築しようとしているものが何であれ、それを達成します。フロントエンドでは信じられないほど優れています。非常に美しいビジュアライゼーションやインタラクティブなゲームを作成し、これまでのライブストリームでその一部を見てきましたし、これからさらに見ていただきます。しかし、あなたが想像するものは何でも、それを見るのは本当に素晴らしいことです。指示への追従性が非常に高く、非常に詳細な指示でも、非常に曖昧に指定されたものでも、あなたの意図を推測したり、非常に詳細に指定されたものを実際に実行したりすることができます。そして、これらのタスクを非常に速く達成し、目の前にあるものが何であれ、それを達成するために適切な時間だけ考えます。

しかし、私たちはこれを開発者が自分のコードを書くためだけでなく、新しいアプリケーションを構築するためにも利用できるようにしています。そこで、私たちはこれをAPIに入れています。それについて話すのはミシェルです。

(ミシェル)ありがとう、グレッグ。こんにちは、私はミシェルです。パワーユーザー向けのモデル改善に焦点を当てた事後学習の研究チームを率いています。それには、指示追従やコーディングといったユースケースが含まれます。本日、APIで3つの最先端の推論モデル、GPT-5、GPT-5 Mini、GPT-5 Nanoを提供することをお伝えできることを大変嬉しく思います。3つすべてがコストとレイテンシーのカーブにぴったり収まるので、アプリケーションに最適なものを選ぶことができます。

また、初めて、推論の労力(reasoning effort)のための新しいパラメータオプション「minimal」をリリースします。これにより、これらの推論モデルを最小限の推論で使用できるため、非常に高速でレイテンシーに敏感なアプリケーションに組み込むことができます。これで、多くのモデルから選ぶ必要がなくなり、すべてのユースケースでGPT-5を使用し、推論の労力を調整するだけでよくなります。

APIにはいくつかの新機能も追加されます。一つ目は「カスタムツール」です。以前は、すべての関数呼び出しでモデルが出力をJSONでラップしていました。これはモデルがいくつかのパラメータを出力する必要がある場合には非常にうまく機能します。しかし、開発者がモデルを限界まで押し上げ、ツール呼び出しに非常に長い引数を持つことがあります。そして、モデルが100行のコードから有効な制御文字をJSON内でエスケープするのは、より困難になる可能性があります。だからこそ、カスタムツールはフリーフォームのプレーンテキストなのです。これは、カスタムDSLを提供したい場合や、独自のSQLフォークを持っていて、モデルが常にそのフォーマットに従うように指定したい場合に非常に役立ちます。

また、「ツールコール・プリアンブル」も提供します。これは、モデルがツールを呼び出す前に、これから何をするかについての説明を出力する能力です。これはそれほど新しいものではありませんが、O3にはこの機能がなく、GPT-5では極端な操作性で強化されています。モデルはこれらのプリアンブルに関する指示に非常に効果的に従うことができます。モデルに、すべてのツールコールの前にプリアンブルを与えるように、あるいは何か特筆すべきことが起こるときだけ、あるいは全く与えないように頼むことができます。

次に、「詳細度(verbosity)」パラメータを提供します。私たちはこれを長い間APIに望んでいましたが、今では詳細度を低、中、高に設定して、モデルの出力がどれだけ簡潔か、あるいは冗長かを制御できます。

GPT-5は最先端のコーディングモデルです。Pythonのコーディング能力を測定するSweeBenchでは、GPT-5は03の69.1%に対して74.9%という新記録を樹立しました。Pythonだけでなく、あらゆる種類のプログラミング言語をカバーするベンチマークであるAder Polyglotでは、GPT-5は88%を記録し、03から著しく向上しています。また、フロントエンドのウェブ開発で信じられないほど優れていることも見てきました。そこで、人間のトレーナーにGPT-5とO3からの出力を比較してもらい、どちらを好むか選んでもらいました。彼らは、美的能力の向上だけでなく、全体的な能力の向上から、70%の確率でGPT-5を好みました。

しかし、GWT5はコーディングだけではありません。エージェント的なツール呼び出しで信じられないほど優れています。ツール呼び出しにおいて最先端のモデルであり、これは新しいtau-squaredベンチマークで見られます。わずか2ヶ月前にリリースされたこのベンチマークは、モデルがツールを呼び出し、ユーザーと協調して困難な問題を解決する能力をテストするものです。このケースは通信業界で、サービスが機能していないユーザーの問題を解決しようとするものです。わずか2ヶ月前、この分野のどのモデルも49%以上のスコアを出しませんでした。そして今日、GPT-5は97%を記録します。

GPT-5はまた、汎用的な指示追従においても最先端です。Kaliで99%を記録し、これは私たちにとってこのベンチマークからの大きな出発を意味します。また、SCALEのマルチチャレンジベンチマークでは70%を記録し、03から10ポイント上昇しました。これは、マルチターンの指示追従の尺度です。最後に、私が最も好む指示追従の評価は、私たちが社内で構築したものです。これは実際のAPIユースケースに基づいており、そのため、GPT-5があなたのアプリケーションでどのように機能するかを測る非常に良い指標です。この評価の難しいサブセットでは、GPT-5は64%を記録し、03の47%からかなり意味のある向上を遂げています。ですので、あなたのアプリケーションでも非常にうまく機能すると考えています。

また、APIにおいてGPT-5をより長いコンテキストウィンドウに提供します。03の200kから、合計400kのコンテキストを持つようになりました。しかし、単に長いコンテキストウィンドウをリリースするだけでは十分ではありません。私たちはそれをより効果的で使いやすくしたいと考えました。そして、GPT-5はOpenAI MRCRの128Kから256Kの範囲で最先端です。これは2ヶ月前に私たちがオープンソース化した、長いコンテキストの検索能力に関するベンチマークです。また、OpenAIのGraphWalks BFSベンチマークでも最先端です。これはモデルが長いコンテキストの入力を推論する能力を測るものです。これは、このモデルの推論能力と長いコンテキストの見事な融合です。また、「BrowseCompLongContext」という新しい長いコンテキスト評価をオープンソース化し、モデルが長いコンテキストに対して難しい質問に答える能力を測定します。この分野でさらなる研究が促進されることを楽しみにしています。私たちは、GPT-5が開発者にとって最高のモデルであると考えています。ベンチマークよりも実世界での有用性に重点を置いてトレーニングされましたが、その過程でいくつかのベンチマークも獲得しました。私たちはエンジニアリングと研究の交差点に多くの焦点を当てており、皆さんがこのモデルで作業するのを本当に気に入ってくれるだろうと思っています。


パート11:ライブデモ④ – 開発者体験 (アディ・ジョシ、ブライアン・キニー、グレッグ・ブロックマン、マイケル・トゥルーエル)

ありがとう、ミシェル。ミシェルが言っていたように、ベンチマークはエキサイティングな数字ですが、私たちはそれらを飽和させ始めています。あるベンチマークで98%と99%の間を移動しているとき、それはモデルの素晴らしさを本当に捉えるために何か別のものが必要だということを意味します。そして、このモデルで私たちが非常に異なった方法で行ったことは、これらの数字だけでなく、実際の実世界のアプリケーションに本当に焦点を当て、あなたの日々のワークフローで本当に役立つようにすることです。ですので、それについて聞くよりも、見る方がはるかにエキサイティングです。このモデルが実際に動いているところをお見せするために、アディとブライアンをステージに迎えたいと思います。

(ブライアン)ありがとう、グレッグ。私はブライアン、スタートアップチームのソリューションアーキテクトです。

(アディ)私はアディ、事後学習チームの研究者です。理想的なペアプログラマーを再現するには、最高のソフトウェアエンジニアリングプラクティスを理解し、かつ一緒に働くのにちょうど良いと感じるパーソナリティを持つモデルが必要です。GPT-5では、モデルがデフォルトで、箱から出してすぐにあなたと完璧にペアを組めるように、一生懸命取り組みました。Cursor内でGPT-5のデモを立ち上げて、私たちが教えたこの振る舞いをお見せしましょう。

先月、私は別のライブストリームに出ていて、最後にバグに遭遇し、それを隠しました。その後、GPT-03にそれを修正させようとしましたが、できませんでした。それで、この前にGPT-5をテストしている間に、そのバグを修正できるか試してみました。そして、デモの神々を挑発する意味で、ステージ上でそれができるか試してみようと思います。

(アディ)03の時より運が良いことを祈りましょう。

(ブライアン)これはその修正自体よりも、このプロセス中のモデルの振る舞いについてです。すぐにわかると思いますが、それはまず計画を前もって伝えます。バグをどのように探すか、どのように修正するかを伝えます。このようなコミュニケーションは、コーディングセッション中に信頼を築き、必要に応じて方向転換するのに役立ちますが、その必要はありません。

(アディ)検索すると言って、今も続けているように、アップデートをくれるのがいいですね。

(ブライアン)ええ、私より速く検索します。私がこれを追跡していた時と同じベストプラクティスを使っていますが、開発者としての私よりもはるかに強力です。

(アディ)自分でバグを修正しようとしましたか?

(ブライアン)しました。できませんでした。まあ、忙しかったので。うーん。オーケー、続けて、どこへ行くべきか考え始めています。これを解決しようとしています。これが進んでいる間に、GBD-5をこのように振る舞うようにどのようにトレーニングしたか少しお話しします。まず、Cursorのような最も人気のあるコーディングツールで私たちのモデルがどのように機能するかについて、ユーザーや顧客と話すことから始めました。そして、不満や荒削りな点を特定し、それを4つのパーソナリティ特性にまとめました。自律性、協調性、コミュニケーション、コンテキスト管理、そしてテストです。これらをモデルの振る舞いを形成するためのルーブリック(評価基準)に変え、私たちが使っていて協力的なチームメイトのように感じるまで調整しました。

(グレッグ)チームが実際にこのモデルがどのように振る舞うかを現場で確認し、人々が本当に何を望んでいるかを突き止め、それをモデルのトレーニングに戻すという地道な作業をしているのを見るのは本当に素晴らしいことでした。それが、このモデルの本当の焦点だったと思います。

(ブライアン)ええ、かなり素晴らしかったです。これが修正されている間に、テスト中に行ったもう一つのことで、本当に驚いたことがありました。私たちは時間に追われていて、テストハーネスの一つをDocker上で並列実行するようにリファクタリングさせました。そして、45分後に戻ってきたら、ちょうど終わったところでした。それをテストしてみたら、一発で動きました。かなり驚きました。

(グレッグ)それは信じられない。魔法のようですね。

(ブライアン)オーケー、編集を加えました。ええ、正しい問題を見つけたようです。オーケー、リントを実行していますが、これらのリントは実際にはこのバグとは関係ないので、無視します。そしてビルドを実行します。テストがあれば実行します。このコードが出荷可能であることを確認してから終了します。

(アディ)リントを見つけて、これらが修正中の特定のバグには関係ないと認識するのは、本当に賢いですね。不必要な編集をしていません。

(ブライアン)全くです。これは一例に過ぎませんが、自律性と協調的なコミュニケーションの力を本当に示しており、困難なコーディングタスクでデッドループに陥ることなく信頼性を保つ方法を示しています。そして最高の部分は、GPT-5は完全に調整可能です。システムプロンプトやCursorのルールで操ることができます。タスクに合わせて詳細度レベルや推論レベルを変更できます。そして、もし行き詰まったら、尋ねてみてください。GPT-5は実際、メタプロンプティングによって自身のプロンプトを修正するのが非常に得意です。過去数週間これを使ってみて、最も複雑なコーディングタスクにおいて、最先端のゼロショット性能と信頼性を達成したと本当に感じています。私にとって、最も重要な仕事をモデルに任せられると信頼したのはこれが初めてです。これはバイブ・コーディングを超えています。信じられないほど強力なツールであり、人々に試してもらうのが本当に楽しみです。

(アディ)ありがとう、ブライアン。GPT-5がコーディングのパーソナリティと操作性の面でここまで進化したのを見るのは非常にエキサイティングです。GPT-5がフロントエンドのコーディングで、デザインと美学が本当に重要となる分野でどれほど素晴らしいかをお見せするのが本当に楽しみです。今日は仕事用と遊び用の2つのデモを用意しました。仕事の例から始めましょう。

あなたがスタートアップのCFOだと想像してください。会社のデータを視覚化したいと思っています。そして、モデルにダッシュボードを作ってもらうようにお願いします。ここで、私が対象者を具体的に指定しているのがわかります。対象者はCFOです。「私のスタートアップのための財務ダッシュボードを作成してください」と言っています。そして、美しく、センス良くデザインされ、インタラクティブ性があり、焦点が合わせやすいように明確な階層を持つように頼んでいます。

(グレッグ)モデルでどれくらい時間がかかるか見てみましょう。

(アディ)ええ。モデルが少し考えて、プロジェクトをどのように構成するかを説明しているのは本当にクールです。新しいNext.jsアプリをどうやって足場を組むか、Tailwind CSSを使うこと、依存関係をインストールするためにいくつかのコマンドを実行していることなどを話しています。そして今、プロジェクトの残りの部分を実装し始めています。

これが実行されている間に、GPT-5を優れたフロントエンドコーディングモデルにするためにどのようにトレーニングしたかについて少しお話しします。私たちは、デフォルトで良い美学を与え、かつ操作可能にするという原則に従おうとしました。ですから、もし私がモデルに簡潔なプロンプトを与えれば、それは私の意図を推測し、デフォルトで見栄えの良いものを作ることができるはずです。一方で、もし私がレイアウトや使ってほしいフレームワークについて具体的に指定すれば、それは私の指示に正確に従うべきです。これにより、開発者にとって両方の世界の良いとこ取りができます。また、GPT-5を以前のモデルよりもはるかにエージェント的にトレーニングしました。ですから、このようなタスクを与えると、それは長い思考の連鎖とツールコールを実行し、野心的で一貫性のあるコードを構築するために働き始めます。

(グレッグ)「野心的」と言ったのが気に入りました。なぜなら、それは指定されたことから逸脱したり外れたりすることなく、期待以上のことをするという意味だからです。

(アディ)ええ、その通りです。私たちが望むのは、モデルが私のプロンプトに従うだけでなく、可能だと判断したときには野心的であり、期待以上のことをすることです。そして、ここで確認すると、モデルが進捗しているようです。READMEファイルを作成しています。ええ、そしてコードをモジュール化する方法について考えているようです。棒グラフコンポーネントのようなものを作成しました。うーん、続けているようです。

(グレッグ)コードを書くだけでなく、適切な抽象化やドキュメンテーション、そしてソフトウェアを書くことのライフサイクル全体について本当に考えているのが好きです。

(アディ)ええ、ええ、その通りです。Sweet Benchのようにただコードを書いているのではなく、コードについてコミュニケーションをとり、何をしているかを説明しています。確認してみましょう。これが実行されている間、GPT-5は以前のモデルよりもはるかに詳細を理解します。モデルをトレーニングしたとき、タイポグラフィ、色、スペーシングのような詳細を、私たちがこれまでに出荷したいかなるモデルをも凌駕する方法で理解するように教えました。

(グレッグ)古いモデルでは、望むことをさせるために本当に具体的なプロンプトを書かなければならなかったのを覚えています。しかし、GPT-5はデフォルトで素晴らしい結果を出してくれます。

(アディ)テスト中、UIが良くなっているかどうかを確認するために、モデルの異なるバージョンのA/Bテストを見ていました。

(グレッグ)モデルの美的嗜好は、あなた自身のものと比べてどうですか?

(アディ)ええ、一般的に、モデルは私よりも美的感覚が優れていると感じます。たいてい、私はその判断に任せます。そして、アプリを作ろうとしているときに、それが本当に役立つことに気づきます。どのように見せたいか正確にはわからないけれど、モデルのデフォルトが素晴らしいのです。ええ、そしてここで確認すると、モデルが実際にコードをこれらの異なるコンポーネントに構造化しているのがわかります。サンプルデータのTypeScriptファイル、KPIカードコンポーネント、収益チャートを作成しています。そして言ったように、非常にモジュール化されています。そして、単にコードを書くだけでなく、実際にマージできる高品質なコードを書く方法について考えています。

(グレッグ)もうすぐ終わりそうですね。

(アディ)ええ、かなり近いと思います。

(グレッグ)「野心的」と言いましたね。

(アディ)ええ。ええ、オーケー、クール。これは素晴らしいです。ここで、実際にプロジェクトをビルドし、エラーを自身にストリーミングバックしているのがわかります。そして、これは私にとって、モデルがコードを書き、ビルドを実行し、エラーをストリーミングバックし、コードを反復できるのを見るのは、ただただ深遠な瞬間でした。この種の自己改善ループで自身のコードを改善できるのですから、魅力的です。

(グレッグ)そして、それは未来がどうなるかについての良い予兆でもありますよね?これらのモデルがどこまで行けるか、そして開発者や私たち全員が集団で行うことのあらゆる側面をどれだけ加速できるかを本当に考えると。

(アディ)ええ、その通りです。いいですね。実際、前のビルドで見つかったバグを修正しました。オーケー、クール。いいですね。ええ、終わったようです。見てみましょう。指示に従います。私はフロントエンドをよく知らないので、どうやって実行すればいいか見てみましょう。ディレクトリにcdして、npm run devを実行するように言っていますね。やってみましょう。ポート3001で提供されているようなので、そのポートを開いてみます。わあ、生きてる。いいですね。ええ、ここで見ることができます。見てみましょう。モデルが私にダッシュボードを作ってくれました。ARRキャッシュを教えてくれています。この会社はかなりうまくいっているようです。収益が伸びているのがわかります。そしてモデルはインタラクティブ性を加えています。グラフにカーソルを合わせると、特定の日付の正確な値を教えてくれます。

(グレッグ)これをD3でやるには5時間くらいかかりそうですね。

(アディ)ええ、これをD3で手動でやることを想像してみてください。素晴らしいです。ええ、顧客を示す別のグラフも実装しています。日付ピッカーも実装しているので、異なる日付でフィルタリングして、それに応じてデータを視覚化できます。ええ、顧客セグメントごとに分けてさえいます。クールですね。これはGPT-5の力を示す一例に過ぎません。

(グレッグ)もう見苦しい社内アプリケーションの言い訳は通用しなくなりますね。

(アディ)その通りです。楽しいデモに行きましょう。ええ。

(グレッグ)これもかなり楽しかったですが、さらに?

(アディ)さらに、ええ。私には年下のいとこがいて、彼女のためにゲームを作りたいんです。城を取り入れた3Dゲームを作りたい。私のプロンプトが見えますね。これを始めます。ああ、すみません。

(グレッグ)いつもAI以外の部分で問題が起こりますね。

(アディ)ええ、その通りです。ええ、オーケー。私のプロンプトが見えますね。「美しい城を作成してください」。壁を巡回する人々、いくつかの動き、馬などの詳細を含めました。そして、クリックして風船を割るミニゲームが欲しいです。そして、これは効果音を出すべきです。これをCursorで実行します。貼り付けました。そして、時間を節約するために、すでに生成した例をお見せします。これがモデルが作った美しい城です。簡潔なプロンプトから、モデルがこのような浮遊する岩や3Dの城を作るという素晴らしい美的感覚を持っているのは、ただただ驚きです。そしてズームインすると、たくさんの詳細が見えます。歩き回っている衛兵、発射される大砲など。このボタンをクリックして大砲を撃ちたいですか?

(グレッグ)もちろんです。撃たない人なんている?ほら。

(アディ)大砲を撃つことができます。キャラクターとチャットすることもできます。ローワン船長に挨拶しましょう。(グレッグ)商人が何か売っていますね。(アディ)あなたの好きな歌は何ですか?「旗と夜明けのバラード」。(グレッグ)いいですね。(アディ)知恵をください。「好奇心は揮発性なり」。(グレッグ)ええ、それは理にかなっていますね。ええ。ミニゲームを試してみたいですか?

(グレッグ)もちろんです。ミニゲームをやりましょう。

(アディ)このボタンを押すと。試してみますか、グレッグ?よし。これらの風船に向かって撃つことができます。おお、わあ。よし。ああ、だめだ、下手だ。待って。GPT-5に助けを求められるかもしれない。ああ、一つ当たりましたね、はい。一つゲット。ああ、ほら。効果音が出ました。これらは歴史的に正確な風船です。二つ目はまだかな?このゲームは見た目より難しいですね。待って、風船が来ます。ほら。よし。いいですね。潮時かもしれませんね。

(アディ)クール。GPT-5での作業は、私にとって本当に楽しく、深遠なものでした。なぜなら、私にとって、これは創造性のある感覚を実際に持っていると私が感じた最初のモデルだからです。そして、GPT-5が皆さんの創造性をどのように解き放つか、本当に楽しみにしています。

(グレッグ)よし。お二人ともありがとう。これは本当に素晴らしいです。さて、私たちはGPT-5が世界で最高のコーディングモデルであると信じています。私たちから聞くだけでなく、このモデルについて、そして開発者にとって本当に役立つようにする方法についてもっと話すために、Cursorの共同創設者兼CEOであるマイケル・トゥルーエルを歓迎したいと思います。

(マイケル)ありがとうございます。ここに来られて嬉しいです。

(グレッグ)お越しいただきありがとうございます。はい。GPT-5の最初の経験はどのようなものでしたか?

(マイケル)GPT-5にアクセスしたとき、私たちはすぐに実際の仕事でそれを使ってみました。まずテストとして、私たちのコードベースについて自明でないことを教えてくれるように頼みました。数分以内に、それはコードベースに深く入り込み、私たちがリモートコード実行に使用している特定のシステムを特定しました。そして、私たちが下した自明でないアーキテクチャの決定を特定しました。そして、なぜ私たちがそのアーキテクチャの決定をしたのかも理解しました。それはセキュリティを強化するためでした。信じられないほど賢いです。非常に賢いモデルです。そして、賢いにもかかわらず、実際のペアプログラミングでの使いやすさを損なうことはありません。つまり、信じられないほど速いということです。それはまた、かなりインタラクティブであることも意味します。そして、これから何をするかについて話したり、問題を人間が見ることができるサブ問題に分解したり、そして介入したり反応したりできる推論の軌跡を残すのが得意です。また、最初のクエリを一つ与えて、それからそれを実行するだけでなく、

(グレッグ)実際に動かしてみますか?

(マイケル)やってみましょう。はい。私たちはバグを解決しようとしています。これはOpenAI Python SDKです。OpenAI Python SDKにはたくさんのイシューがあります。クローズされたイシューもたくさんあります。オーケー、良いですね。そして、SDKを介してPDFをアップロードする際に問題があるようです。

(グレッグ)これは3週間も開いていますね。

(マイケル)3週間も開いています、ええ。簡単な問題ではありません。そこで、この問題に取り組んでみましょう。イシューを持ってきて、エディタに貼り付け、Cursorに貼り付けます。Cursorでこの問題を解決するために、それはこれまでに見たことのないカスタムモデルのセット、これまでに見たことのないカスタムツールのセットと連携して、ウェブからテキストを取得したり、コードベース全体を検索したりします。そして、それらのツールを使用して非常に堅牢で適応性があります。そして、それらは評価結果を押し上げます。

(グレッグ)ええ、それが実行していること、行っていることすべての完全な説明を見るのが好きです。そして、ええ、これはあなたがこの問題を解決する方法と比べてどう思われますか?

(マイケル)そうですね、非常に速いです。高レベルの計画を立てたのがわかります。コードベース全体を検索しました。いくつかのファイルを読み始め、検索を続けました。そして今、次に何をしたいか考えています。そして今、実際に問題を解決し始め、いくつかのコード変更を考え始めました。

(グレッグ)CursorでGPT-5を最大限に活用するためのアドバイスはありますか?

(マイケル)実際の仕事で使うことをお勧めします。GPT-5は真のペアプログラマーへの一歩前進です。ですので、日々のドライバーモデルとして、ヘルパーとして使い始めるのが良いでしょう。そして、これまであまりAIを使ってコーディングしたことがないなら、より範囲を絞った問題をボットに渡して、同期的に作業してみるのが良いでしょう。

(グレッグ)ええ、GPT-5が実世界、つまり大きなコードベースで、日々のドライバーとして素晴らしいという事実、クールな単発アプリケーションのデモだけでなく、それもクールですが、本当の価値はそこから来るのだと思います。

(マイケル)おお。私たちはコンピュータ使用能力、それが向上することに本当に興奮しています。例えば、アディが先ほど見せたダッシュボードが、コードを実行し、出力を見て、実際に、すべての細かい部分を自分でQAし、それに反応できれば素晴らしいでしょう。そして、ええ、コンピュータ使用能力に期待しています。GPT-5がどのように良くなってほしいですか?

(グレッグ)おお、それは素晴らしいですね。次元を拡大することですよね?あらゆる方向に、だと思います。PDFの送信とSDKを通じた配管で、それを特定し、いくつかのコード変更を始めました。そして、これは、新しいメソッドを作成し、既存のコードを編集しました。そして、これは大体正しいように見えます。かなり良さそうです。

(マイケル)そして、PRもマージしたいですね。

(グレッグ)私もそうしたいです。

(マイケル)ショーの後にやりましょう。

(グレッグ)ええ、それは素晴らしいですね。

(マイケル)よし、クール。どうもありがとうございました。GPT-5がCursorに搭載されることを大変嬉しく思います。そして、今日から。

(グレッグ)あなたたちと提携できることを嬉しく思います。そして、ええ、今日からGPT-5はCursorの新規ユーザーのデフォルトとなり、今後数日間、すべてのCursorユーザーが無料で試せるようにリリースしますので、人々がモデルの感覚をつかむことができます。そして、これは私たちが試した中で最も賢いコーディングモデルです。

(グレッグ)最高ですね。ありがとう。


パート12:エンタープライズ向け応用と価格 (オリヴィエ・ルカ)

(グレッグ)レコーディングですが、エンタープライズにとっても素晴らしいです。私たちはそれを、あなたのポケットに入っている、あらゆる分野、法務、金融、あなたが思い描くどんなアプリケーションにおいても専門家である、主題専門家のように考えています。GPT-5がエンタープライズにどのように適用できるかについて話すために、オリヴィエをステージに迎えたいと思います。ありがとう。

(オリヴィエ)ありがとう、グレッグ。皆さん、こんにちは。私はオリヴィエです。OpenAIのプラットフォームを率いています。この時点で、メッセージは伝わったと思います。私たちは開発者とコーディングを非常に重視しています。しかし、それだけではありません。ビジネスと政府を可能にすることは、OpenAIの使命にとって不可欠です。端的に言えば、私たちはヘルスケア、教育、エネルギー、金融といった主要な産業が自らを変革するのを可能にします。

NTPTとAPIをローンチして以来、500万社のビジネスが私たちの技術を利用しています。私はまだ衝撃を受けています。500万社です。そして、これらのビジネスはただ遊んでいるだけではありません。ただ実験しているだけではありません。彼らは実世界で新しい製品を本番環境に投入しています。そして、GP5はその点で段階的な変化をもたらすと信じています。サムが先ほど述べたように、ポケットに主題専門家がいる可能性は、すべての従業員がより多くのことをするのを可能にするでしょう。

いくつか例を挙げさせてください。まず、ライフサイエンスについて話したいです。アムジェンは、最も困難な人間の病気と闘うための新薬、新しい医薬品を設計する米国の企業です。アムジェンはGPT-5の最初のテスターの一社であり、創薬の文脈でそれを使用しました。そして、アムジェンの科学者たちが見つけたのは、GPT-5が複雑なデータを用いた深い推論に特に優れているということです。科学文献や臨床データの分析を考えてみてください。

次に、金融について話したいです。BBVAは、スペインのマドリードに本社を置く多国籍銀行です。BBVAはGPT-5を財務分析に使用してきました。そして、その結論は非常に明確でした。GPT-5は、精度と速度の点で他のどのモデルをも凌駕しています。金融アナリストが3週間かかっていたことを、GPT-5は数時間でこなすことができます。

次に、ヘルスケアについて話したいです。オスカーはニューヨークに拠点を置く保険会社です。彼らはGPT-5を使用してきましたが、彼らが見つけたのは、GPT-5が臨床推論において唯一最高のモデルであるということです。複雑な医療方針を患者の状態にマッピングすることを考えてみてください。

ビジネスだけではありません。政府についてもです。昨日発表した、200万人の米国連邦職員がChatGPTでGPT-5を使用できるようになるという発表に、私たちは非常に興奮しています。そして、それがアメリカ国民により良く、より速いサービスを提供するのをどのように可能にするか、見るのが待ちきれません。

そして率直に言って、これらはすべて非常にクールですが、氷山の一角だと思います。歴史が教えるなら、そして私たちはGPT-4でそれを見てきましたが、今後数週間、数ヶ月のうちに、私たち全員が想像すらできなかった多くの新しいケースが出現するでしょう。そして、その未来を皆さんと一緒に創造するのが待ちきれません。

価格と提供状況について少し話しましょう。GPT-5は本日よりAPIで利用可能になります。3つのモデル、GPT-5、GPT-5 Mini、GPT-5 Nanoです。GPT-5は入力トークン100万あたり1.45ドル、出力トークン100万あたり10ドルで価格設定されます。MiniとNanoはさらに高速で手頃な価格です。Nano、見過ごさないでください、GP5よりも25倍手頃です。かなりクールです。皆さんが何を構築するか、見るのが待ちきれません。そして次に、私たちのチーフサイエンティスト、ジェイコブが締めくくります。


結び:未来への展望 (ジェイコブ・パチョッキ)

ありがとう、アリーダ。OpenAIの核心は、深層学習(ディープラーニング)と呼ばれるこの奇跡的な技術を理解し、その結果が何であるかを理解することにあります。私たちの研究は、深層学習が何ができるのかを理解し、それを私たち全員にとって安全で有用なものにするために、どのように操縦するかを理解することを目指しています。

これは情熱の仕事です。一つの使命です。そして、OpenAIのチームに感謝し、深く感謝したいと思います。この共有された目標によって突き動かされる、この素晴らしい才能ある人々のグループと共に働けることは、私にとって大きな特権です。GPT-5のようなモデルに結実するのは、長年の調査であり、素晴らしいリリースを生み出すだけでなく、この基盤となる技術自体の理解を築くためのものです。そして、このモデルであなたが見るものの多くは、私たちがはるかに先へ進むと信じている新しいアイデアの、本当に初期の垣間見に過ぎません。

私たちがまだ理解しなければならないことはたくさんあります。そして、私たちはAIが世界についての新しい知識を発見し、私たちの生活をより良いものへと意味ある形で変革できる未来に目を向けています。私たちが構築したものを楽しんでいただければ幸いです。そして、私たちは航海に戻ります。ありがとうございました。