2026.03.10 | テクノロジー

OpenAIがGPT-5.4を発表
AIの作業能力と進化を解説

OpenAIは新しいAIモデル「GPT-5.4」を発表しました。ChatGPT、API、Codexで利用でき、推論やコーディング、ツール連携といった複数の能力を1つのモデルにまとめた点が特徴です。スプレッドシートやドキュメント作成、さらにはコンピュータ操作まで対応範囲が広がりました。GPT-5.4はどのような進化を遂げたのか。公開された内容をもとに整理します。

GPT-5.4は「複雑な作業」を前提に設計されたモデル

GPT-5.4は、推論能力、コーディング能力、そしてAIエージェントとしての作業能力を統合したモデルとして公開されました。これまでのAIは質問への回答が中心でしたが、GPT-5.4は複数の工程を含む作業を処理することを前提に設計されています。
モデルにはGPT-5.3-Codexのコーディング能力が取り込まれています。Codexはソフトウェア開発向けのAIモデルで、コード生成やデバッグなどを得意とします。GPT-5.4ではこの能力に加え、スプレッドシートやプレゼンテーション、ドキュメント作成といった知識業務への対応も強化されました。こうした能力は「GDPval」という評価指標でも確認されています。GDPvalは44職種の業務成果物を評価するベンチマークで、GPT-5.4は83.0%の比較で専門職と同等以上の成果を示しました。前モデルGPT-5.2の71.0%から大きく改善しています。

スプレッドシート作成能力を評価する社内テストでは平均87.5%のスコアを記録し、GPT-5.2の68.4%から向上しました。プレゼンテーション評価でも、評価者の68.0%がGPT-5.4の成果物をより好ましいと判断しています。
事実性の改善も報告されています。誤りを指摘されたプロンプトを使った評価では、誤った主張が含まれる確率はGPT-5.2と比較して33%低下しました。回答全体に誤りが含まれる確率も18%低下しています。
こうした改善から見えてくるのは、AIが単に答えるだけの存在から、作業を伴うタスクを処理する方向へ進んでいるという点です。では、その作業能力はどこまで広がっているのでしょうか。次に、コンピュータ操作の進化を見ていきます。

コンピュータを操作するAIとしての能力が大きく向上

GPT-5.4では、AIがコンピュータを操作する能力が強化されています。OpenAIはこのモデルを、ネイティブでコンピュータ操作に対応した汎用モデルとして公開しました。
AIはスクリーンショットを読み取り、画面の状態を理解しながらマウスやキーボードの操作を指示できます。例えば、ブラウザ画面のボタンをクリックする、フォームに入力するなど、画面上の情報をもとに操作を進めることが可能です。
操作はコードとして生成することもできます。Playwrightというブラウザ自動化ツールを利用したコードを生成し、ブラウザ操作をプログラムから実行することができます。Playwrightはウェブアプリケーションのテストなどで使われる開発ツールです。

こうした能力は評価指標でも確認されています。デスクトップ操作を評価する「OSWorld-Verified」では、GPT-5.4の成功率は75.0%でした。GPT-5.2の47.3%を大きく上回り、人間の平均成績である72.4%も超える結果となっています。
ブラウザ操作を評価する「WebArena-Verified」では67.3%の成功率を記録しました。さらにスクリーンショットのみを入力として操作を行う「Online-Mind2Web」では92.8%の成功率を達成しています。
視覚認識能力も向上しています。GPT-5.4では最大1000万ピクセル、または6K解像度まで対応する「original」という画像入力レベルが追加されました。高解像度の画面や図表を読み取れるようになり、画面理解の精度も改善しています。
こうした能力は、AIが画面を理解しながら作業を進める仕組みを支える基盤でもあります。次に、AIが外部ツールや情報源と連携しながら作業を進める仕組みを見ていきます。

ツール連携と長時間タスク処理でAIエージェントの性能を強化

GPT-5.4では、外部ツールを利用しながら作業を進める能力も改善されています。AIが複数のツールやサービスを組み合わせてタスクを実行する仕組みは「AIエージェント」と呼ばれます。
APIでは「tool search」という機能が導入されました。従来はツールを利用する場合、すべてのツール定義を最初からAIに渡す必要がありました。ツールの数が増えると、その分トークン量(AIが処理するテキスト量)が増え、コストや応答速度に影響することがありました。
tool searchでは、最初にAIへ渡されるのはツールの一覧のみです。実際にツールが必要になった段階で、そのツールの定義を検索して読み込みます。評価では、同じ精度を保ったまま総トークン使用量を47%削減できたと報告されています。

GPT-5.4は最大100万トークンのコンテキストにも対応しています。コンテキストとは、AIが一度に参照できる情報量のことです。長い文章や複数の作業手順を保持したまま処理を進めることができます。
ウェブ検索能力も改善されています。AIが繰り返し検索を行いながら情報を見つける能力を評価する「BrowseComp」では、GPT-5.4はGPT-5.2より17ポイント高いスコアを記録しました。GPT-5.4 Proは89.3%という結果を示しています。
ツールの選択、長いコンテキストの保持、そして検索能力の向上。これらの機能が組み合わさることで、AIは複数の工程をまたぐ作業を処理しやすくなりました。GPT-5.4は、AIが単なるチャットツールではなく、作業の流れを支える存在へ変化していることを示しています。

まとめ

いかがだったでしょうか?
GPT-5.4は、推論、コーディング、ツール連携、コンピュータ操作といった能力を1つのモデルにまとめたAIとして公開されました。複数の作業工程を処理する能力が強化され、AIが実際の作業を支える場面も広がりつつあります。ChatGPTだけでなくAPIやCodexでも利用できるため、さまざまな環境で活用が進む可能性があります。AIの役割が対話から作業へ広がっていることを示すモデルと言えるでしょう。