OpenAIのRealtime APIとは?翻訳・文字起こし対応の音声AIを整理
OpenAIは、リアルタイムで会話しながら翻訳や文字起こし、タスク実行まで行える新たな音声AIモデルを発表しました。音声AIは、単なる読み上げ機能ではなく、人とソフトウェアをつなぐ操作手段へ変わり始めています。運転中や移動中でも自然に使える環境が現実味を帯びる中、今回の発表は「声でAIを使う」ことの意味を大きく広げる内容となっています。
ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
GPT-Realtime-2で変わる“会話の使い方”
今回の発表で中心となるのが、OpenAIの新しい音声モデル「GPT-Realtime-2」です。特徴は、自然に返答するだけではなく、会話を続けながら情報整理やツール操作まで行える点にあります。
従来の音声AIは、「話しかける→返答する」という一問一答型が主流でした。一方でGPT-Realtime-2は、会話中に条件が変わっても流れを維持しながら応答できます。OpenAIは、会話を続けながらツールを呼び出し、必要な処理を進められる点を特徴として説明しています。
発表では、不動産サービスのZillowの事例も紹介されました。ユーザーが「予算内で、交通量の多い道路を避けた家を探して。土曜日に内見予約も入れて」と話すと、AIが条件を整理しながら検索や予約処理を進めるイメージです。単なる音声検索ではなく、会話を通じてタスクを処理する形へ近づいています。

また、GPT-Realtime-2では「確認しています」「少々お待ちください」といった短い応答も可能です。従来の音声AIでは、処理中に無音になるケースもありましたが、状況を伝えながら会話を継続できるようになりました。細かな違いに見えますが、実際の使いやすさには大きく影響します。
今回の発表からは、音声AIが“質問に答える存在”から、“会話しながら処理を進める存在”へ変わり始めていることが見えてきます。
長い会話や複雑な指示にも対応し始めた

GPT-Realtime-2では、「128Kコンテキスト」に対応した点も重要です。コンテキストとは、AIが会話内容をどれだけ保持できるかを示す仕組みで、途中で条件が増えたり話題が戻った場合でも、前の内容を踏まえながら応答しやすくなっています。
たとえば旅行予約の途中で条件を変更したり、前に話した内容へ戻った場合でも、会話全体を踏まえながら処理を続けやすくなる形です。従来の音声AIでは、少し話題が変わるだけで流れが途切れるケースも少なくありませんでした。さらに、専門用語や固有名詞を保持しやすくなった点や、会話内容に応じて口調を調整できる点も発表されています。問題対応では落ち着いた話し方、ユーザーが困っている場面では共感を含んだ話し方を選びやすくなるなど、実際の利用シーンを意識した改善が進められています。
OpenAIは、GPT-Realtime-2を単なる音声チャットではなく、「会話しながら処理を進める音声インターフェース」として位置づけています。音声AIは、話しかけるための機能から、ソフトウェアを操作する入り口へ広がろうとしています。
そして今回の発表では、会話だけではなく、その場で翻訳や文字起こしを行うモデルも同時に公開されました。
リアルタイム翻訳と文字起こしで、音声AIは“裏方機能”にも入り始めた
OpenAIは今回、リアルタイム翻訳モデル「GPT-Realtime-Translate」と、リアルタイム文字起こしモデル「GPT-Realtime-Whisper」も公開しました。どちらも、会話が終わってから処理するのではなく、話している最中から処理を進めるモデルです。
GPT-Realtime-Translateは、70以上の入力言語に対応したリアルタイム翻訳モデルです。話者のスピードに合わせながら翻訳を進める設計となっており、会話のテンポを崩しにくくなっています。OpenAIは、地域ごとの発音や専門用語を含む会話にも対応できる点を特徴として説明しています。発表では、Deutsche Telekomが多言語サポート用途で検証していることも紹介されました。ユーザーは自分の話しやすい言語で会話し、相手側には翻訳済みの内容がリアルタイムで届く仕組みです。また、Vimeoは動画をリアルタイム翻訳し、視聴者が希望する言語で内容を理解できる活用例を紹介しています。

加えて、「GPT-Realtime-Whisper」はリアルタイム文字起こしに対応しています。話している内容をその場でテキスト化できるため、字幕表示や議事録作成、サポート履歴の保存などに利用できます。従来のように録音後にまとめて処理するのではなく、会話と同時に文字化できる点が特徴です。OpenAIは、会議、教育、カスタマーサポート、医療、営業などでの利用を想定しています。音声AIは“会話相手”としてだけではなく、翻訳、記録、情報整理を同時に支える仕組みとしても使われ始めています。
今回の発表で見えてきたのは、「AIと会話する」という段階から、「会話そのものをリアルタイムで処理する」という方向への変化です。音声は入力手段の一つではなく、ソフトウェアを動かす中心的なインターフェースへ変わろうとしています。
まとめ

いかがだったでしょうか?
OpenAIが発表したRealtime APIは、音声で会話するだけのAIではなく、会話しながら翻訳、文字起こし、タスク処理まで行う方向へ進んでいます。GPT-Realtime-2は音声による操作をより実用的なものにし、GPT-Realtime-TranslateやGPT-Realtime-Whisperは音声データの使い道を広げています。キーボードや画面操作に加えて、声でソフトウェアを使う場面は今後さらに増えていくかもしれません。