Gemini Omni 登場!Googleが発表した動画生成AIの新機能とは
動画生成AIはここ1年で一気に広がりました。しかし、多くは「映像を作る」ことが中心で、細かな修正や一貫した表現には課題が残っていました。Googleが発表した「Gemini Omni」は、その流れを変える存在として注目されています。会話を通じて動画を編集し、現実世界への理解まで取り込む新モデルの特徴を整理します。
ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
Gemini Omniは何が違うのか “生成AI”から“対話型クリエイター”への変化
動画生成AIはここ数年で一気に増えました。テキストを入力するだけで映像を作れるサービスも珍しくありません。しかし、多くのサービスでは「一度生成したら終わり」という使い方が中心でした。細かな修正を行うたびに最初から作り直しになり、キャラクターの見た目や映像の雰囲気が変わってしまうケースも少なくありません。
Googleが発表した「Gemini Omni」は、そうした動画生成AIとは異なる方向を打ち出しています。特徴は、会話を続けながら動画を編集できる点です。例えば、「背景を夕方に変えてください」「人物を追加してください」「カメラを横からの視点にしてください」といった指示を重ねても、前の内容を維持しながら編集を続けられるとされています。Googleは、キャラクターの一貫性やシーンの流れを保ったまま修正できる点を強調しています。
背景にあるのが、Geminiの「マルチモーダル」性能です。マルチモーダルとは、テキストだけでなく、画像・音声・動画など複数の情報を同時に理解する仕組みを指します。Gemini Omniは、こうした情報を組み合わせながら動画を生成できます。Googleの発表によると、「どんな入力からでも生成できる」ことも特徴の一つです。画像・テキスト・動画・音声を組み合わせた制作を想定しており、現時点では音声入力について“音声リファレンス”から対応すると案内されています。
興味深いのは、Googleが「生成」よりも「対話」を前面に出している点です。従来の動画編集では、タイムライン操作や細かな設定変更が必要でした。一方でGemini Omniは、チャットを続ける感覚で映像を調整していく構成になっています。動画制作の流れは、「編集ソフトを操作する作業」から、「AIと会話しながら形にしていく体験」へ変わり始めているのかもしれません。
そしてGoogleは、その自然な映像表現を支える“理解力”についても強調しています。
Gemini Omniが見せた“映像理解” 物理法則や世界知識まで扱う理由

Gemini Omniで特に注目されているのが、「映像を理解しながら生成する」という考え方です。Googleの発表では、重力や流体、運動エネルギーといった物理法則への理解が向上していると説明されています。動画生成AIではこれまで、「見た目は綺麗でも、動きに違和感がある」という場面が少なくありませんでした。人物の動作が不自然だったり、水の流れ方がおかしかったり、物の位置関係が途中で崩れるケースも見られます。理由の一つは、AIが映像の意味ではなく、映像パターンを中心に学習していたためです。Gemini Omniは、その部分を改善しようとしているように見えます。
例えば、物が落ちる方向や、人が走った時の重心移動など、私たちが無意識に理解している動きを踏まえながら映像を生成できるとされています。Googleは「直感的な物理理解」という表現を使っていますが、簡単に言えば、「自然な動き」をAIが判断しやすくなっている状態です。
さらに特徴的なのが、Geminiの知識ベースを動画生成にも利用している点です。Geminiはもともと、歴史・科学・文化といった幅広い情報を扱ってきました。Omniでは、その知識を映像生成にも活用すると説明されています。Googleの発表では、短い指示から説明動画を作成したり、複雑なテーマを視覚的に整理したりする用途も紹介されました。専門用語だけでは伝わりにくい内容を、映像として理解しやすく見せられる点は、大きな特徴の一つと言えそうです。
また、自分自身の見た目や声を再現できる「Avatars」機能にも触れられています。ユーザー自身のデジタルアバターを作成し、その姿で動画生成できる仕組みです。一方で、音声や発話内容の編集については、安全性を確認しながら段階的に提供すると説明しています。さらに、Omniで生成された動画には、「SynthID」と呼ばれるデジタルウォーターマークが埋め込まれます。AI生成コンテンツを識別するための仕組みであり、Googleは透明性や安全性への対応も進めています。
動画生成AIの競争は、画質だけではなく、「どれだけ世界を理解しながら映像を作れるか」という段階へ移り始めているのかもしれません。
まとめ

いかがだったでしょうか?
Googleが発表したGemini Omniは、単に動画を生成するだけではなく、会話を通じて映像を組み立てていく方向性を示しました。映像の見た目だけではなく、物理法則や世界知識まで扱おうとしている点も特徴です。今後、動画制作は「編集ソフトを操作する作業」から、「AIと対話しながら作る体験」へ変わっていく可能性があります。Gemini Omni Flashは、その変化を象徴する存在として注目を集めそうです。