2026.02.16 | テクノロジー

NvidiaがDreamDojo公開:4.4万時間の人間動画でロボットが学習

ロボットはどうすれば「世界」を理解できるのでしょうか。Nvidiaが公開したDreamDojoは、4.4万時間の人間の一人称映像から物理世界を学ばせる研究です。ロボット専用データ収集の負担を減らし、訓練の進め方を変える可能性があります。

4.4万時間の映像が意味するもの — ロボットが“観察”から学ぶ時代へ

DreamDojoは、ロボットが物理世界を理解するための「世界モデル(world model)」を目指した研究です。世界モデルとは、環境や物体の振る舞いを内部で表現し、「次に何が起きるか」を予測できるようにする仕組みを指します。人が日常の中で、押す・落とす・置くといった行為の結果を直感的に理解しているように、ロボットにも同じ土台を持たせようとしています。
特徴は、学習に使われた動画データの規模です。研究チームはDreamDojo-HVというデータセットを用意し、4.4万時間(44k hours)の多様な人間の一人称視点動画で事前学習を行ったと説明しています。一人称視点とは、人間の目線に近い映像です。手を伸ばして物をつかみ、置き、向きを変えるといった動作が連続して記録されます。

説明資料では、このデータセットが「世界モデルの事前学習用として最大規模」であり、過去最大だったデータセットと比べて、長さは15倍、スキルは96倍、シーンは2,000倍に拡張されたとされています。スキルとは、物体操作の種類や行動パターンを指すと理解すると分かりやすいでしょう。
学習方式も二段階です。最初に、人間動画を使って「latent actions(潜在アクション)」で事前学習を行い、広い物理知識を獲得します。潜在アクションとは、映像の動きをロボットの関節操作に直結させず、抽象的な行動表現として学ぶ方式です。その後、対象となるロボット機体に対して連続的なロボットアクションでポストトレーニングを行い、機体固有の動きへ適応させます。
ここまでで見えてくるのは、DreamDojoが「大きいデータで学ばせた」という話に留まらず、実際に使える形を意識して設計されている点です。次は、その“使える条件”の中身を見ていきます。

実用段階への突破口 — リアルタイム動作とシミュレーションの価値

DreamDojoのもう一つの焦点は、現実に近い条件で扱える処理速度です。研究チームは「distillation(蒸留)」によってモデルを軽量化し、リアルタイムで動かせる形へ落とし込んだと述べています。蒸留とは、大きなモデルの知識をより小さなモデルへ移し替え、計算コストを下げる手法です。論文では、10FPS(1秒間に10フレーム)で1分以上のリアルタイム相互作用が可能になったと報告されています。FPSは処理の滑らかさを示す指標で、値が高いほど連続した動きとして扱いやすくなります。研究チームは、この性能がライブの遠隔操作(teleoperation)や、その場で計画を立て直す用途につながると説明しています。

またDreamDojoは、複数のヒューマノイドロボットプラットフォームで動作例が示されています。具体的にはGR-1、G1、AgiBot、YAMなどです。さらに研究チームは、「行動条件付きのロールアウト(action-conditioned rollouts)」を幅広い環境と物体操作で示したと述べています。
ロールアウトとは、ある行動を入力した場合に、未来の状態がどう展開するかをシミュレーションとして出力することを指します。つまりDreamDojoは、ロボットの行動と環境変化の関係を、一定の時間幅で予測できることを示そうとしています。
下流用途としては、「実世界に展開せずに方策を評価する」ことや、「モデルベース計画によってテスト時に改善する」ことも挙げられています。これらは“可能性の提示”ですが、実機テストに入る前に検証を積める余地がある、という点は見逃せません。
このようにDreamDojoは、学習の話だけでなく「評価と運用」の入口まで踏み込んでいます。では、なぜ今この研究が出てきたのか。背景にはAI産業の大きな流れがあります。

Nvidiaが見据える次の計算基盤 — 物理世界への拡張

DreamDojoの公開は、Nvidiaがロボティクスを重要領域として見ている流れの一部でもあります。Jensen Huang氏はダボス会議(World Economic Forum)で、AIロボティクスを「once-in-a-generation opportunity」と表現し、製造業の強い地域にとって特に重要になる可能性があると述べています。さらにDigitimesによれば、今後10年がロボット技術にとって重要な期間になるという趣旨の発言もあったとされています。同氏は2月6日にCNBCの番組「Halftime Report」で、AI関連の設備投資にも触れています。主要なハイパースケーラーの資本支出が今年最大6,600億ドル規模に達する可能性がある中でも、それは「正当で、適切で、持続可能」だと述べたとされています。Meta、Amazon、Google、Microsoftといった企業がAI投資を増やしている状況を踏まえ、現在を「人類史上最大のインフラ構築」と表現した点も紹介されています。

この投資の波は、ロボティクス市場にも広がっています。Dealroomのデータとして、2025年にロボティクス系スタートアップが調達した資金が265億ドルで過去最高だったことが示されています。欧州ではSiemens、Mercedes-Benz、Volvoなどがロボティクス領域で提携を発表したとも書かれています。TeslaのElon Musk氏が、同社の将来価値の80%はOptimusによると主張している点も、同じ文脈で語られています。
DreamDojoがすぐに商用製品へ直結するかは分かりません。ただ、NvidiaがGPU企業としてだけでなく、AIインフラ全体を担う側へ踏み込んでいることは、Anthropicへの投資やOpenAIの資金調達への参加意向とあわせて示されています。
ロボットは、画面の中のAIと違って「動けば終わり」ではありません。現実空間では、物の重さも、摩擦も、置き方も、毎回少しずつ違います。DreamDojoは、その揺らぎを前提に学ばせようとする方向性を示しています。

まとめ

いかがだったでしょうか?
DreamDojoは、4.4万時間の人間動画を使ってロボットの世界モデルを学習させる研究でした。
2段階学習により、人間の観察から物理知識を得て、ロボット機体へ適応させる流れが示されています。
リアルタイム動作やシミュレーション用途も提示され、実運用を意識した論点が含まれていました。
AIが現実空間の作業へ近づいていることを示す事例として、今後の動きも注目されます。