AWS Trainiumとワールドモデル、AI基盤選びの新しい視点
AIの活用領域は、テキストや画像生成だけでなく、物理世界の動きを扱うモデルにも広がっています。こうした分野では、膨大な計算リソースを長時間安定して使える基盤が重要になります。この記事では、ワールドモデル系スタートアップがAWS Trainiumを選び始めている背景をご紹介します。
ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
ワールドモデルAIとは何か
AI分野の大手企業の中には、すでにAmazonのAIチップを活用している企業があります。AnthropicはAWS Trainium上でモデルの学習と実行を行っており、OpenAIもAmazonとの複数年にわたるパートナーシップの一環として、将来的に約2GW分のTrainium容量を利用することを約束しています。
その一方で、AWS Trainiumにはこれまでとは異なるタイプの顧客も現れています。チャットボット時代だけでは見えにくかったAIの方向性を示す存在として、テキストではなく、物理法則や環境、現実世界のインタラクティブなシミュレーションを生成するAIスタートアップが注目されています。

こうしたモデルはワールドモデルと呼ばれ、AIの中でも計算負荷が高い分野の一つです。ワールドモデルとは、物理世界のふるまいをシミュレートするAIシステムであり、文章の中で次に来る言葉を予測するのではなく、重力、光、動き、物体同士の相互作用などを考慮しながら、シーンの次のフレームを予測する点に特徴があります。
活用が見込まれる領域は幅広く、ロボット工学、自動運転車、ゲームエンジン、産業シミュレーションなどが含まれます。
ワールドモデルの学習には、膨大な計算リソースを継続的に使う必要があります。大規模言語モデルが断続的な計算でも学習できるのに対し、ワールドモデルでは長時間途切れず、高い利用率で計算を続けることが求められます。そのため、開発企業にとっては「有効な計算量あたりのコスト」が重要な指標になります。
物理世界を扱うAIでは、モデルの性能だけでなく、その学習を支える計算基盤が大きな意味を持ちます。その点を示す事例として取り上げられているのが、ワールドモデルを開発するOdysseyです。
ワールドモデルを見るうえでは、AIが何を生成するかだけでなく、現実世界のどのような動的な変化を捉えようとしているのかも重要な視点になります。
Odysseyが示したTrainiumの性能

Odysseyは、物理現象をシミュレートするワールドモデルを構築するスタートアップです。同社はAmazonのAIチップ「Trainium3」上で、80%のモデルFLOP利用率(MFU)を達成しました。
MFUとは、チップが理論上どれだけ高い性能を持っているかではなく、実際のAI処理でその性能をどれだけ引き出せたかを示す指標です。業界では40〜50%のMFUでもよく最適化されているとされる中、Odysseyの80%は高い水準です。
これは、一般的なインフラと比べて、1ドルあたりの有効な計算量をほぼ2倍引き出していることを意味します。ワールドモデルのように長時間の学習が必要な分野では、理論上の性能だけでなく、実際に使える計算力がどれだけ得られるかが重要になります。
Trainiumの特徴として、長時間の学習でも高い利用率を維持できる点も挙げられています。Diamant氏は、Trainiumが過熱せずに長時間の学習で80%の利用率を維持できると説明しており、多くの競合チップでは、この点が制約になりやすいとも述べられています。
またDiamant氏は、Trainiumが長時間の推論や学習でも高い利用率を維持できるよう、Amazonがソフトウェアから熱対策、電力供給まで幅広く投資していると説明しています。ワールドモデルを開発する企業が多くの顧客に向けて計算リソースを効率よく提供するには、こうした持続的な性能が経済性に直結します。
Odysseyの事例は、Trainiumが単に高性能なチップであるという話にとどまりません。なぜ異なる種類のAI処理にも対応できるのかを考えるには、AmazonがTrainiumをどのような設計思想で作っているのかを見る必要があります。
AIチップの性能を見る際は、カタログ上の数値だけでなく、実際の学習でどれだけ性能を引き出せるかも見ておきたいポイントです。
AWS Trainiumが選ばれる理由
Trainiumは、単一のモデル構造に向けて設計されたチップではありません。Amazonのチップ開発チームは、トランスフォーマー、ビジョンエンコーダー、拡散モデル、ワールドモデルなど、複数のAI処理を研究し、それらの基盤となる計算の要素を汎用化して、柔軟な命令セットとして整理しています。
Diamant氏は、Amazonの方針について、トランスフォーマーやワールドモデルのアクセラレーターを作るのではないと説明しています。さまざまなAI処理を調べ、速く動かすために必要な基本要素から逆算し、それらを高速に処理できる汎用的な命令セットにしているという考え方です。
この設計思想は、新しい構造のモデルを持つ顧客が増える中で意味を持ちます。

ワールドモデルはそれぞれ少しずつ構造が異なりますが、Trainiumの汎用的な設計により、大規模な個別最適化をしなくても高い性能を引き出せるとされています。
Trainiumを活用しているのはOdysseyだけではありません。DeCart AIはTrainiumで学習を行い、リアルタイム生成動画で従来型チップの4倍の性能を達成したと公表しています。そしてAWSのプラットフォームは、音声、画像・映像、その他の計算負荷が高いAI分野のスタートアップも引き続き集めています。
Neura RoboticsはAWSとの戦略的パートナーシップの一環として、物理AIの開発にTrainiumを活用しています。Splash MusicはAI学習コストを最大50%削減し、独立系アーティスト向けの音楽制作ツールにつなげています。PoolsideはAmazon Bedrock上のTrainiumを通じて、コード生成の推論を実行しています。
一方で、AWSはTrainiumだけでなく、Nvidia GPUも提供しています。顧客は自社の用途に合わせて、インフラやチップを選ぶことができます。Trainiumが選ばれている背景には、実際に使える計算力を高く保つ性能、幅広いAI処理に対応する設計、そしてAWS上で選択肢を持てる環境があります。
今後のAI基盤を考えるうえでは、性能だけでなく、幅広いAI処理を支えられる設計かどうかにも目を向けておきたいところです。
まとめ

いかがだったでしょうか?
今回注目されているのは、AIがテキスト生成だけでなく、物理世界の変化をどこまで扱えるかという領域です。
その中でAWS Trainiumは、理論上の性能だけでなく、実際に使える計算力を重視する選択肢として見られています。
次のAIを理解するには、モデルそのものだけでなく、その裏側でどんな計算基盤が支えているのかにも注目です。