2024.02.13 ｜テクノロジー

どこでも0.5秒！MobileDiffusionで手軽に高品質画像を生成

はじめに

Googleが「MobileDiffusion」を発表しました。
この技術は、誰もが手軽に、そして迅速に、スマートフォンを使用して高品質な画像を生成できるように設計されています。
本記事では、MobileDiffusionの概要や技術的な詳細について詳しく解説しますので、ぜひ最後まで読んでみてください！

Google公式ブログはこちら

ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください！

現在募集中の職種はこちら

MobileDiffusionの登場

2024年1月31日、Googleは「MobileDiffusion」を発表しました。
これは、スマートフォンなどのモバイルデバイスで高品質な画像を瞬時に生成することを可能にする技術です。
MobileDiffusionの最大の特徴は、従来の画像生成AIモデルが必要としていた高いPCスペックを必要とせず、誰でもどこでも0.5秒という驚異的な速さで画像を生成できる点にあります。
この技術は、高品質な画像を生成するためには膨大な計算リソースが必要であり、モバイルデバイスでは実現が難しいという問題がありましたが、Googleのエンジニアたちがこの問題に対して独自のアプローチを取り、特にモバイルデバイス向けに最適化された効率的なモデルを開発した結果、MobileDiffusionが誕生しました。
現在、デモサイトは用意されていませんが、公式ブログを見る限り、かなり早いスピードで画像が生成されています。

引用元

技術的な詳細

このセクションでは、MobileDiffusionがどのようにして従来の課題を克服し、モバイルデバイス上で高速かつ高品質な画像生成を可能にしたのかを掘り下げます。

パラメーター数の削減
MobileDiffusionは、5.2億という比較的小さなパラメーター数で構築されています。
これにより、必要とされる計算リソースが大幅に削減され、スマートフォンのような比較的低スペックのデバイスでも、効率良く動作することが可能になりました。

ノイズ除去ステップの効率化
画像生成におけるノイズ除去ステップは、高品質な結果を得るために重要なプロセスです。MobileDiffusionは、このステップを効率化し、従来のモデルに比べて生成時間を大幅に短縮しました。具体的には、DiffusionGANを使用し、推論中のワンステップサンプリングを実現しています。
これにより、画像生成プロセスが加速され、ユーザーはほぼリアルタイムでの画像生成を体験できるようになりました。

UNetとUViTアーキテクチャの最適化
Googleは、MobileDiffusionにおいて、UNetアーキテクチャにUViTアーキテクチャのアイデアを組み合わせることで、変換ブロックの効率性を大幅に改善しました。
この結果、リソース集約が少なく、かつ高速で高品質な画像生成が可能なモデルが実現しました。さらに、画像デコーダの最適化により、全体のパフォーマンスが向上し、待ち時間が50%近く短縮されました。

これらの技術によって、MobileDiffusionをただの画像生成AIではなく、モバイルデバイスでの使用に特化された、効率的かつ高速なモデルへと進化しました。

引用元

まとめ

いかがだったでしょうか？
「MobileDiffusion」の登場によって今後、誰もがスマートフォンを通じて高品質な画像を瞬時に生成できるようになります。
現在は論文発表のみで、サービス公開日は未定ですが、今後も引き続き動向を追っていきましょう！