2024.02.26 | テクノロジー

Stable Diffusion 3が登場!画像生成AIの新時代

はじめに

Stability AIが、画像生成AIの「Stable Diffusion 3」を発表しました。
この記事では、「Stable Diffusion 3」新機能について詳しく解説していきますので、ぜひ最後までお読みください!

Stability AI公式サイトはこちら

Stable Diffusion 3の新機能と強化点

Stability AIが発表した「Stable Diffusion 3」は、特に二つの点で以前よりも進化が見られます。
まず、画像内でのアルファベット表記が可能になりました。従来のモデルでは難しかった、特定の文字や単語を画像に直接描写することができます。
次に、複数の被写体を高精細に描写する能力の向上です。一つの画像内で複数の主題やオブジェクトを自然かつ高品質に表現できるようになり、より複雑でリアルなシーンの生成が可能で、ユーザーの要求に応える画像の質が大幅に向上しています。
これらの機能強化は、800万から80億のパラメータ範囲にわたる複数のモデルに実現が可能になりました。また、Stable Diffusion 3は、拡散トランスフォーマー・アーキテクチャとフロー・マッチングを組み合わせており、近日中に詳細な技術レポートが発表される予定です。
現在は、先行プレビューの段階ですので、以下のボタンからウェイトリストに登録できます。

実際の使用例

公式サイトに実際に生成した画像があるので、まずは、画像に対して文字表記を見ていきます!
プロンプトで画像に対して入れたい単語を指定すると、画像に文字が表示されています。
ちなみにりんごの画像は「教室の机の上にリンゴが置かれた映画風の写真、黒板にはチョークでgo big or go homeと書かれている」というプロンプトで生成されています。
よく見てみると、大文字と小文字の認識は正しくできていないですが、アルファベットは正しく表示されています。

先ほどは画像に対しての文字表記を見ていきましたが、次にシンプルに画像生成を見ていきます。
カメレオンを見ていただくとわかりやすいですが、色や体のシワなどかなり細かく再現されています。
この画像だけをみると、Midjouneyなどのツールと遜色ないクオリティだと思います。

このように公式サイトを見る限り、クオリティはかなり高いので、今後、使用する方はかなり増えてくると思いました。

Stability AI公式サイトはこちら

まとめ

いかがだったでしょうか?
Stable Diffusion 3は、画像内でのアルファベット表記、複数被写体の高精細描写、そして拡散トランスフォーマー・アーキテクチャとフロー・マッチング技術の統合により、前モデルを大きく上回る性能と拡張性を提供してくれます。
日々、多くのツールの登場とアップデートがされていますが、引き続き動向を追っていきましょう!