2026.06.19 ｜テクノロジー

Motion-2.5-Dialogで広がるAIアバター動画制作

JoyPix.aiは、AIリップシンク動画生成モデル「Motion-2.5」と、2人の対話動画に対応する「Motion-2.5-Dialog」の提供を開始しました。従来モデルの流れを受け継ぎながら、リップシンク精度や自然な動きの強化に加え、2人の対話動画に対応するモデルが用意された点が特徴です。

ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください！

現在募集中の職種はこちら

JoyPix.aiが提供する「Motion-2.5」「Motion-2.5-Dialog」とは

JoyPix.aiは、AIアバター、AIリップシンク、AI画像生成、AI動画生成をオンラインで利用できるクリエイティブツールです。合同会社JoyPixは、同サービスの主力機能であるAIリップシンク生成モデル「Motion-2」を更新し、新たに「Motion-2.5」と「Motion-2.5-Dialog」の提供を開始しました。
AIリップシンクとは、音声に合わせて口元の動きを生成する技術です。1枚の人物写真やキャラクター画像に、テキストまたは音声素材を組み合わせることで、画像の中の人物やキャラクターが話しているような動画を作成できます。撮影した映像を用意しなくても、静止画から動画表現を作れる点が特徴です。

「Motion-2.5」は、1枚の静止画から単人向けのAIリップシンク動画を生成できるモデルです。人物、動物、キャラクターなどの画像に、テキストまたは音声素材を組み合わせることで、話す動画や歌う動画を作成できます。プロフィール写真を使ったメッセージ動画、キャラクターが話すSNS動画、バーチャルプレゼンター風の動画など、1人が話す形式のコンテンツに適しています。
一方、「Motion-2.5-Dialog」は、2人のキャラクターによる会話シーンに対応した双方向対話向けモデルです。2人が掛け合うような動画を生成できるため、AIアバター動画や対話型コンテンツ、SNSショート動画、バーチャルプレゼンターなどに活用できます。
また、両モデルはJoyPix.aiのWebサービス上で利用できるほか、API経由での導入にも対応しています。JoyPix.ai上で直接使うだけでなく、自社サービスや既存の動画制作フローに組み込みたい場合にも利用しやすい提供形態となっています。
単人動画に対応する「Motion-2.5」と、2人の対話動画に対応する「Motion-2.5-Dialog」が用意されたことで、作りたい動画の形式に合わせてモデルを選びやすくなっています。次に、今回の更新で強化された具体的なポイントを見ていきます。

リップシンクの精度、自然な動き、元画像の保持が強化

JoyPix.aiのAIリップシンク機能「Motion-2」は、静止画から話す動画を作れる手軽さや、AI口パク動画としての実用性が評価され、クリエイターの制作活動やマーケティング、広告、SNS運用などで活用されてきました。
「Motion-2.5」と「Motion-2.5-Dialog」では、AIリップシンク動画を作るうえで重要な要素が強化されています。中心となるのは、音声と口元の同期、顔や頭、身体の自然な動き、そして元画像の印象を保つことです。どれも、生成された動画を見たときの違和感を減らすために大切なポイントです。
今回のモデルでは、入力された音声に対して口元の動きをより細かく同期できるようになったとされています。通常の話し声だけでなく、歌唱コンテンツでも自然な口元の表現を目指している点が特徴です。

動きの対象は口元だけではありません。JoyPixの発表によると、頭の動き、顔の表情、身体の姿勢まで含めた自然な一貫性を重視しているとされています。AIで作られた動画は、口だけが動いているように見えると、画面全体が硬く感じられることがあります。表情や頭の動きが加わることで、人物やキャラクターが話している様子をより見やすく表現できます。
元画像のアイデンティティ保持も強化されています。アイデンティティ保持とは、動画を生成している間も、元の顔立ち、キャラクター性、画像全体の雰囲気が崩れにくいことを指します。人物ポートレートだけでなく、ブランドキャラクター、動物画像、イラストなどでも、元の印象を保ちながらAI口パク動画を作りやすくなったとされています。
AI動画では少しの違和感でも視聴者の印象に残りやすいため、口元だけでなく表情や身体の動きまで整えようとしている点は、実用面でも重要です。続いて、両モデルがどのような制作シーンで活用できるのかを見ていきます。

静止画から広がるAIアバター動画の活用シーン

「Motion-2.5」と「Motion-2.5-Dialog」の具体的な活用シーンを見ていきます。まず挙げられるのが、自己紹介やメッセージ動画です。プロフィール写真やキャラクター画像を使い、短いコメントを話す動画にすることで、静止画だけでは伝わりにくい雰囲気を加えられます。SNS投稿、告知、挨拶動画など、短時間で内容を伝えたい場面に使いやすい形式です。
AIアバターによるプレゼン・説明動画にも利用できます。企業紹介、サービス紹介、チュートリアル、イントロ動画などでは、情報をただ並べるだけでなく、話し手がいる形にすることで内容を追いやすくなります。バーチャルプレゼンターとは、実際の出演者の代わりに画面上で説明を行う人物やキャラクターのことです。

撮影場所や出演者を用意しなくても、説明役のある動画を作れる点が活用しやすいところです。
歌うアバター動画やSNS向けショート動画にも用途があります。JoyPixの発表では、音声や楽曲に合わせて人物やキャラクターが歌っているような動画を生成できると説明されています。TikTok、YouTube Shorts、Instagram Reels、Xなどの短尺動画では、視聴者にすぐ内容や雰囲気が伝わる表現が求められ、話す・歌うキャラクターを使うことで、文章や画像だけでは出しにくい印象を加えられます。
「Motion-2.5-Dialog」は、2人の会話シーンに対応しているため、対談形式の説明やデジタルヒューマン同士の掛け合いなどにも活用できます。1人が話す動画とは異なり、複数の話者が登場することで、会話の流れに沿って情報を見せられる点が特徴です。
JoyPixは今後、AIリップシンク、AIアバター、AI動画生成技術の品質向上を進めるとしています。さらに、企画、生成、編集、活用までを支援する「エージェントAI」への展開も示しており、動画を作るだけでなく、制作の流れ全体を支える方向性にも触れています。
撮影を前提にしなくても動画を作れる選択肢が増えることで、個人の発信や小規模なコンテンツ制作でも、表現の幅を広げやすくなります。静止画から話す、歌う、対話する動画を作れることは、AIアバターを使った表現を考えるうえで、分かりやすい変化のひとつといえるでしょう。

まとめ

いかがだったでしょうか？
JoyPix.aiの「Motion-2.5」と「Motion-2.5-Dialog」は、1枚の静止画から話す・歌う・対話する動画を作れるAIリップシンク動画生成モデルです。口元の同期や自然な動き、元画像の印象を保つ点が強化され、AIアバター動画でできる表現が増えました。
まずは短い自己紹介動画やSNS向けのメッセージ動画など、小さな用途から試すことで、AIアバター動画の使いどころを具体的にイメージしやすくなります。Webサービスに加えてAPIにも対応しているため、個人の動画制作から既存の制作フローへの組み込みまで、さまざまな使い方が考えられます。

参考記事：JoyPix.ai、AIリップシンク動画生成モデル「Motion-2.5」「Motion-2.5-Dialog」を提供開始