ChatGPTやMidjourneyといったツールのおかげで、人工知能が現在非常に流行っていることは知られていますが、Nvidiaも非常にクールな機能を開発しており、GIF画像を全く新しいレベルに引き上げる可能性があります。同社のトロントAIラボは、大量の計算能力を必要とせずに動画を生成可能な「Latent Diffusion Models(潜在拡散モデル)」通称LDMと呼ばれるものを開発しました。これらのモデルは、潜在空間拡散モデルに時間次元を追加するためにStable Diffusion(安定拡散)を使用して、テキストから画像を作り出すジェネレーター上に構築された一種のAIと見なすことが出来ます。このテクノロジーは、”ビーチで掃除機をかけるストームトルーパー”や”エレキギターを演奏するテディベア、高解像度、4K”のような単純なプロンプトから使用可能な画像を生成することが出来ます。
Nvidiaのデモのようにテキストから画像を生成する技術はサムネイルやGIFの作成に最も適していますが、NvidiaのAIがより長いシーンを作成していることから見られる急速な進歩は、より長い文章から動画を作成出来るようになるまでにはそれほど長くはかからないことを示唆しています。また、テキストからビデオを生成するジェネレーターを紹介しているのは、Nvidiaだけではありません。Google Phenakiは既に公開されており、より長い文章から20秒の映像を、そして2分間の映像も同じ様に生成出来る可能性を明らかにしています。
Stable Diffusionの開発を支援したRunwayという企業も、第2世代AIビデオモデルを公開しました。また、Adobe Fireflyの最近のデモでは、AIがビデオ編集をいかに簡単にするかが示しされており、ユーザーは見たい時間や季節を動画に入力することが可能で、残りはAdobeのAIに任せることが出来ます。
テキストからビデオを完全に生成するAIはまだ”漠然とした”状態にありますが(多くの場合、歪んだ結果や夢のような結果が生じます)、ここ最近の進歩は、この技術をより長い動画を作成するのに適したものにする改良が間近に迫っていることを示しており、今後の発展が楽しみです。
この記事は、編集部が日本向けに翻訳・編集したものです。
原文はこちら