みんなに人気のテキストから画像へのジェネレーターダルイー~からの新しい競争相手がいるメタ: と呼ばれるビデオからテキストへのジェネレーターメイク・ア・ビデオ。このツールは、Dall-E に入力するのと同じタイプのテキスト プロンプトに基づいて、短い音声のないビデオ スニペットを生成します。
しかし、少なくともマーク・ザッカーバーグによれば、Dall-EはMake-A-Videoに比べれば子供の遊びだ。 Meta CEO は次のように述べています。フェイスブックの投稿, 「ビデオを生成するのは写真よりもはるかに困難です。システムは各ピクセルを正確に生成するだけでなく、ピクセルが時間の経過とともにどのように変化するかを予測する必要があるからです。」 Make-A-Video には、「物理世界の動きを理解し、それを従来のテキストから画像への生成に適用する」ため、そのような問題はありません。
マッシュ可能な光の速度
もう 1 つの Make-A-Video 機能は、静止画像に動きを追加する機能です。たとえば、ヨガのポーズをとっている女性の静止画像を Make-A-Video が変換すると、光のフレアがレンズ上できらめきながら、彼女はストレッチに深く傾きます。ツールの他の例は、次の場所で入手できます。そのウェブサイトには、既存のビデオを Make-A-Video で表示して、いくつかの新しい解釈を提示することもできると記載されています。
Make-A-Video はまだ一般公開されていないため、これらすべての例を割り引いて説明しますが、これは人工知能の新たな可能性を秘めた画期的な開発です。
Meta は、次のことができるツールに関する論文を公開しました。このリンクで読んでください。このツールのトレーニング方法と、5 秒を超えるクリップを生成できないこと、1 秒あたり 16 フレームで 768 x 768 ピクセルを超える解像度を提供できないことなど、ツールの技術的な制限について詳しく説明しています。ザ・ヴァージ 一般に公開されている唯一の Text-to-Video モデルは、コグビデオ、同じ制限に悩まされています。