AIベースのより多くの証拠が必要な場合ディープフェイク信じられないほど怖いです。テキストを入力して、実際の人がそれらの正確な単語を言っているビデオを生成できる新しいツールを提供します。
スタンフォード大学の科学者グループ、プリンストン大学のインフォマティクスのマックスプランク研究所、およびアドビの研究がツールを作成し、研究を提示しました。紙(経由バージ)、「Talking-Headビデオのテキストベースの編集」というタイトル。このペーパーでは、「トランスクリプトに基づいてトーキングヘッドビデオを編集して、スピーカーの対話が変更された現実的な出力ビデオを作成する」ために使用される方法について説明しています。
そして、これを達成するために使用される手法は非常に複雑ですが、ツールを使用することは恐ろしく単純です。
参照:
調査に付随するYouTubeビデオは、実際の文章を言っている実際の人々のいくつかのビデオを示しています(はい、すべてが偽造できる歴史のその時点にいるようです)。その後、文の一部が変更されます - たとえば、「私は朝のナパームの匂いが大好き」の「ナパーム」は「フレンチトースト」と交換されます - そして、あなたは同じ人が非常に説得力のある方法で別の文章を発しているのを見ます。
マッシャブルなライトスピード
このツールをこのような単純な方法で動作させるには、「音素、ビジョン、3Dフェイスポーズとジオメトリ、反射率、表現、シーン照明」を扱うトーキングヘッドビデオに自動的に注釈を付ける技術が必要です。ビデオのスピーチの転写が変更されると、研究者のアルゴリズムはすべての要素をシームレスに縫い付け、ビデオ内の人の顔の下半分は新しいテキストと一致するようにレンダリングされます。
入力側では、ツールを使用すると、ユーザーはトーキングヘッドビデオに単語を簡単に追加、削除、または変更できます。または、まったく新しい完全な文を作成できます。制限があります - このツールは、トーキングヘッドビデオでのみ使用でき、結果は、たとえば、テキストの変更または省略の量によって大きく異なります。しかし、研究者たちは、自分の仕事は、「一般的な視聴覚コンテンツの完全なテキストベースの編集と統合」に向けた「最初の重要なステップ」にすぎないことを指摘し、結果を改善するためのいくつかの方法を提案しています。
ツールによって生成されたビデオは、138人のグループに表示されました。回答の59.6%で、偽のビデオは本物と間違っていました。比較のために、同じグループが実際のビデオを実際の80.6%として識別することができました。
このツールは広く利用できませんブログ投稿、研究は、それを解放するという複雑な倫理的考慮事項を認めています。映画のポスト制作のためのより良い編集ツールを作成するなど、有効な原因に使用できますが、誤用することもできます。 「私たちは、悪い俳優がそのような技術を使用して個人的な声明を偽造し、著名な個人を中傷するかもしれないことを認めています」とポストは言います。研究者は、ビデオの透かしを含め、そのようなツールを誤用するのを難しくするためのいくつかの手法を提案しています。しかし、これらのタイプのツールが広く入手できるのは時間の問題であることは明らかであり、高貴な目的でのみ使用されると想像するのは困難です。