AI音声技術会社スーパートーンは「クリエイティブプロセスのパラダイムを変えたい」とCEOのイ・ギョグ氏は述べており、それはK-POPから始まるという。
Supertone は、オリジナルの音声を複製、完成、生成できるため、アーティストが「繰り返しの録音と編集プロセス」を回避し、これまで「頭の中にのみ存在していた」アイデアを実現できるようになります。韓国の定評あるバラード歌手イ・ヒョンは、自分のイメージを再構築しながら、海外のファンとコミュニケーションをとることを夢見ていた。彼はSupertoneとともに、MIDNATTという分身を作りました。6か国語で歌いますAIの力を利用して。
MIDNATTがファーストシングル「マスカレード、Lee と MIDNATT (別名 Lee Hyun) は電子メールで、このプロジェクトがどのようになったのかについて Mashable に詳しく語った。
プレスリリースには、MIDNATTは「Lee Hyunよりも大胆で誠実である」と記載されている。 MIDNATT は何についてもっと正直ですか?テクノロジーはどのようにしてより正直になるのに役立ちますか?
MIDNATT:私は自分自身の物語や感情をできるだけ正直に音楽に込めるように努めました。それは、アーティストとしての自分の新たな一面を大衆に見せることに対する私が抱いていた野心と恐れの両方を反映しています。このストーリーに命を吹き込むために、このテクノロジーがトラックに適用されました。全く新しいことですが、自分の音楽の幅を広げることができると思って挑戦したいと思いました。 (それを通じて)私は自分のサウンドとメッセージをより多様な方法で表現することができました。
私が理解していることからHYBE IM CEO チョン氏と語る, Supertoneはこのプロジェクトのために特別に発音技術を開発しました。そのプロセスについて詳しく教えていただけますか?
李:私たちはこれを「多言語発音矯正技術」と呼んでいます。このテクノロジーは、これまで特定の言語を話したことがなくても、その人の発音をより自然で流暢に聞こえるように修正します。このテクノロジーにより、誰もがどの言語でも自然に話したり歌ったりすることができ、言語の壁を乗り越え、歌やスピーチに含まれる正確な感情や意味を伝えることができます。
プロジェクト L では、次のプロセスを実行しました。まず、アーティストが 6 つの異なる言語でトラックを録音しました。もちろん、この段階では彼の発音は完璧ではありませんでした。次に、各ネイティブスピーカーが同じ内容または歌詞をナレーションします。最後に、Supertone のテクノロジーを適用することで、ネイティブの発音を抽出し、アーティストの録音に含まれる言語コンテンツを置き換えることができました。その結果、オーディオはアーティストの音色や声の特徴を保持し、発音はネイティブ スピーカーの流暢さを再現しました。
外国語の発音を調整する特定の Supertone テクノロジーを利用しました。 6 つの言語はどのように選ばれたのですか?
MIDNATT:世界中のファンが外国語の曲を聴くときに感じるかもしれない言葉の壁を和らげたいという願いを込めて、音声テクノロジーを使用しました。このトラックで使用されている 6 つの言語は、世界中で最大 80 億人をカバーしています。できるだけ多くの人に響く音楽を作りたいと思いました。
それぞれの言語の発音を詳しく学ぶために、どのように勉強しましたか?どの言語を習得するのが最も難しかったですか?
マッシュ可能な光の速度
MIDNATT: このプロジェクトに携わるまで、私は外国語である 5 つの言語 [英語、日本語、中国語、スペイン語、ベトナム語] について適切な教育を受けたことがありませんでした。最初はネイティブの発音を録音したものを聞いて真似していました。そこからはひたすら練習を繰り返しました。ありがたいことに、私の周りには多言語に堪能なスタッフがいたので、彼らにもたくさん助けてもらいました。中国語には韓国語にはない発音があるので、中国語でのレコーディングは特に大変でした。また、英語は世界共通語と考えられているので、できるだけネイティブの発音に近い英語を伝えることにも気を配りました。
Lee Hyun は、Supertone が開発した AI 音声技術を使用して、自分の分身 MIDNATT に命を吹き込みました。 クレジット: HYBE
イ・ヒョンさん、「マスカレード」ではあなたの声が女性の声に変わりました。その声が聞こえた可能性はたくさんあります。さまざまな音色、荒々しさや柔らかさなどがあったかもしれません。MIDNATT の「女性」バージョンがどう聞こえるべきかをどのように決めましたか?
ミッドナット:「マスカレード」の女性の声は、私のもう一つの自我を表現しています。これは私の過去の自分を表しており、このトラックには私が表現したい複数のエゴがあるため、私自身の声に加えて女性の声を使用することで、歌詞のメッセージがより良く伝わると考えました。私と似たようなボーカルスタイルを持つ女性ボーカリストがいたらどんなサウンドになるだろうかと考えることから始まりました。しかし、女性の声の追加は私だけが決めたものではなく、ヒッチハイカーとのコラボレーションから生まれました。
Lee: Supertone は「Masquerade」のデモ バージョンを聴いて、Face2Voice テクノロジー® を使用して女性の声をデザインしました。その後、ヒッチハイカーは、スーパートーンのリファレンスやその他のデータを使用して、MIDNATT の女性バージョンの声をデザインするのに役立ちました。
MIDNATT に関する議論の中で、Supertone のツールを使用するというアイデアはどのようにして生まれましたか?それを持ち出したのは誰ですか?また、それを追求することを決める前に、それがアーティストにどのような利益をもたらす可能性があるかをどのように学びましたか?
Lee: ヒッチハイカーは、アーティストが歌うとき、曲の意味や歌詞のメッセージを独自のスタイルで表現し、伝えようとすると述べました。アーティストは世界中のファンとつながるために、複数の言語で歌うよう努めています。ただし、発音が完璧でないと、没入感が損なわれ、曲の解釈を誤ってしまう可能性もあります。そこで、曲本来の意味を損なうことなく発音を修正できる技術を考えた。 MIDNATT は、これが HYBE のテクノロジーとエンターテイメントの初のコラボレーションであるという事実を考慮すると、付随する不確実性を理解していましたが、特にファンの期待が高まり続けていたことから、これを新たな挑戦の機会と見なし、このプロジェクトに参加することを選択しました。
「マスカレード」のミュージック ビデオの作成に使用された拡張現実 (XR) テクノロジーは、発音の矯正に使用されたテクノロジーと同じくらい斬新です。これまでのキャリアの中で数多くのミュージックビデオを撮影してきましたが、このプロセスはどのように違いましたか?ミュージック ビデオ制作にこの種のテクノロジーを使用する利点は何だと思いますか?
MIDNATT:「Masquerade」のミュージックビデオは全く違う撮影方法だったので驚きの連続でした。 (今回のミュージックビデオと過去のミュージックビデオの撮影の)大きな違いを1つ挙げるなら、ビデオにはさまざまな背景が使われていますが、そのほとんどが現地に行くことなく同じ場所で撮影されたことだと思います。別の場所。以前は、特定の背景を念頭に置いた場合、それと似た実際の場所を見つける必要がありました。しかし今では、テクノロジーの助けを借りて、より自由に思い通りの背景を作成できるようになりました。このようにテクノロジーを活用することで、よりクリエイティブな表現が可能になると考えています。
日常生活の中で AI の他の用途を見つけましたか?たとえば、ChatGPT や画像生成 AI を使用していますか?それとも VR やゲームに興味があるでしょうか?
李:それは興味深いですね。実際、私はドキュメントを作成するときに GPT-4 を使用することがあります。しかし、画像やビデオ関連の生成 AI を直接使用する機会はありませんでした。しかし、私は間接的にAIを日々活用しています。 YouTube で音楽を聴いたりビデオを見たりするときに、推奨されるコンテンツも AI アルゴリズムに基づいています。車の半自動運転も別の例です。
MIDNATT: 私はあまりゲームはしませんが、強いて挙げるなら VR ゲームが好きです。私が日常生活で最もよく使うテクノロジーは、おそらくスマートフォンのさまざまなアプリや機能だと思います。
MIDNATT のデビューに関するリスナーとメディアの多くは、プロジェクトの AI 要素に注目していました。 AI が「ギミック」として見なされていることについてはどう思いますか?リスナーを疎外せず、アーティストに不利益を与えない方法で、それを音楽に組み込むにはどうすればよいでしょうか?
Lee: もちろん、そのような懸念はあるかもしれません。しかし、他の多くのテクノロジーと同様に、私たちは AI が真のクリエイターやアーティストの創造性を最大限に引き出す素晴らしいツールとして使用できると強く信じています。エレキギターの発明はジミ・ヘンドリックスのような素晴らしいアーティストを育成し、ダフト・パンクは独自の創造的な方法でシンセサイザーを使用して電子音楽に革新をもたらしました。また、プロジェクト L 公開後のファンの反応から判断すると、これは AI テクノロジーを統合したアートの積極的な価値を提示するものであると考えられます。
MIDNATT:MIDNATTのデビュープロジェクトをどうしたいかという明確な方向性がありました。最新のテクノロジーやトレンディなサウンドを披露したとしても、アーティストとしての私のユニークなストーリーや信頼性が何ら損なわれることはあってはならないと考えてこのプロジェクトに臨みました。私たちはトラックに取り組み、私の声の独自性を維持し、それに多様な表現手段を与える方法でテクノロジーを適用しました。ファンの皆さんがその意図と誠意を理解してくれたことにとても感謝しています。