This is the secret to how Apple is making Siri sound more human

次の Siri は、間違った音節に強調を置くことはありません。

それは多かれ少なかれ約束ですりんご中に作られた先週のWorld Wide Developers Conferenceの基調講演。 Appleのソフトウェアエンジニアリング担当上級副社長、クレイグ・フェデリギ氏はステージ上でデモンストレーションを行い、Siriに天気について尋ねた。

「今後 3 日間の天気予報は次のとおりです。晴れ、晴れ、そして晴れです」と Siri が答えました。

それぞれの「晴れ」は色合いが異なって聞こえました。フェデリギ氏は「非常に強力だ」と宣言したが、開発者の聴衆からは激しい拍手が沸き起こることはなかった。

もしかしたらそれ自体が勝利なのかもしれない。今後の予定iOS11、現在6歳のSiriは、誰も気づかないほど自然に聞こえるでしょう。そして、ここで言う注意とは、Siri(または実際には音声アシスタント)が名前や場所を発音しようとしたり、さらに多くのことを提案しようとしたときの、うんざりする価値のある瞬間を意味します。自然な返答で、彼らは文の途中でハエを飲み込んだように聞こえます。 (私の個人的なお気に入りは、Siri が私の故郷の名前をめちゃくちゃにするときです。)

その一部は、Siri の音声が元々どのように構築されたかによるものです。 Siriの最初の声であると広く考えられている女性、スーザン・ベネットとして、と語ったガーディアン昨年末、Siri の独自の音声認識と応答を構築したニュアンスは、「フレーズ内のすべての音の組み合わせを取得するために作成された何百もの文とフレーズ」を記録させました。

そして、いいえ、彼女は「エルパソの天気は100度で晴れです」と録音していませんでした。

その代わりに、元の Siri の声を担当したベネットや他の人たちは、意味のない文章を次々と録音しました。 「ファサ、ファサに聞いて、サティに聞いて」や「もう一度シュレーディングを言って、もう一度シュレーディングを言って」のようなものです。

これらすべての音声部分を使用して、Siri は、たとえすべてがまったく人間的に聞こえなかったとしても、目まぐるしく続く質問に対する音声応答の合理的な複製を構築することができました。

しかし今では、Siri は iPhone から Apple TV、Mac、Apple Watch (そしてすぐに Apple の HomePod) まで、あらゆるものに搭載されています。 Apple によると、彼女は毎週 20 億件の音声リクエストを処理し、少なくとも同数の文で応答します。そのため、Siri の発音の間違いや、場合によっては応答が停止することはほぼ避けられません。

マッシュ可能な光の速度

変化の時が来たのですが、実際のところ、Siri は常に変化しています。

昨年、Apple は Siri に次のようなものを提供したと私に話しました。脳移植、大した騒ぎもなく。彼らは自然言語処理に機械学習を適用し始め、音声認識と背景雑音に対するクエリの理解が向上したことを確認しました。

現在、Apple は、Siri 自身の音声に対して、同じ機械学習を活用したアプローチを採用しています。

Apple によると、iOS 11 の Siri の音声はまったく新しいものです。

Siri の音声の作成は、Siri の音声応答に織り込まれた録音された音声の断片から始まります。 Apple が今でもナンセンスな文章を使用しているかどうかは不明だが、同社は Siri が何でも話すことができると言っている。

それは、説得力のある文章を作成するために使用されているテクノロジーが、Siri がユーザーをよりよく理解するのに役立ったものと同じであるためです。

Apple は、機械学習、より具体的にはディープラーニングと、脳の機能と学習の方法を再現しようとする機械学習の下位分野であるニューラル ネットワークを使用して、各部分をつなぎ合わせて応答を生成しています。

応答をより自然に聞こえるようにするために、Apple は実際の人々が話している例を機械学習システムに入力しました。人が息を吸うとき、一文の中で声がどのように上がったり下がったりするか、そしてもちろん強調やイントネーションなど、人間の会話のニュアンスを分析しました。

このアルゴリズムはまた、人工知能と機械学習の力を利用して、文の構成と、1 つの文内の 3 つの異なる位置に配置された同じ単語が 3 つの明確に異なる方法で発音される理由を調べます。

これらは、コンピューターでない限り、私たち全員が話す方法であるため、実際には注意を払ったり気づかなかったりするものです。

Appleは、Siriが人間であると人々を騙すためではなく、Siriの話し方からデジタルアシスタントが提供する情報に焦点を移すために、その境界線を曖昧にする準備をしている。 Siri がより会話的になるにつれて、これは特に重要になります。 iOS 11 では、画面をタップしてフォローアップの質問をすることで、Siri の応答をさらに詳しく調べることができます。この譲歩により、Apple は Siri の音をできるだけ普通の (または本物の) 音にするよう、さらにプレッシャーをかけることになる。

これが世界中でどのように翻訳されるかを見るのは興味深いでしょう。 Siri は現在 36 か国で 21 の異なる言語をカバーしており、Apple は 5 つの言語で新しい Siri 翻訳機能を開始し、近々さらに追加される予定です。

おそらく、Siri に指示する必要はなくなるでしょう。自然に話す, なぜなら、彼女はすでにそうしているからです。

Leave a Reply

Your email address will not be published. Required fields are marked *

Subscribe Now & Never Miss The Latest Tech Updates!

Enter your e-mail address and click the Subscribe button to receive great content and coupon codes for amazing discounts.

Don't Miss Out. Complete the subscription Now.