誰もがお互いを理解できるようにすることが、間もなくはるかに簡単になるかもしれません。
オックスフォード大学コンピューターサイエンス学部のチームは、新しい読唇ソフトウェアを開発しました。リップネット、彼らは、これがこの種のものとしてはこれまでで最も正確であると主張しています。
関連項目:
ソフトウェアの開発は、次のような支援を受けました。アルファベットのディープマインドAI プログラムについては、以下で詳しく説明されています。紙その報告によると、LipNet は読唇技術の精度において既存のトップマークを 13.8 パーセント上回りました。以前の最高のソフトウェアとその 79.6 パーセントのマークは、同じテストで平均 52.3 パーセントの精度を記録した人間の読唇術の努力をすでに数光年上回っていました。
実際の論理に反して、このブレークスルーは実際には部分的には少ない少なくとも規模の点で、課題に対する洗練されたアプローチ。オックスフォード大学のチームは、以前のすべてのシステムが使用していた話者の個々の単語から、文レベルのより大きな構造に焦点を拡大しました。
LipNet は、文レベルで動作する初の読唇モデルです。
論文によると、「既存のすべての読唇アプローチは、単語の分類のみを実行し、文レベルのシーケンス予測は実行しません。...私たちの知る限り、LipNet は文レベルで動作する最初の読唇モデルです。 。」
マッシュ可能な光の速度
言い換えれば、このソフトウェアは、人間の脳がこの種の視覚データを処理する最適な方法に近づくにつれて、より効果的になりました。話者のビデオを撮影し、それぞれの単語を個別のエンティティとして焦点を当てるのではなく、ディープラーニングの予測機能により、単語をより大きなコンテキスト内に配置して理解を深めます (ビデオで実際の動作を見ることができます)その上)。
チームのメンバー、オックスフォード教授、Google DeepMind 科学者ナンド・デ・フレイタス、新聞の簡潔な専門用語では見つけられなかったかもしれないより多くの背景を一般の人々に提供するためにソーシャルメディアを利用しました。
まず、同氏は、ソフトウェアはまだベースライン テストを超えて実用化されておらず、さらなる開発が必要であることを明らかにしました。
さらに期待したいのは、彼が LipNet の実用化に向けた大きな可能性をほのめかしたことです。
最も重要なことは、この精度の向上により、新たな可能性が開かれることです。手話や、程度は低いものの読唇術に依存している人にとって、コミュニケーションは非常に困難な場合があります。
また、一般の人々にとっても明らかなメリットがあります。唇を読むことは、スマートフォンを持っている人なら誰でもできるようになる可能性があり、音声コマンド システムは、LipNet のようなソフトウェアを適用することでさらに正確になる可能性があります。