メタの最新の AI 出力は、リアルタイムのテキストおよび音声翻訳にとって大きな進歩です。
火曜日には、会社がリリースされましたSeamlessM4T: テキストを音声に、またはその逆に翻訳するマルチモーダル モデル。 Meta は、SeamlessM4T が「初のオールインワン多言語マルチモーダル AI 翻訳および転写モデル」であると主張しています。これは、言語の翻訳と転写を同時に行うことができるという独自の機能を意味します。 SeamlessM4T は、音声からテキストへ、音声から音声へ、テキストから音声へ、およびテキストからテキストへの入力を最大 100 言語に翻訳できます。音声から音声への翻訳およびテキストから音声への翻訳出力は、35 の言語をサポートしています。
ツイートは削除された可能性があります
Meta が最近リリースした他の AI モデルと同様に、ラマ2そしてオーディオクラフト, SeamlessM4T は、研究ライセンスを持つ研究者および開発者向けに公開されています。モデルに加えて、Meta は SeamlessAlign と呼ばれるトレーニング データセットもリリースしています。これには 270,000 時間の音声とテキストの位置合わせが含まれています。 OpenAI や Google とは異なり、Meta はモデルをオープンソースにして一般公開することに重点を置いています。オープンソース モデルを立ち上げるという Meta のアプローチには、開発者が製品を構築および改善できるようにすると同時に、AI 倫理学者の間でポイントを獲得できるという二重の効果があります。透明性を求める生成 AI システムの開発。
マッシュ可能な光の速度
Meta のオープンソース アプローチは利他的であるように見えるかもしれませんが、AI を開発している他の大手テクノロジー企業に対する容赦ない競争市場における戦略的な権力の動きです。すべての AI モデルが対処しなければならないデータ収集の問題もあります。によると、ブログ投稿, SeamlessM4T のデータセット (SeamlessAlign) は公開されているデータで構成されており、倫理的および法的問題著作権で保護された作品と個人データの使用に関する問題同意なしに。
Metaの発表ではSeamlessM4Tの具体的な計画については詳しく述べておらず、「この基本モデルがどのように新たな通信機能を可能にするかを検討する」ことを示唆しているだけだった。言い換えれば、いつか WhatsApp や Instagram で SeamlessM4T の消費者向けバージョンが登場するかもしれません。