この新しい AI は、わずか 3 秒の音であなたの声をシミュレートできます

Microsoft Vall-E の新しい言語モデルたった3秒の録音サンプルでどんな声も真似できると言われています。

最近リリースされた AI ツールは、60,000 時間分の英語音声データでテストされました。研究者は、コーネル大学の論文で、話者の感情や口調を再現できると述べています。

これらの結果は、ネイティブスピーカーが一度も話したことがない単語の録音が作成された場合でも当てはまります。

「Vall-E はコンテキスト内の学習機能を強調し、それを使用してパーソナライズされた高品質のスピーチを合成するために使用できます。録音はわずか3秒音声プロンプトとして目に見えないスピーカーから。実験の結果、Vall-Eは最新のゼロショットよりも大幅に優れていることがわかりました [text to speech] スピーチの自然さと話者の類似性という点で、このシステムは重要です」と著者は書いています。さらに、Vall-E はスピーカーの感情とサウンドボードの音響環境をチューニングに保つことができることがわかりました。 “

Android SPY ソフトウェアが再び攻撃し、金融機関とあなたのお金を奪う

2023 年 1 月 6 日にネバダ州ラスベガスで開催されるラスベガスコンベンションセンターで開催される CES 2023 で、Microsoft の企業ブースの看板が展示されます。
((David Baker/Getty Imagesによる写真))

Val-E サンプル GitHub で共有されているものは、話者の主張と不気味なほど似ていますが、品質には幅があります。

Emotional Voices Database の複合文の 1 つで、Val-E は冷静に「ビニール袋の数を減らさなければならない」という文を言っています。

「ヘイ・ディズニー」コマンドでディズニーのキャラクターが Amazon Alexa に登場

Microsoft Vall-E の新しい言語モデルは、わずか 3 秒間の録音サンプルを使用してあらゆる音を模倣できると言われています。
(iStock)

ただし、テキスト読み上げ AI 警告が表示されます。

「Vall-E は話者のアイデンティティを保持する音声を合成できるため、フォームの誤用の可能性があるリスク声の識別や特定の話者のなりすましなどです」と、このウェブページの研究者は述べています。ユーザーが音声合成のターゲット話者になることに同意すると仮定して、実験を実行します。モデルが現実世界の目に見えない話者に一般化される場合、話者が自分の声と合成音声検出モデルの使用に同意することを保証するためのプロトコルを含める必要があります。 “

Microsoft Corp. は、2022 年 11 月 11 日金曜日、インドのノイダにある Microsoft India Development Center で署名します。
(写真家: Prakash Singh/Bloomberg via Getty Images)

FOX NEWSアプリはこちら

現在、Microsoft が「ニューラルマークアップ言語パラダイム」と呼んでいる Vall-E は一般に公開されていません。

Julia Mostow は Fox News と Fox Business Digital の特派員です。

Koga Teruo

「流行に敏感な探検家。受賞歴のあるコーヒーマニア。アナリスト。問題解決者。トラブルメーカー。」

READ Photoshop AI Generative Fill は非常に強力なので、写真編集を永遠に変える可能性があります

この新しい AI は、わずか 3 秒の音であなたの声をシミュレートできます

このクレイジーな新しい消滅テクニックが文字通りあなたを消滅させる仕組み

ソニーは、リトルビッグプラネット 3 サーバーが正式に無期限にシャットダウンされたことを確認しました

Google の HD Chromecast はわずか 20 ドル

ウェストミンスター大学で長年教授を務めた著者が『ジャズと日本が出会う場所』を執筆

イランとイスラエルが戦争の瀬戸際にあるとき、なぜ石油市場を無視したのですか?

2024年4月20日土曜日のあなたの運勢

NASAのスペースデブリ遭遇は思ったより近かった

コメントを残す コメントをキャンセル

More Stories