この新しい AI は、わずか 3 秒の音であなたの声をシミュレートできます

Microsoft Vall-E の新しい言語モデルたった3秒の録音サンプルでどんな声も真似できると言われています。

最近リリースされた AI ツールは、60,000 時間分の英語音声データでテストされました。研究者は、コーネル大学の論文で、話者の感情や口調を再現できると述べています。

これらの結果は、ネイティブスピーカーが一度も話したことがない単語の録音が作成された場合でも当てはまります。

「Vall-E はコンテキスト内の学習機能を強調し、それを使用してパーソナライズされた高品質のスピーチを合成するために使用できます。録音はわずか3秒音声プロンプトとして目に見えないスピーカーから。実験の結果、Vall-Eは最新のゼロショットよりも大幅に優れていることがわかりました [text to speech] スピーチの自然さと話者の類似性という点で、このシステムは重要です」と著者は書いています。さらに、Vall-E はスピーカーの感情とサウンドボードの音響環境をチューニングに保つことができることがわかりました。 “

Android SPY ソフトウェアが再び攻撃し、金融機関とあなたのお金を奪う

2023 年 1 月 6 日にネバダ州ラスベガスで開催されるラスベガスコンベンションセンターで開催される CES 2023 で、Microsoft の企業ブースの看板が展示されます。
((David Baker/Getty Imagesによる写真))

Val-E サンプル GitHub で共有されているものは、話者の主張と不気味なほど似ていますが、品質には幅があります。

Emotional Voices Database の複合文の 1 つで、Val-E は冷静に「ビニール袋の数を減らさなければならない」という文を言っています。

「ヘイ・ディズニー」コマンドでディズニーのキャラクターが Amazon Alexa に登場

Microsoft Vall-E の新しい言語モデルは、わずか 3 秒間の録音サンプルを使用してあらゆる音を模倣できると言われています。
(iStock)

ただし、テキスト読み上げ AI 警告が表示されます。

「Vall-E は話者のアイデンティティを保持する音声を合成できるため、フォームの誤用の可能性があるリスク声の識別や特定の話者のなりすましなどです」と、このウェブページの研究者は述べています。ユーザーが音声合成のターゲット話者になることに同意すると仮定して、実験を実行します。モデルが現実世界の目に見えない話者に一般化される場合、話者が自分の声と合成音声検出モデルの使用に同意することを保証するためのプロトコルを含める必要があります。 “

Microsoft Corp. は、2022 年 11 月 11 日金曜日、インドのノイダにある Microsoft India Development Center で署名します。
(写真家: Prakash Singh/Bloomberg via Getty Images)

FOX NEWSアプリはこちら

現在、Microsoft が「ニューラルマークアップ言語パラダイム」と呼んでいる Vall-E は一般に公開されていません。

Julia Mostow は Fox News と Fox Business Digital の特派員です。

Koga Teruo

「流行に敏感な探検家。受賞歴のあるコーヒーマニア。アナリスト。問題解決者。トラブルメーカー。」

この新しい AI は、わずか 3 秒の音であなたの声をシミュレートできます

Apple Sports アプリでは、iOS 18 の iPhone ロック画面でライブスコアを表示できます

APIの保護 – 信頼とイノベーションの鍵

PS5 Proの発表計画とデバイスデザインに関するリーク

イルカの襲撃で日本の海岸沿いの夏が台無しに

NASCAR、2025年カップシリーズカレンダー発表でプレーオフに激震

イスラエル、ヨルダン川西岸での血なまぐさい襲撃の一環として著名な活動家を殺害

スペースXのファルコン9ロケットが打ち上げ前に停止、億万長者が特別任務に就く

コメントを残す コメントをキャンセル

More Stories