11月 12, 2024

kenmin-souko.jp

日本からの最新ニュースと特集:ビジネス、政治、解説文化、ライフ&スタイル、エンターテインメント、スポーツ。

この新しい AI は、わずか 3 秒の音であなたの声をシミュレートできます

この新しい AI は、わずか 3 秒の音であなたの声をシミュレートできます

Microsoft Vall-E の新しい言語モデル たった3秒の録音サンプルでどんな声も真似できると言われています。

最近リリースされた AI ツールは、60,000 時間分の英語音声データでテストされました。 研究者は、コーネル大学の論文で、話者の感情や口調を再現できると述べています。

これらの結果は、ネイティブ スピーカーが一度も話したことがない単語の録音が作成された場合でも当てはまります。

「Vall-E はコンテキスト内の学習機能を強調し、それを使用してパーソナライズされた高品質のスピーチを合成するために使用できます。 録音はわずか3秒 音声プロンプトとして目に見えないスピーカーから。 実験の結果、Vall-Eは最新のゼロショットよりも大幅に優れていることがわかりました [text to speech] スピーチの自然さと話者の類似性という点で、このシステムは重要です」と著者は書いています。 さらに、Vall-E はスピーカーの感情とサウンドボードの音響環境をチューニングに保つことができることがわかりました。 “

Android SPY ソフトウェアが再び攻撃し、金融機関とあなたのお金を奪う

2023 年 1 月 6 日にネバダ州ラスベガスで開催されるラスベガス コンベンション センターで開催される CES 2023 で、Microsoft の企業ブースの看板が展示されます。
((David Baker/Getty Imagesによる写真))

Val-E サンプル GitHub で共有されているものは、話者の主張と不気味なほど似ていますが、品質には幅があります。

Emotional Voices Database の複合文の 1 つで、Val-E は冷静に「ビニール袋の数を減らさなければならない」という文を言っています。

「ヘイ・ディズニー」コマンドでディズニーのキャラクターが Amazon Alexa に登場

Microsoft Vall-E の新しい言語モデルは、わずか 3 秒間の録音サンプルを使用してあらゆる音を模倣できると言われています。

Microsoft Vall-E の新しい言語モデルは、わずか 3 秒間の録音サンプルを使用してあらゆる音を模倣できると言われています。
(iStock)

ただし、 テキスト読み上げ AI 警告が表示されます。

「Vall-E は話者のアイデンティティを保持する音声を合成できるため、 フォームの誤用の可能性があるリスク声の識別や特定の話者のなりすましなどです」と、このウェブページの研究者は述べています。 ユーザーが音声合成のターゲット話者になることに同意すると仮定して、実験を実行します。 モデルが現実世界の目に見えない話者に一般化される場合、話者が自分の声と合成音声検出モデルの使用に同意することを保証するためのプロトコルを含める必要があります。 “

Microsoft Corp. は、2022 年 11 月 11 日金曜日、インドのノイダにある Microsoft India Development Center で署名します。

Microsoft Corp. は、2022 年 11 月 11 日金曜日、インドのノイダにある Microsoft India Development Center で署名します。
(写真家: Prakash Singh/Bloomberg via Getty Images)

FOX NEWSアプリはこちら

現在、Microsoft が「ニューラル マークアップ言語パラダイム」と呼んでいる Vall-E は一般に公開されていません。

READ  オード、パイモン、ルミナが原神インパクトファンコPOPの最初のグループを形成します