Microsoft Vall-E の新しい言語モデル たった3秒の録音サンプルでどんな声も真似できると言われています。
最近リリースされた AI ツールは、60,000 時間分の英語音声データでテストされました。 研究者は、コーネル大学の論文で、話者の感情や口調を再現できると述べています。
これらの結果は、ネイティブ スピーカーが一度も話したことがない単語の録音が作成された場合でも当てはまります。
「Vall-E はコンテキスト内の学習機能を強調し、それを使用してパーソナライズされた高品質のスピーチを合成するために使用できます。 録音はわずか3秒 音声プロンプトとして目に見えないスピーカーから。 実験の結果、Vall-Eは最新のゼロショットよりも大幅に優れていることがわかりました [text to speech] スピーチの自然さと話者の類似性という点で、このシステムは重要です」と著者は書いています。 さらに、Vall-E はスピーカーの感情とサウンドボードの音響環境をチューニングに保つことができることがわかりました。 “
Android SPY ソフトウェアが再び攻撃し、金融機関とあなたのお金を奪う
Val-E サンプル GitHub で共有されているものは、話者の主張と不気味なほど似ていますが、品質には幅があります。
Emotional Voices Database の複合文の 1 つで、Val-E は冷静に「ビニール袋の数を減らさなければならない」という文を言っています。
「ヘイ・ディズニー」コマンドでディズニーのキャラクターが Amazon Alexa に登場
ただし、 テキスト読み上げ AI 警告が表示されます。
「Vall-E は話者のアイデンティティを保持する音声を合成できるため、 フォームの誤用の可能性があるリスク声の識別や特定の話者のなりすましなどです」と、このウェブページの研究者は述べています。 ユーザーが音声合成のターゲット話者になることに同意すると仮定して、実験を実行します。 モデルが現実世界の目に見えない話者に一般化される場合、話者が自分の声と合成音声検出モデルの使用に同意することを保証するためのプロトコルを含める必要があります。 “
現在、Microsoft が「ニューラル マークアップ言語パラダイム」と呼んでいる Vall-E は一般に公開されていません。
「流行に敏感な探検家。受賞歴のあるコーヒーマニア。アナリスト。問題解決者。トラブルメーカー。」
More Stories
Apple Sports アプリでは、iOS 18 の iPhone ロック画面でライブスコアを表示できます
PS5 Proの発表計画とデバイスデザインに関するリーク
悪魔城ドラキュラ ドミナス コレクションの物理的なリリースが決定、予約注文は来月開始