日韩精品无码视频一区二区蜜桃-成人午夜高潮a∨猛片-亚洲欧美精品伊人久久-黑人入室粗暴人妻中出-丰满人妻被黑人中出849

  • 元宇宙:本站分享元宇宙相關資訊,資訊僅代表作者觀點與平臺立場無關,僅供參考.
  • 元宇宙
  • AI
  • AI資訊
  • Meta發布通用語音Voicebox,可合成6種語言,支持多種語音功能

Meta發布通用語音Voicebox,可合成6種語言,支持多種語音功能

  • 2023年6月21日 09:49

Meta AI最近發布了一款名為Voicebox的通用語音生成AI模型,該模型具有突出的性能,并且可以合成六種語言的語音,支持多種語音功能。本文將介紹Voicebox的特點和應用領域,并探討了語音生成技術的潛在濫用風險。



一、Meta 發布語音生成 AI 模型 Voicebox
最近,Meta AI在生成式AI語音模型領域取得了重大突破,發布了一款名為Voicebox的通用語音生成AI模型。這個模型具有突出的性能,并且無需專門訓練即可適應多種語音生成任務。Meta AI的研究人員分享了多個音頻樣本和一篇詳細介紹他們方法和成果的研究論文。

Voicebox類似于圖像和文本生成系統,可以創建多種樣式的輸出。不同之處在于,Voicebox不是生成圖片或文本,而是直接生成高質量的音頻片段。該模型可以合成六種語言的語音,包括英語、法語、西班牙語、德語、波蘭語和葡萄牙語,并且可以執行噪聲去除、內容編輯、風格轉換和多樣化樣本生成等任務。

在Voicebox發布之前,生成式AI語音模型需要經過精心準備的訓練數據,并接受特定任務的訓練。Voicebox采用了一種新方法,可以直接從原始音頻和隨附的轉錄結果中進行學習。與只能根據給定音頻片段續寫結尾的自回歸模型不同,Voicebox可以修改給定樣本中的任意部分。

Voicebox具有出色的性能,可以執行各種任務,包括以下幾個方面:

1.結合上下文的文本到語音合成:
通過使用僅兩秒長的輸入音頻樣本,Voicebox可以匹配樣本的音頻風格,并根據此生成文本到語音的輸出。這個功能將有望為無法說話的人提供語音支持,或者幫助游戲中的NPC和虛擬助手快速生成對話語音。

2.跨語言風格轉換:
給定一段語音樣本和英語、法語、德語、西班牙語、波蘭語或葡萄牙語的文本,Voicebox可以生成對應語言的朗讀音頻。這種能力令人興奮,未來可以幫助母語不同的人們以自然真實的方式進行交流。

3.語音降噪與編輯:
Voicebox通過上下文學習具備強大的語音生成能力,可以無縫編輯音頻中的片段。它可以重新合成被噪聲干擾的語音部分,或者替換錯誤的詞,而無需重新錄制整段語音。用戶可以找到語音中被噪聲(如狗叫聲)干擾的原始片段,剪切出來,并指示模型重新生成。將來,這種能力還可以用于音頻的清洗和編輯,使用起來與目前流行的圖像編輯工具一樣簡單便捷。

4.多樣化語音采樣
通過使用多樣化的真實數據進行訓練,Voicebox可以生成與真實對話高度吻合的六種語言對話音頻。這個功能將來可以用于生成合成數據,以提高語音助手模型的訓練效果。研究結果顯示,基于Voicebox生成的合成語音訓練的語音識別模型在性能上幾乎與使用真實語音的模型相當,錯誤率降低了1%。與以往的文本到語音模型相比,使用合成語音數據進行訓練的錯誤率降低了45%至70%。

Voicebox的發布標志著生成式AI研究在音頻領域邁出了重要的一步。具備任務泛化能力的可擴展生成式AI模型已經在文本、圖像和視頻生成等方面引起了人們對跨任務應用潛力的濃厚興趣。Meta AI希望在音頻領域也能掀起同樣的潮流,并繼續深入挖掘和探索,關注其他研究人員如何在Voicebox的基礎上尋求新的突破。

Voicebox的問世將為語音生成領域帶來更多可能性,為語音技術的發展和應用創造新的機會。隨著AI技術的不斷進步,我們有理由期待語音生成能力的進一步突破和創新,為人們的日常生活和工作帶來更多便利和可能性。


二、Flow Matching 技術背后的 Voicebox

目前,現有的語音合成工具存在一個主要限制,就是只能通過專門任務配備的數據進行訓練。這些數據往往單調而干凈,數量也相對有限且難以獲取,因此導致輸出結果也變得單調。

為了克服這個問題,Meta AI 的研究人員開發了一項名為 Voicebox 的技術,它基于 Flow Matching 技術,是 Meta 在非自回歸生成模型領域的最新突破。Voicebox 能夠準確地捕捉到文本到語音之間高度不確定的映射關系。非確定性映射是非常關鍵的,因為它使得 Voicebox 能夠從各種語音數據中學習,而無需對各種變化要素進行詳細標注。換句話說,Voicebox 能夠在更加多樣化和規模更大的數據上進行訓練。

與目前最先進的英語模型 VALL-E 相比,Voicebox 在可懂度(即單詞錯誤率)和音頻相似度方面表現更強。在單詞錯誤率方面,VALL-E 的錯誤率為 5.9%,而 Voicebox 僅為 1.9%。在音頻相似度方面,VALL-E 的得分為 0.580,而 Voicebox 達到了 0.681。此外,Voicebox 的速度還比 VALL-E 快了 20 倍。在跨語言風格遷移方面,Voicebox 也優于領先的模型 YourTTS。Voicebox 能夠將平均單詞錯誤率從 10.9% 降低至 5.2%,并將音頻相似度從 0.335 提高至 0.481。

為了訓練 Voicebox,研究人員使用了超過 5 萬小時的語音錄音數據,以及來自英語、法語、西班牙語、德語、波蘭語和葡萄牙語的公共有聲讀物轉錄。經過訓練,Voicebox 可以根據給定的前后語音和片段轉錄數據來預測語音片段。它還可以根據上下文自動補全語音,這使得它可以應用于其他語音生成任務,包括在無需重新生成整個輸入的情況下生成音頻的中間部分。


三、關注語音生成的濫用風險

盡管Voicebox擁有許多令人興奮的用例,但Meta AI公司也意識到其存在潛在的濫用風險,因此他們決定暫不公開Voicebox模型或代碼。Meta AI在社交平臺上公開表示:“與其他強大的人工智能創新技術一樣,我們認為這項技術也可能會被濫用,造成意外傷害。”

作為首個能夠成功執行任務的多功能、高效泛化模型,Meta AI堅信Voicebox將開創生成式AI語音模型的新時代。然而,與其他強大的AI創新成果一樣,這項技術同樣可能因誤用而引發意外危害。為了應對語音生成帶來的濫用風險,Meta AI也正在構建一款高效分類器,用于區分由Voicebox生成的音頻和真實語音,以緩解未來可能出現的各種風險。這一舉措顯示了Meta AI對濫用風險的關注和對技術發展的責任心。


四、總結

隨著Meta AI發布Voicebox模型,語音生成領域迎來了新的可能性。Voicebox的出現標志著生成式AI研究在音頻領域的重要進展,為語音技術的發展和應用創造了新的機會。然而,我們也要意識到語音生成技術的濫用風險,Meta AI對此表示關注,并采取了相應的措施來應對。隨著AI技術的不斷進步,我們期待語音生成能力的進一步突破和創新,為人們的生活和工作帶來更多便利和可能性,同時也需要明智地使用和監管這項技術,確保其正面效果的同時減少潛在風險的出現。

Copyright © 2021.Company 元宇宙YITB.COM All rights reserved.元宇宙YITB.COM

主站蜘蛛池模板: 国产动作大片中文字幕| 国产高清视频在线观看三区| 综合网日日天干夜夜久久| 四虎国产精品成人影院| 国产精品尹人在线观看| 国产成人精品无码一区二区老年人| 日韩精品区一区二区三vr| 精品第一国产综合精品蜜芽| 亚洲综合久久久久久888| 欧美videos另类极品| 亚洲欧洲无码专区av| 亚洲熟妇成人精品一区| 粉嫩大学生无套内射无码卡视频| 国产精品免费久久久久影院| 国产熟睡乱子伦午夜视频| 国产成a人亚洲精v品无码| 欧美与黑人午夜性猛交久久久| 蜜臀av色欲a片无码一区二区| 国产精品麻豆成人av电影艾秋 | 好男人在在线社区www在线影院| 欧美精品黑人粗大视频| 欧美牲交a欧美牲交aⅴ另类 | 熟女人妻aⅴ一区二区三区60路| 国产内射爽爽大片| 欧美成人免费一区二区| 免费人成视频在线播放| 亚洲成色www久久网站| 国产精品美女久久久久久久久| 国内揄拍国产精品人妻门事件| 一本加勒比波多野结衣| 精产一二三产区m553| 妺妺窝人体色www婷婷| 护士奶头又白又大又好摸视频 | 国产欧美va欧美va香蕉在线| 国产精品无码一区二区三区电影| 大学生高潮无套内谢视频| 四虎成人精品无码永久在线| 韩日午夜在线资源一区二区| 久久无码av三级| 亚洲日韩一区二区| 中文无码熟妇人妻av在线|