Chatterbox 是 Resemble AI 開發的三個最先進的開源文字轉語音模型,採用 MIT 許可證。
Chatterbox 產生的每個音訊檔案都包含 Resemble AI 的 PerTh(感知閾值)浮水印——一種深度神經網路浮水印,能夠以不易察覺且難以偵測的方式嵌入資料。
Turbo 基於精簡的 3.5 億參數架構,在提供高品質語音的同時,還能比之前的型號節省運算資源和顯存。此外,Resemble AI 也簡化了先前效能瓶頸的語音標記到梅爾編碼的解碼器,將產生步驟從 10 步減少到僅1 步,同時保持了高保真音訊輸出。
副語言標籤現已內建於 Turbo 模型中,您可以使用[cough]`<a>`、[laugh]` [chuckle]<b>`、`<c>` 等標籤來增強語音的真實感。雖然 Turbo 最初是為低延遲語音代理而設計的,但它在旁白和創意工作流程方面也表現出色。
https://github.com/resemble-ai/chatterbox
Picture Source:
Github

留言
張貼留言