Resemble AI 發布 Chatterbox Turbo 文字轉語音模型

Chatterbox 是 Resemble AI 開發的三個最先進的開源文字轉語音模型，採用 MIT 許可證。

Chatterbox 產生的每個音訊檔案都包含 Resemble AI 的 PerTh（感知閾值）浮水印——一種深度神經網路浮水印，能夠以不易察覺且難以偵測的方式嵌入資料。

Turbo 基於精簡的 3.5 億參數架構，在提供高品質語音的同時，還能比之前的型號節省運算資源和顯存。此外，Resemble AI 也簡化了先前效能瓶頸的語音標記到梅爾編碼的解碼器，將產生步驟從 10 步減少到僅1 步，同時保持了高保真音訊輸出。

副語言標籤現已內建於 Turbo 模型中，您可以使用[cough]`<a>`、[laugh]` [chuckle]<b>`、`<c>` 等標籤來增強語音的真實感。雖然 Turbo 最初是為低延遲語音代理而設計的，但它在旁白和創意工作流程方面也表現出色。

Picture Source:

Github

KJPro Technology Blog