小米發布 MiMo-V2.5-TTS-Series 和 MiMo-V2.5-ASR

 

小米發布 MiMo-V2.5-TTS-Series 和 MiMo-V2.5-ASR,MiMo-V2.5-TTS-Series 支援將輸入文字自動轉換為自然流暢的語音輸出,也可以透過配置語音風格和音色等參數,產生自然生動的語音內容。

核心能力

  • 開箱即用的內建語音:提供多種高品質的內建語音,無需額外配置即可快速使用。
  • 語音設計與複製:支援透過文字描述進行語音設計,或根據音訊樣本複製任意語音。
  • 多樣化的語音風格:支援控制語速、情緒、角色扮演、方言和其他風格,以實現更生動自然的語音表達。

MiMo-V2.5-TTS 支援三款系列型號

  • MiMo-V2.5-TTS
  • MiMo-V2.5-TTS-VoiceDesign
  • MiMo-V2.5-TTS-VoiceClone
MiMo-V2.5-ASR 支援中英雙語識別、多種漢語方言、語碼轉換、歌詞轉寫、知識密集型內容、噪音環境、多說話人場景以及其他具有挑戰性的聲學條件。

主要特點
  • 中文方言:原生支援吳語、粵語、閩南語、四川語等多種方言
  • 代碼切換:無需語言標籤即可實現無縫的中英代碼切換轉錄
  • 歌曲辨識:高精準度中英文歌曲歌詞轉錄,即使伴奏和人聲混合也能識別
  • 嘈雜環境:在強噪音、遠場採集和其他不利聲學條件下仍能實現穩健的識別
  • 多人對話:準確轉錄重疊的、多人參與的對話,例如會議
  • 複雜英語場景:在 Open ASR 排行榜上,針對 AMI 等具有挑戰性的英語基準測試,表現領先。
  • 知識密集內容:精確辨識古典詩、專業術語、人名、地名及其他知識密集資料
  • 原生標點:標點符號根據韻律和語義原生生成,無需後期處理即可提供可直接使用的轉錄文本

Picture Source
Xiaomi

留言