小米發布 MiMo-V2.5-TTS-Series 和 MiMo-V2.5-ASR

小米發布 MiMo-V2.5-TTS-Series 和 MiMo-V2.5-ASR

日期： 4月 24, 2026

小米發布 MiMo-V2.5-TTS-Series 和 MiMo-V2.5-ASR，MiMo-V2.5-TTS-Series 支援將輸入文字自動轉換為自然流暢的語音輸出，也可以透過配置語音風格和音色等參數，產生自然生動的語音內容。

核心能力

開箱即用的內建語音：提供多種高品質的內建語音，無需額外配置即可快速使用。
語音設計與複製：支援透過文字描述進行語音設計，或根據音訊樣本複製任意語音。
多樣化的語音風格：支援控制語速、情緒、角色扮演、方言和其他風格，以實現更生動自然的語音表達。

MiMo-V2.5-TTS 支援三款系列型號

MiMo-V2.5-TTS
MiMo-V2.5-TTS-VoiceDesign
MiMo-V2.5-TTS-VoiceClone

MiMo-V2.5-ASR 支援中英雙語識別、多種漢語方言、語碼轉換、歌詞轉寫、知識密集型內容、噪音環境、多說話人場景以及其他具有挑戰性的聲學條件。

主要特點

中文方言：原生支援吳語、粵語、閩南語、四川語等多種方言
代碼切換：無需語言標籤即可實現無縫的中英代碼切換轉錄
歌曲辨識：高精準度中英文歌曲歌詞轉錄，即使伴奏和人聲混合也能識別
嘈雜環境：在強噪音、遠場採集和其他不利聲學條件下仍能實現穩健的識別
多人對話：準確轉錄重疊的、多人參與的對話，例如會議
複雜英語場景：在 Open ASR 排行榜上，針對 AMI 等具有挑戰性的英語基準測試，表現領先。
知識密集內容：精確辨識古典詩、專業術語、人名、地名及其他知識密集資料
原生標點：標點符號根據韻律和語義原生生成，無需後期處理即可提供可直接使用的轉錄文本

https://mimo.xiaomi.com/mimo-v2-5-tts

https://mimo.xiaomi.com/mimo-v2-5-asr

Picture Source

Xiaomi

留言