Resemble AI近期推出了Chatterbox-Turbo,這是一款350M參數的開源文本轉語音(TTS)模型,具備低於200毫秒的延遲,能夠在單一GPU上運行即時語音代理。Chatterbox-Turbo的設計旨在降低TTS的計算成本,其架構要求的VRAM較低,解碼器現在僅需一次運行,而非十次,從而消除了主要的生成瓶頸。該模型能在消費級GPU、CPU及Apple M系列設備上運行,並保持高音質。值得注意的是,Chatterbox-Turbo還引入了原生表達控制功能,用戶可以直接在文本中插入標籤,這使得語音代理在反應上更加靈活,無需後期處理。該模型特別針對即時代理和敘述進行優化,支持零樣本語音及從短參考中進行清晰克隆,並且可以選擇本地部署或整合進直播系統中,滿足多樣化的應用需求。