Lior Alexander報導：Resemble AI推出Chatterbox-Turbo，單GPU即可實現即時語音代理

Resemble AI近期推出了Chatterbox-Turbo，這是一款350M參數的開源文本轉語音（TTS）模型，具備低於200毫秒的延遲，能夠在單一GPU上運行即時語音代理。Chatterbox-Turbo的設計旨在降低TTS的計算成本，其架構要求的VRAM較低，解碼器現在僅需一次運行，而非十次，從而消除了主要的生成瓶頸。該模型能在消費級GPU、CPU及Apple M系列設備上運行，並保持高音質。值得注意的是，Chatterbox-Turbo還引入了原生表達控制功能，用戶可以直接在文本中插入標籤，這使得語音代理在反應上更加靈活，無需後期處理。該模型特別針對即時代理和敘述進行優化，支持零樣本語音及從短參考中進行清晰克隆，並且可以選擇本地部署或整合進直播系統中，滿足多樣化的應用需求。