Microsoft最近開源了VibeVoice,一種即時文本轉語音系統,能夠生成聽起來像對話的語音。該系統的首次音頻延遲約為300毫秒,並支持流式輸入,能夠在長時間的對話中保持穩定。VibeVoice可以生成長達90分鐘的音頻,並支持多達四位不同的講者,確保在長時間的交流中,發言者之間的交替保持一致。其技術基於降低時間解析度的原理,音頻數據被壓縮為語義和聲學標記,以每7.5赫茲的速度運行,而不是傳統的幀級音頻。語言模型預測結構,擴散頭則恢復聲學細節,從而實現低延遲的音頻流。該系統的即時變體能夠增量流式傳輸文本,並在約300毫秒內產生首個語音。Microsoft還提供了一個WebSocket演示,展示了即時生成的功能。該代碼已獲得MIT授權,並僅供研究用途,目前在GitHub上的星數已超過2萬。