Lior Alexander報導：Microsoft開源VibeVoice實現即時對話式語音生成

Microsoft最近開源了VibeVoice，一種即時文本轉語音系統，能夠生成聽起來像對話的語音。該系統的首次音頻延遲約為300毫秒，並支持流式輸入，能夠在長時間的對話中保持穩定。VibeVoice可以生成長達90分鐘的音頻，並支持多達四位不同的講者，確保在長時間的交流中，發言者之間的交替保持一致。其技術基於降低時間解析度的原理，音頻數據被壓縮為語義和聲學標記，以每7.5赫茲的速度運行，而不是傳統的幀級音頻。語言模型預測結構，擴散頭則恢復聲學細節，從而實現低延遲的音頻流。該系統的即時變體能夠增量流式傳輸文本，並在約300毫秒內產生首個語音。Microsoft還提供了一個WebSocket演示，展示了即時生成的功能。該代碼已獲得MIT授權，並僅供研究用途，目前在GitHub上的星數已超過2萬。