劉詩雁解析NVIDIA PersonaPlex:語音AI的自然與客製化新突破

NVIDIA近日推出的PersonaPlex技術,旨在解決語音AI在自然度與客製化之間的兩難。傳統的語音助理系統通常是半雙工模式,即聽完再說,導致對話體驗生硬。而PersonaPlex採用全雙工模型,能夠邊說邊聽,讓AI在對話中能夠即時回應,提升互動的自然感。使用者可以透過音訊樣本和文字描述,自定義AI的聲音與角色,從而產生更連貫的對話體驗。

PersonaPlex的訓練資料來源包括Fisher語料庫中的真實對話錄音,以及用Chatterbox TTS生成的合成資料。這樣的混合訓練方式使得模型能夠學習到自然語音行為,同時具備任務遵循能力。根據團隊的評估,PersonaPlex在多項指標上優於競爭對手,如Gemini Live和Qwen 2.5 Omni,顯示出其技術的優越性。

此外,PersonaPlex的訓練效率也相當高,僅需不到5,000小時的資料便能達成目標,為資源有限的團隊提供了可行的解決方案。該技術在客服、遊戲和無障礙應用等領域具有廣泛的應用潛力,然而在部署時仍需考慮延遲、聲音樣本取得及提示詞設計等因素。

來源:https://www.facebook.com/modeerf/posts/pfbid0RFM88UAZi75BbVthv1q7rj4knj2JKvBemggWt2kfanjp3jnwieaJxJpa9iZE664Tl


Posted

in

by