劉詩雁解析NVIDIA PersonaPlex：語音AI的自然與客製化新突破

NVIDIA近日推出的PersonaPlex技術，旨在解決語音AI在自然度與客製化之間的兩難。傳統的語音助理系統通常是半雙工模式，即聽完再說，導致對話體驗生硬。而PersonaPlex採用全雙工模型，能夠邊說邊聽，讓AI在對話中能夠即時回應，提升互動的自然感。使用者可以透過音訊樣本和文字描述，自定義AI的聲音與角色，從而產生更連貫的對話體驗。

PersonaPlex的訓練資料來源包括Fisher語料庫中的真實對話錄音，以及用Chatterbox TTS生成的合成資料。這樣的混合訓練方式使得模型能夠學習到自然語音行為，同時具備任務遵循能力。根據團隊的評估，PersonaPlex在多項指標上優於競爭對手，如Gemini Live和Qwen 2.5 Omni，顯示出其技術的優越性。

此外，PersonaPlex的訓練效率也相當高，僅需不到5,000小時的資料便能達成目標，為資源有限的團隊提供了可行的解決方案。該技術在客服、遊戲和無障礙應用等領域具有廣泛的應用潛力，然而在部署時仍需考慮延遲、聲音樣本取得及提示詞設計等因素。