《The Information》報導,OpenAI 正在開發一款全新的語音模型,目標是讓使用者與 ChatGPT 的對話不再顯得機械化。該模型能在對話過程中即時調整回應,即使使用者中途插話,AI 也能順勢改變回答內容。
現有的 ChatGPT「高級語音模式」(Advanced Voice Mode)仍採「輪流發言」機制,使用者必須完全語畢,系統才會開始處理音訊並產出回覆。若使用者在對話中插入「好」或「嗯哼」等發聲,模型會直接中斷說話,而非自然地銜接。
相較之下,這款代號為「雙向」(bidirectional,簡稱 BiDi)的新模型能持續處理說話者的聲音,即便遭到打斷也能立即調整對話走向。這將打破現有音訊模型「一旦開口即固定內容」的局限,實現更流暢的對話節奏。
不過,這項技術目前仍未準備好正式推出。據了解該專案的人士透露,原型模型在持續對話幾分鐘後,往往會出現故障或以異常聲音說話的情況。OpenAI 研究人員原本希望在今年第一季發布 BiDi,但目前時程可能延後至第二季甚至更晚。
OpenAI 認為,如果能縮小語音模型與文字模型之間的性能差距,將有助於擴大 AI 在全球的使用範圍,因為多數人與 AI 助理對話時,會覺得用語音交流比打字更自然。
BiDi 模型在客服應用上尤其具備潛力;舉例來說,當顧客致電零售商的 AI 客服,並在對話中途臨時決定將「退貨」改為「換貨」時,BiDi 模型理論上能讓 AI 專員順暢切換任務,而不至於愣住或導致程序中斷。
此外,該模型在串接外部工具與應用程式的表現也更為出色。OpenAI 先前曾透露,計畫針對未來以語音互動為主的 AI 硬體,提升音訊模型性能,目前也正考慮開發智慧音箱,讓使用者能透過語音指令,處理郵件收發或預訂餐廳。
新聞來源 (不包括新聞圖片): 鉅亨網