Speak 宣布與 Open AI 深度合作 結合 Realtime API 推出全新即時角色扮演功能

記者張辰卿/台北報導

人工智慧語言學習平台 Speak 今(2)日宣布與 OpenAI 進行合作,使用其全新 Realtime API 並與 Speak 的學習引擎結合,推出「即時角色扮演」新功能,提供多種場景中的沉浸式、逼真的語言練習體驗。透過 GPT-4o 的 Realtime API, Speak 的 AI 家教的反應速度不僅與真人匹敵,甚至更快,並能理解和回通過饋超越純文本轉錄的語音特徵,例如語調、發音、語速等。語言學習和即時對話練習是語音轉語音技術(speech-to-speech )的絕佳應用場景,Speak 亦將持續與 OpenAI 深度合作,將這項技術嵌入其核心體驗中。

Speak 團隊表示,「Speak 的創立源自我們對未來的願景,透過 AI 賦能每個人,無論他們身處何處,都能接觸到最好的口語家教和對話夥伴,而我們對 Speak 所打造的對話式學習方法,在這次技術支援下變得更加沉浸,而感到無比驚艷。我們對這次全新的體驗、其背後的技術以及它對語言學習未來的意義充滿期待。」

「把話說出口」成流利外語關鍵  Speak 用 AI 打造最佳的學習夥伴

大多數語言學習者無法流利地使用外語,原因是他們嘗試了各種方法,卻忽略了大聲地將該語言說出來,並且極少有機會練習對話或找母語者進行交流。將近兩年前,Speak 推出了全球首個 AI 驅動的角色扮演對話練習體驗,這成為語言學習行業的標竿,亦已成為其最受歡迎的功能之一,也是 Speak 從輔助口語練習工具轉變為真正的輔導體驗的第一步。

▲Speak 推出全新「即時角色扮演」功能,透過 GPT-4o 的 Realtime API, Speak 的 AI 家教的反應速度不僅與真人匹敵,甚至更快。(圖/Speak 提供)

然而,這其中仍存在許多限制,例如語音轉文字的處理、基於文本的大型語言模型(LLM)工作流程、再到合成到 AI 角色的語音,這一過程仍然笨拙且緩慢,導致對話感覺不夠流暢和自然,也讓每一步都有著延遲和錯誤。而透過 GPT-4o 的 Realtime API 的直接語音轉語音能力,這些問題得到了根本的解決了。

Speak 打造更加沉浸式的即時角色扮演  持續與OpenAI 合作打造下一代的學習體驗

除了這項全新的語音轉語音模型,Speak 亦專注於將該模型產品化,並運用既有的學習引擎,結合最佳技術、產品設計和教學方法,打造合適的用戶語言學習的體驗。在即時角色扮演功能中的重要重特色包含:

  • 當用戶在 App 上進行對話時,Speak 將運用其熟練度圖表(proficiency graph)系統來追蹤他們的語言知識狀態,確保對話符合用戶的口說水準,並使用最合適的句型和詞彙。
  • 為用戶提供具體的學習目標,協助他們在角色扮演中有效練習並達成任務。
  • 當用戶卡住時,我們會提供適當的提示,以幫助他們繼續對話。

透過獨有的學習引擎支持,並隨著即時對話動態更新,角色扮演的對話將能變得更加沉浸、自然且有助於提升流利度。

Speak 也分享,「儘管如此,目前仍有一些限制——這些全新的語音轉語音模型在指令跟隨上不如文本模型,而且在一些語言學習特定的任務上(如發音指導和回饋)表現仍有不足。Speak 也預期這些問題將在不久的將來顯著改善,我且將期待著繼續與 OpenAI 合作,一同實現這些目標。」

即時角色扮演功能將在接下來幾週內對限量的用戶推出,並預計於今年底全面開放。Speak 也將在整個學習體驗中持續使用 OpenAI 的 Realtime API,並推出其他更新的功能。

閱讀部落格文章全文:https://www.speak.com/blog/live-roleplays

Speak官方網站:https://www.speak.com/tw/try

下載並開始使用Speak:https://speak.onelink.me/ER2a/PRMedia