ChatGPT 支援語音與文字整合互動，OpenAI 多模態新功能正式上線

OpenAI 近日宣布，旗下 ChatGPT 聊天機器人正式整合「語音模式」進入主要聊天介面，讓使用者能在語音對話中即時看到地圖、圖片等視覺內容以及自動文字轉錄，提供更順暢的多模態互動體驗。

過去，語音對話是 ChatGPT 的獨立功能，使用者需額外切換模式才能使用語音功能。現在新版直接把語音整合進主聊天畫面，用戶可以一邊開口說話、一邊看到圖表或圖片等視覺輔助資料，也能查看系統自動產出的文字轉錄紀錄，方便日後查閱對話內容。

OpenAI 表示，這項整合大幅提升了互動效率與便利性。例如，當使用者用語音詢問某個地點，系統不只會以自然語調回應，還會即時在畫面中顯示對應地圖資訊或相關圖片。

此外，考慮到有些人偏好純語音互動，新版本也貼心設計了一個設定開關，讓使用者可選擇回到舊版的純語音模式，以維持原本的沉浸式體驗。

這波更新也是 OpenAI 積極拓展 AI 應用邊界的最新一步。除了多模態功能，近期 OpenAI 還陸續推出 AI 購物助手、支援 iCloud 鑰匙圈的 Atlas 瀏覽器功能、群組聊天系統，以及運算效能更強的 GPT-5.1 模型等新功能，持續深化在消費者市場與企業端的產品布局。