ChatGPT變得更像「人」：支援圖片和語音輸入，能看能聽還能說

OpenAI宣佈推出新版ChatGPT更新，增加了兩項新功能：語音輸入和圖像輸入。據OpenAI稱，新功能將在未來兩週內向ChatGPT Plus訂閱使用者推出，其他人也將“很快”能夠使用這些功能。

語音輸入功能

語音輸入功能方面，類似於手機上的語音助手，使用者只需按下一個按鈕，說出自己的問題，ChatGPT 就會將其轉換為文字，然後生成答案，再將答案轉換為語音，播放給使用者。

若要開始使用語音，請前往行動應用程式上的“設定”→“新功能”，然後選擇加入語音對話。然後，點擊主畫面右上角從五種不同的聲音中選擇喜歡的聲音。

新的語音功能採用了新的文字轉語音模型，能夠僅從文字和幾秒鐘的樣本語音中產生類似人類的音訊。這是OpenAI透過與專業配音員合作創作了每一個聲音。也使用他們的開源語音辨識系統 Whisper 可以將用戶的口語轉錄為文字。

OpenAI 表示，這樣的互動方式更加自然和便捷，而且由於 LLM 的技術優勢，答案的品質也會更高。OpenAI 還開發了一種新的文字轉語音模型，可以根據幾秒鐘的樣本語音，生成與之相似的人聲。

這種模型還有更多的潛在用途。例如，OpenAI 正在與 Spotify 合作，將Podcast內容翻譯成其他語言，同時保留主持人的聲音。不過，這種模型也存在一些風險，比如可能被惡意利用來冒充公眾人物或進行詐騙。因此，OpenAI 表示，這種模型不會被廣泛開放，而是會受到嚴格的控制和限制。

圖像輸入功能

圖像輸入功能則類似於 Google Lens，使用者可以拍攝自己感興趣的事物，並上傳到 ChatGPT 中。ChatGPT 會嘗試識別使用者想要詢問的內容，並給出相應的回答。

使用者還可以用應用程式中的繪圖工具來幫助表達自己的問題，或者配合語音或文字輸入來進行交流。

ChatGPT 的優勢在於它可以進行多輪對話，而不是一次性搜尋。如果使用者對答案不滿意或想要更多資訊，可以繼續向 ChatGPT 提問，從而得到更準確和全面的答案。

當然，圖像搜尋也有一些潛在問題。例如，在處理人物圖片時，OpenAI 表示他們限制了 ChatGPT 對人物進行分析和直接評價的能力，既為了保證精準性，也為了保護隱私，這意味著上傳一個人的照片就能知道他 / 她是誰還無法實現。

自從 2022 年初推出 ChatGPT 以來，OpenAI 一直在努力為其機器人增加更多功能和能力，同時避免造成新的問題出現。通過這次更新，該公司試圖在這條界線上尋找平衡點，通過有意識地限制其新模型能做什麼來實現這一目標。但是這種方法並不是長久之計，隨著越來越多的人使用語音控制和圖像搜尋，以及 ChatGPT 逐漸成為一個真正的多模態、有用的虛擬助手，要保持安全和合理的邊界會變得越來越困難。

語音功能將在iOS和Android平台推出，圖像功能將覆蓋所有平台。