ChatGPT 的全新升級預示著人工智慧多模式的未來

ChatGPT不再僅僅是一個聊天機器人了。OpenAI最新的升級賦予了ChatGPT超越文字的強大新功能,像是它可以用自己的聲音講述睡前故事,或辨識照片中的物品,並回應音頻錄音。這些能力代表了人工智慧的下一個重大突破:多模式模型(multimodal models)。

Linxi(或稱Jim Fan)是Nvidia的資深人工智慧研究科學家,他表示多模式是這些大型模型的下一代,它可以處理不僅僅是文字,還包括圖像、音訊、影片,甚至其他模式。

ChatGPT的升級是多模式人工智慧系統一個值得注意的例子。與大型語言模型(large language model,LLM)或語音合成模型等使用單一人工智慧模型設計來處理單一輸入形式不同,它是多個模型共同合作以創建一個更具連貫性的人工智慧工具。

OpenAI提供了幾個具體的多模式功能。用戶可以使用圖像或語音來啟動聊天機器人,並可以在五種由人工智慧生成的聲音中選擇一種來接收回應。圖像輸入在所有平台上都可用,而語音功能僅限於Android和iOS的ChatGPT應用程式。例如使用ChatGPT來調整自行車座椅的情況,一名騎士首先拍了一張自行車的照片,並請求幫助降低座椅高度,再提供了自行車的使用手冊和一套工具的照片給ChatGPT後,ChatGPT以文字回應,描述了最適合這項工作的工具以及如何使用這些工具。

這些多模式功能並非全新。GPT-4在2023年3月推出時已具備了對圖像提示的理解。一些OpenAI的合作夥伴,包括微軟(Microsoft)的Bing Chat聊天機器人,已經開始實際應用這項功能。但要使用這些功能需要API訪問權限,因此通常僅限於合作夥伴和開發人員使用。而現在支付每月20美元訂閱ChatGPT Plus的用戶都可以使用這些功能。並且它們與ChatGPT友善界面的結合是另一個優點,輸入圖像就像打開應用程式並點擊圖示拍照那麼簡單。

雖然目前針對圖像、影片和語音的人工智慧模型令人印象深刻,但要找到每個任務的正確模型可能很費時,而在模型之間移動資料也很繁瑣。現在多模式人工智慧解決了這些問題,簡單性是它的特點,用戶可以使用各種媒體提示人工智慧,然後在同一對話中無縫切換圖像、文字和語音提示。

AI影片平台Storyvine的創始人兼執行長Kyle Shannon表示多模式指向了這些工具的未來,多模式可以在用戶想要的瞬間提供幾乎任何東西。生成式人工智慧的未來是非常個人化的,這將適用於知識工作者、具有創意的人才和用戶。

ChatGPT 對於圖像和語音的支援僅僅是未來即將到來的一小部分。Jim Fan在Nvidia進行遊戲人工智慧和機器人技術的研究,Jim Fan表示儘管目前還沒有好的模型,但原則上可以給它3D或數位資料,ChatGPT便可以輸出圖像、影片,甚至動作。

圖像和語音輸入是ChatGPT多模式能力的起點,也是用戶最常會想使用的兩種功能。人工智慧模型沒有理由不能訓練來處理其他形式的資料,無論是Excel試算表、3D模型,還是具有深度資料的照片。但這並不代表是件容易的事,企圖建立多模式人工智慧的組織面臨著許多挑戰,像是最大的挑戰之一,是處理訓練一系列人工智慧模型所需的龐大資料。

Jim Fan表示認為多模式模型將大致上與當前的大型語言模型相似,這需要非常多的資本投入。對於多模式模型來說可能會更糟,因為圖像和影片中包含了非常多的資料。因此這似乎會讓ChatGPT和其他經濟實力雄厚的人工智慧新創公司佔據優勢,比如創建了Claude.ai的Anthropic公司,該公司最近與亞馬遜(Amazon)達成了一項價值高達40億美元的協議。

然而,現在排除掉較小的組織還太早了。Jim Fan表示,對多模式人工智慧的研究比對大型語言模型的研究更不成熟,這為研究人員尋找新技術提供了許多發展空間。Shannon同意這一點,並預期各方都將帶來創新,引用了像Meta的LLama 2這樣的開源大型語言模型的快速迭代和改進。

最後Shannon表示通用工具和專業工具位在鐘擺的兩端。不同的是,現在有了真正通用工具的可能性,專業化可以成為一種選擇,而不是一種必要條件。

本文內容純屬筆者個人意見,並不代表TWNIC立場

相關連結:Matthew S.Smith (2023). ChatGPT’s New Upgrade Teases AI’s Multimodal Future. IEEE Spectrum.

檢自:https://spectrum.ieee.org/chatgpt-multimodal

Scroll to Top