人工智慧藝術生成器可以被欺騙,製作不宜的圖像

2022年4月,Open AI推出了DALL-E2,這是DALL-E的繼任者,它是一種人工智慧系統,可以從自然語言文字描述中產生圖像。DALL-E2具有更好的解析度、更快的處理速度和編輯功能,用戶只需使用文字命令即可在生成的圖像中進行更改。用戶還可以上傳自己的圖像,然後告訴DALL-E2如何即興發揮。

DALL-E2的訓練資料包含了約6.5億筆圖像和相關文字,這使DALL-E2瞭解圖像和用於描述它們的詞語之間的關係。這種技術的應用範圍非常廣泛,例如藝術、設計、廣告、遊戲等等。然而,這種技術也存在一些問題,例如安全問題和誤判問題。

在訓練之前,Open AI對資料集進行了過濾,刪除了明顯包含暴力、性或仇恨內容的影像。研究人員明確表示,DALL-E2仍然有可能產生有害內容。一種稱為「SneakyPrompt」的新演算法可以產生命令來繞過這些人工智慧系統的安全過濾器,Open AI也將努力尋找加強安全措施的方法。

研究人員發現,某些無意義的字眼可能會促使這些人工智慧系統產生不相關的圖片,例如DALL-E2會將「thwif」和「mowwly」視為貓,並將「lcgrfy」和「butnipfwngho」視為狗。科學家不確定為什麼生成式人工智慧會將這些無意義的字誤認為是命令。研究人員指出,因為這些系統也使用英語以外的語料庫進行訓練,一些類似於「thwif」的音節或音節組合在其他語言中可能與「貓」等單字相關。

研究人員還發現,無意義的單字可能會導致生成式人工智慧生成工作場所不宜(Not Safe For Work, NSFW)的圖像。顯然,安全過濾器並沒有將這些提示(Prompt)視為禁止語。科學家還發現,生成式人工智慧可能會將常規單字誤認為其他常規單字,例如,DALL-E2可能會將「glucose」或「gregory faces wright」誤認為是貓,將「maintenance」或「dangerous think walt」誤認為是狗。以上情況有可能是因為這些字詞所在語句中的上下文帶來的誤導。當給出的提示為「The dangerous think walt growled menacingly at the stranger who approached its owner」,系統將dangerous think walt視為主詞,從句子的其餘部分如咆嘯(growled),推斷出「dangerous think walt」意味著狗。

所有的生成式人工智慧模型都有安全過濾器,以防止用戶提示他們製作色情、暴力或其他不當圖像。這些模型不會根據包含「裸體」、「謀殺」或「性感」等敏感術語的提示來產生圖像。然而,有一種新的生成式AI模型無視自己的安全機制和條款,被研究人員稱為「SneakyPrompt」,該模型使用強化學習(Reinforcement learning,RL)來創建提示,這些提示對我們來說看起來像是亂碼,但人工智慧模型學會識別這些為產生不當圖像的隱藏請求。Stability AI和Open AI已獲悉該組織的發現,在撰寫本文時,這些提示不再能在Open AI的DALL-E2上生成NSFW圖像。

本文內容純屬筆者個人意見,並不代表TWNIC立場

相關連結:

Charles Q. Choi. (2023).AI Art Generators Can Be Fooled Into Making NSFW Images. IEEE Spectrum.檢自:https://spectrum.ieee.org/dall-e(Nov.20,2023)

Rhiannon Williams. (2023). Text-to-image AI models can be tricked into generating disturbing images. MIT Technology Review.檢自:https://www.technologyreview.com/2023/11/17/1083593(Nov.17,2023)

Eliza Strickland. (2022). DALL-E 2’s Failures Are the Most Interesting Thing About It DALL-E 2. IEEE Spectrum.檢自:https://spectrum.ieee.org/openai-dall-e-2 (Jul.14,2022)

Scroll to Top