群眾外包?「工人」智慧?

莊舒歆/東海大學資訊管理學系

高品質數據

數據分析公司Data Quality Solutions總裁Thomas C. Redman表示「高品質的數據是能在操作、制定決策和規劃中符合預期。」[1],也就是說高品質數據應具有精確、有效和完整等特性,使人類或人工智慧(Artificial Intelligence,AI)能夠從大數據中找出關聯,根據DIKW體系[2],使數據(Data)轉變為智慧(Wisdom)。

機器學習(Machine Learning,ML)是人工智慧學習方式之一,著重訓練電腦從數據中學習並找出特徵。偶爾會聽到「垃圾進,垃圾出」(Garbage in, garbage out),是指蒐集的數據有問題,就會推論出錯的參數。在龐大的數據中,訓練AI模型若進入此種循環,要經過長時間才能慢慢剔除所謂的「垃圾」,需要耗費巨額成本和時間。

群眾外包

為了能訓練出精準的預測模型,歷史數據就必須符合高品質的標準。數據科學家會先進行數據清理工作,但那既無聊又耗時,且團隊缺乏多樣性沒辦法完全找出並修正所有的錯誤數據,容易造成系统漏洞。技術公司Narrative Science在研究報告中指出[3],有59%的公司將數據科學人才列為實現大數據技術的障礙。在美國,全職數據科學家的平均年薪為12萬美元,對企業來說是不小的負擔。

群眾外包的商機就此出現,企業提交工作到外包平台上,僱用來自世界各地的員工完成任務,進而改進AI系统,平台上會有各種工作,包含翻譯各種語言的文章、瀏覽大量照片找出有沒有圖片包含仇恨或歧視的內容等等。其中,最為出名的群眾外包平台「亞馬遜土耳其機器人」(Amazon Mechanical Turk,MTurk),名稱取自18世紀發明的自動下棋裝置「土耳其機器人」,外型像是一個穿戴土耳其造型的假人,但其實內部是一個真的下棋大師,許多棋手都誤以為自己在與機器競爭。藏在內部的下棋大師是自動下棋裝置的重要齒輪;而看似自行運作與計算的AI,背後也有許多努力工作的「工人們」被視為AI運作不可或缺的齒輪。

「工人」智慧

群眾外包工人與數據科學家團隊有甚麼差別?

與數據科學家相比他們便宜非常多,瀏覽100張圖片驗證有無不良內容,平均賺得0.04美元,任務開價的高低通常會直接影響接受任務者的多寡。工人們在效率表現上也較為出色,除了人數眾多的原因,工人為了賺得更多的工資會賣力完成任務。同為遠距工作,工人比企業員工效率快上許多,且企業平時也不需提供辦公室或硬體設施。

對於能更快且降低成本的達成作業,企業絕對樂於委託。此外工人還能確保高品質數據,原因有以下四項:

  1. 擁有多樣性

若只招募特定的群體來為目標受眾測試,容易出現偏見,企業透過使用來自不同國家的員工來測試或篩選數據,能夠更全面的發現錯誤數據。

  1. 工作者數量多

工作者足夠多,除了代表有多樣性的特徵,同時也表示接受同一任務的人們所交出的數據量夠多,能夠有更少的誤差。此外,企業一定不只一項任務,有些人疲於做同一任務想更換工作時,有足夠多的人,才能使每項任務都有充足的工作者提供足夠多的數據。

  1. 講求工人的品質

特別是講求某種能力的工作,接案的工人就必須不斷地接受測試,確保他們持續的符合執行任務的標準。以翻譯或錄製音訊來說,為了確保工作者對此種語言的熟練度,每隔一段時間就會經過嚴格的語言測試,由另一位同為外包平台的工作者出題和驗證,測試內容也包含母語者會使用的慣用語或方言。以人工驗證方式確保工人品質,不斷循環達到更好的數據品質。

  1. 機器學習

外包平台會使用機器學習來監督工作者的行為,以同一類型任務過去的平均時間判斷,如果任務完成的過快可能代表工作者在任務上較急促不細心,而耗時太長可能意味他們曾分心或不能解決問題。機器學習還能發現工作者給出不一致的答案,運用演算法評估哪一種答案才是較為正確的,也就是一邊餵養數據一邊訓練AI。

結語

群眾外包是一種全新的工作型態,能夠解決人工智慧缺乏高品質數據的問題,對企業來說是「性價比」非常高的完美團隊。

但轉念一想,這也促使大型企業將工作外包給勞動成本低的國家,使世界貧富差距擴大。很少人會為他們的權益發聲,甚至不知道他們的存在。工作時間長且不固定,使的工資低於最低時薪的狀況時有所聞,甚至平均每小時只有2美元。一位在MTurk工作的受訪者表示:「僱主比工作者擁有更大的權力,可以突然否定已提交的工作成果,但工作者卻沒有辦法採取任何行動」[4]

群眾外包是推動人工智慧進步的好方法,但人類科技發展的同時,若輕忽勞動者穩定的收入和生活保障,演變成科技進步需伴隨勞工生活品質退化,後續的發展可能會造成更嚴重的社會問題,各國應開始省思並訂定相關政策,使各科技巨頭重視所有「工人」的付出。

[1] Thomas C. Redman (2004). Data: An Unfolding Quality Disaster. 檢自:http://www.estgv.ipv.pt/PaginasPessoais/jloureiro/ESI_AID2007_2008/fichas/TP06_anexo2.pdf  (Jun. 17, 2022)

[2] Russell .L. Ackoff (1989). From Data to Wisdom. Journal of Applied Systems Analysis 16: 3-9. (Jun. 17, 2022)

[3] Narrative Science (2016). Outlook on Artificial Intelligence in the Enterprise 2016. 檢自:http://www.datascienceassn.org/sites/default/files/Outlook%20on%20Artificial%20Intelligence%20in%20the%20Enterprise%202016.pdf  (Jun. 17, 2022)

[4] Jane Wakefield (2021). AI: Ghost workers demand to be seen and heard. BBC 檢自:https://www.bbc.com/news/technology-56414491 (Jun. 17, 2022)

回到頂端