你免費幫谷歌訓練了15年的人工智能,只是一直被矇在鼓裡

緣起:一個聰明的構思

驗證碼的誕生

2000年,垃圾郵件機器人正在摧毀互聯網。論壇被灌水,收件箱被塞爆,網站急需一種方法來區分人類與機器。

reCAPTCHA的創新

卡內基梅隆大學的Luis von Ahn教授解決了這個問題。他發明了驗證碼(CAPTCHA):一個只有人類能讀懂的扭曲文字,機器人無法通過。

從文字到圖像的轉變

但von Ahn看到了更多。數以百萬計的人在這些挑戰中耗費了精力。那如果這種精力能同時做兩件事呢?

2007年,他又推出了reCAPTCHA。其精妙之處在於:它不再顯示隨機的亂碼,而是顯示兩個詞。一個是系統已知的,另一個是計算機尚無法辨認的真實掃描書籍。而你的回答幫助了這些圖書的數字化

谷歌的收購與數據積累

這些書來自《紐約時報》檔案庫和谷歌圖書,多達1.3億冊。

你以為你只是在登錄一個普通的網站,其實你正在為全球最大的數字圖書館做OCR(光學字符識別)。

2009年,谷歌正式收購了reCAPTCHA。

後來,谷歌改變了玩法

「扭曲文字」的時代在2012年左右結束了。

谷歌又遇到了新的挑戰:街景車拍攝了全球每一條路,但照片只是原始數據。為了讓AI發揮作用,它需要理解所見之物:路牌、斑馬線、紅綠燈、店鋪門面。

所以谷歌重新設計了reCAPTCHA v2。畫面中沒有扭曲的文字,而是照片網格。「點擊所有有紅綠燈的方格。」「選擇每一條斑馬線。」「識別店面。」

這些圖片直接來自谷歌街景。你的點擊就是標籤。

每一次選擇都在告訴谷歌的計算機視覺模型:這一簇像素是紅綠燈,那個形狀是斑馬線。你不是在通過測試,你是在構建數據集。

超乎想象的規模

在巔峰時期,每天有2億個reCAPTCHA被解開。每個挑戰耗時10秒,這意味著每天產生20億秒的人類勞動。即:每天50萬小時。

有償的數據標註成本約為每小時10到50美元。按最低標準計算:每天被免費提取的勞動價值高達500萬美元。

而且reCAPTCHA不只存在於某個App。它遍佈每家銀行、每個政府門戶、每個電商網站。你別無選擇:想登陸賬戶?先來標註數據集。谷歌從未問過你的意見,沒付過一毛錢薪水,甚至從未告訴過你這件事。

這一切造就了什麼?

這些數據直接餵給了兩個產品:

– 谷歌地圖:全球最常用的導航工具。它識別路牌、店鋪和城市地理的能力,部分歸功於數十億次人類在登錄網站時的標註。

– Waymo:谷歌的無人駕駛項目。為了安全導航,無人車需要近乎完美地識別數千種視覺模式。

那些識別工作的真值訓練數據正是由數百萬人在不知情的情況下通過reCAPTCHA標註的。Waymo在2024年完成了超過400萬次付費行程,估值450億美元。其基石,正是由那些只想查個郵件的「無償互聯網民」奠定的。

為什麼沒人能複製這種模式?

數據標註極其昂貴。Scale AI、Appen和Labelbox等公司的存在就是為了解決這個問題,他們僱傭數十萬工人,有時時薪不足1美元。

谷歌的解法另闢蹊徑:他們讓標註變成了強制性的。無需付費,無需徵得同意,而是作為進入互聯網每個角落的「門票」。結果是:數十億張帶標籤的圖像、全球覆蓋、全天候天氣、世界每個城市。沒有任何標註公司能做到這一點。互聯網本身就是工廠,每個網民都是未籤合同的員工。

你至今仍在參與

2018年推出的reCAPTCHA v3甚至不再顯示挑戰。它通過觀察你移動鼠標的方式、滾動速度、停留時間。你的行為指紋會告知它你是否為人類。這些行為數據同樣會回饋到谷歌的AI系統中。

你從未主動選擇加入,從來沒有一個複選框供你勾選。但此刻,在你訪問的大多數網站上,你依然在這樣做。

令人不安的諷刺

Luis von Ahn的初衷是天才的:將人類本就在浪費的精力轉化為有用的產出。但谷歌利用這一願景做的事卻另當別論。他們利用了用戶不得不使用的安全機制,將其部署在全網,收割產出來構建價值數百億美元的商業產品。用戶一無所獲,甚至一無所知。

最深刻的諷刺在於:你花費數年時間證明自己是人類,通過完成AI當時還無法做到的視覺識別工作。而一旦AI學會了這些,人類的視覺標註就不再被需要。

你證明了自己是人類,結果卻是讓自己變得可被取代。

原文鏈接

來源:https://m.theblockbeats.info/news/61605

返回頂端