作者:Stacey Higginbotham
機器之心編譯 參與:周亮、微胖、李亞洲
當你下一次運行 Facebook 時,無論是網頁版還是 App,你可以仔細想一下,個人頁面刷新、家庭相冊瀏覽等這些操作會需要多少計算量,然后再乘以十億用戶,而且每一天都如此。
這不僅是運營一家「財富500強」(第242位)的社交網絡公司,也是在運營異常龐大的支撐各種服務的計算基礎架構,包括處理器、存儲器以及知道用戶各種需求的軟件。
Facebook 為全世界五分之一人口提供服務,而且去年年底,全球32億人口中有超過一半的人成為了互聯網戶。此時,這不是一個不理性的問題:地球上有足夠多的人來驅動這樣一張巨型網絡嗎?
回答是否定的,至少是負擔不起的。這就是 Facebook 求助人工智能的原因。
五年前,Facebook 推出 Open Computer 硬件倡議,他們這么做的原因是為用戶提供 News Feed 服務的成本完全就是產品銷售成本,即便對于這樣一個當時擁有7.4億用戶的網站。因此,打造公司自己的計算基礎架構,讓博文發布更快,成本更低,成為公司的基礎需求。
Facebook 表示,公司已經從對 Open Compute 的投資中節省了超過20億美元。但在互聯網領域,五年就是一個世代,如今每個科技巨頭都在設法征服另一個難題。雖然他們可以低成本的提供內容服務,但在數十億博文中,要搞清楚推送哪類內容依然有很大挑戰。因此,就像 Facebook 五年前通過 Open Compute 計劃開始重新搭建硬件產業一樣,最近,公司也創造了一個管理人工智能的內部平臺,如此一來,就能精準推送你想看的內容。而且,公司也希望將這個「機器學習」平臺規模化。(「機器學習」是一種人工智能類型,能讓計算機在沒有預編程的前提下學習如何運行。)
「我們正試著打造超過 15 億個人工智能代理(AI agents)——為每個使用 Facebook 或公司其他產品的每一個人服務。」新近成立的機器學習應用組負責人 Joaquin Candela 說,「那我們應該怎么做到呢?」
Candela 說,你要從以前的勝利中汲取靈感。Facebook 的基礎架構團隊也是機器學習應用團隊的靈感之源。
「我們傾向將諸如存儲、網絡設計以及計算視為理所當然的事情,」他說,「當視頻小組做直播視頻時,人們并沒有意識到這件事的量級。這很愚蠢。而基礎架構小組就是在那個地方傳遞魔力——將不可能變為可能。我們需要對人工智能做同樣的事情。也需要將人工智能變成你們認為理所當然的工程結構中的一部分,如此完整的一部分。」
去年九月,Facebook 成立了機器學習應用團隊(Applied Machine Learning team)。團隊負責運行一個覆蓋全公司的機器學習內部平臺,叫做 FBLearner Flow ,這個平臺就相當于人工智能領域的 Open Computer ,不過最大的區別在于:它并不會依托于開源硬件來提供給世界。公司說,如果沒有 Facebook 手頭數據,這個平臺本質上沒啥用。
FBLearner Flow 結合了幾個機器學習模型并用于處理幾十億數據點,這些數據點來自網站15億用戶的活動,并能對數千件事情進行預測:圖片中有哪位用戶,哪些可能是垃圾信息。FBLearner Flow 模型創造的算法有助于界定什么樣的內容出現在你的動態消息中,以及你會看到什么樣的廣告。
基于以上內容,我們會很容易得出結論:Facebook 使用人工智能會讓公司13,000雇員中的某些人失去工作。「但現實并沒有什么變化,」公司 CTO Mike Schroepfer 說。人工智能恰恰是在幫助公司提升工程師的能力。他說,「我們能做之前無法做到的事情。」
Applied Machine Learning 主任 Joaquin Qui?onero Candela
在 Schroepfer 看來,Facebook 經常能夠發現那些好機會,即便自己還沒有能力去征服——至少在人類力量的范圍內還無法解決。看一下公司最近發起的一項新功能,為視覺受損人提供圖片說明(以讓其「看到」圖片)。如果公司雇人手動為上傳到網絡的每張圖片內容做標記,成本會非常高,也無法規模化,當然也不可能期待用戶自己來做這個事情。但不管對于視覺受損人士,還是對于 Facebook,這些信息都是有用的。現在通過使用 FBLearner Flow 平臺上的計算機視覺模型,一臺計算機就能自動梳理數十億張圖片并給照片加上標簽,并實現了較為理想的準確率。
「它正在讓新應用成為可能,特別是規模化解決問題。」Schroepfer 說。Facebook 使用這種基于機器學習的辦法來翻譯 News Feed 博文;在用戶看到之前監測到網站不合適的內容;在打造 M 過程中,公司通過人與機器的結合去打造一個私人助理。
Facebook 并非唯一一家實驗人工智能的大型互聯網公司。谷歌、亞馬遜、微軟和百度都在相關技術上注入重資。隨著我們將更多的日常生活托付給數字王國,這一點將變得越來越明顯:那些建造了我們所依賴(日常信息、社交和多媒體等)的網站的那些人已經無法勝任后續工作了,讓機器登場。
自上個月起,大約有750 名Facebook 工程師和 40 個不同產品團隊正在使用 FBLearner Flow 平臺。公司希望截至到六月底,會有 1000 名工程師使用這個平臺。Facebook 最終想要建立一個對非工程師人員來說也非常容易使用的機器學習工具,盡管距離這一目標還很遙遠。
機器學習迅速變成最火的人工智能形式,也是人工智能的——隨著新計算技術出現,近期,這個有著幾十年歷史的科幻電影的標配歷經了一次重生——組成部件。隨著計算機系統越來越大、越來越復雜,很明顯的是:它已不足以支撐計算機如何詮釋數據的硬編規則(hard-code rules)。依據圣經的勸告去教一個人釣魚——或者在這種情況下,教計算機如何詮釋自己的數據,要更加容易得多。
計算機學家使用各樣的工具教計算機學習。如今絕大多數努力集中在「監督學習」上,研究人員以現有的數據集為基礎建立一個機器學習算法,用來訓練計算機。比如,教計算機識別面部,你最好用不同面部數據庫訓練它,計算機就能學會如何分辨不同的人臉。機器學習的圣杯是「無監督學習」,計算機只得到數據類,自己建立模型對數據進行分類。換言之,不同于直接給計算機學習的人臉圖像,計算機得到圖像后要把相似數據聚類,從中推導出問題圖片上的圖像是否是人臉。
無監督學習就是人類學習的方式,而且 Facebook 已經直言不諱得表明,自己努力教授計算機通識。大部分工作都由Facebook 人工智能研究室(Facebook Artificial Intelligence Research,FAIR)團進行。FAIR成立于 2013 年底,是一個進行基礎研究的地方。它與應用機器學習團隊相對獨立存在,盡管這里進行的一些研究在 FBLearner Flow 上找到了用武之地。
Facebook 的 CTO Mike Schroepfer
就像 Candela 解釋的那樣,你可以把 AML 團隊視為 FAIR 的商業化部門。這里的深度科學慢慢滲入到服務于十憶用戶的產品中。除了它做不到的時候。Schroepfer 說,在這里,并不是所有的研究都要將深度科學運用到某個產品中,盡管他警告說,FAIR(有 50 位研究人員)和 AML (雇傭了 100 位研究人員)已經自己支付了費用。
比如,在自家翻譯模型的支持下,Facebook 現在每天使用機器學習翻譯20億條 News Feed 條目,不再依賴微軟必應的翻譯服務。Facebook 也使用 AML 團隊的平臺,在衛星圖像上應用計算機視覺模型繪制人口密度地圖,最終確定發展中國家的哪些地方需要寬帶服務。而且在視頻添加說明的嘗試已被證明是越來越受歡迎的,因為分享和點贊增加了 15%,瀏覽時間增加了 40%。
這些是 Facebook AML 團隊最新成果中的一部分,但是,他們已經在建立機器學習算法上花了十年時間:2016 年,他們第一次嘗試在 News Feed 上使用深度學習。
「News Feed 是我們第一次為用戶嘗試這項艱難的工作」Schroepfer 說。這是初步的嘗試,Schroepfer 表示,但即使這樣,Facebook 雇傭再多的編輯人員也不能滿足百萬用戶所需的 News Feeds。
從此,這家公司對機器學習的使用日趨先進。但是,直到去年六月份Facebook 圖片分享服務 Moment 發布,公司才真正開始公開討論對機器學習的深入研究如何正在影響新產品。Moments 使用了 Facebook 圖像識別模型,能讓用戶創造面向選定組群開放的私人相冊,比如,只對照片中的人公開。
產品發布時,Facebook 說它的圖像識別模型識別人臉準確率高達 98%,即使不是正對相機的面部圖像。它還表示,模型能在 5 秒內,從 8 億圖片中識別出某張圖片中的人。
人們對此感到害怕。本來是想以一種半隱私的方式輕松分享圖片,結果惹惱了許多用戶。這一功能迫使用戶面對這樣一個不安的事實:Facebook 能從 十億多的用戶中識別出他們,而且速度還快的不正常。Facebook 甚至不能在歐洲發布這一功能,因為觸及有關隱私和面部識別技術的相關法規。
對隱私的擔心顯露出機器學習利他主義的陰暗一面。數據驅動下的功能,讓 Facebook 的產品用起來更方便。但是,它們也讓公司得以維系用戶對平臺的持續使用,這也反過來讓其賣出更多、更有效的廣告。
為此 Facebook 每天要進行數十萬億次的查詢,以便能每秒做出六百萬個預測。Facebook 用數十億個數據點來訓練支撐其 News Feed 的算法。這家公司每十五分鐘到兩小時就更新一次它的學習模型,以便能對當下事件作出快速反應。
當一臺電腦能從語法上分析那么多的信息并作出判斷時,這也是令人不安地提醒我們,我們數字生活的每個方面都正在被它以向廣告商、研究人員甚至政府展示我們私下想法和行動的方式分割、切片再切塊。同樣棘手的是,機器學習算法還有可能會犯錯。
而且這些都還不能解釋這一事實:許多人甚至還不知道,機器學習算法正在改變他們對產品的體驗。一個人沒有看到自己的News Feed 中的某個內容的原因或許在于算法把這個內容過濾了。2014 年,麻省理工學院的一項研究發現,62.5% 的研究參與者都沒有意識到 Facebook 過濾了他們的 News Feed 。
「最好的人工智能算法能泛化,他們能預測你想要什么,但它們從來都不是完美的,」Candela 說。這也是 Schroepfer 之所以相信 Facebook 距離「把一切都交給人工智能技術」還很遙遠的理由之一。
「我認為,你仍要人處在決策環中,」Schroepfer 說。「我們正在為他人創造產品,而我很難相信機器能計算出其他人想要什么,哪怕是使用這些高級科技。」
Schroepfer 說,這一工作都是為了打造一個社交網絡,能夠更好地預期用戶想要看到什么或體驗。如果你這一天過得很糟糕,他希望 Facebook 能給你看一段詼諧的小貓視頻。如果你有一星期都沒和你母親聊過天,他希望 Facebook 能識別出這一點并主動為你推送一些關于她的生活的信息更新。
「Facebook 當下的問題是,關于你想要什么,你告訴我們的東西還不夠多。」Schroepfer 說。「我們在努力猜測你想要什么。問題的一部分是,我們不知道該問你什么,而當你告訴我們你想要什么的時候,我們也不確定對此該做些什么。因為我們的系統還沒有真正在這方面安排好、優化好。」
應用機器學習( Applied Machine Learning)團隊的建立為創建這樣的系統提供了機會。同時,FAIR 團隊也提供了機會讓我們能建立關于「如何讓機器去學習」的更好理解。
Facebook 做出了以這種方式在人工智能研究方面高歌猛進的決定,與競爭者們相比,它這么做有些不同尋常。
例如,微軟旗下的研究院擁有一支龐大的人工智能研究隊伍,但微軟并沒有把這方面的努力移交給一個商業化團隊,再讓這商業化團隊把它轉化成供內部使用的產品。相反,研究人員會直接與產品團隊的人一起工作,建立使用深度學習的工具或新的服務。
據微軟研究院院長 Peter Lee 說,在對外方面,微軟正在試圖建立一個為機器學習提供服務的平臺,并通過它的云計算平臺 Azure 把這些服務提供給客戶。
不過,Lee 和 Facebook 的 Schroepfer 在這一點上是一致的:機器學習和人工智能正在使公司們能創建一些新的產品,這些產品在過去曾因太耗費時間或資源而無法實現。
從微軟跳槽到 Facebook 的 Candela 說, 他有意要在 Facebook 努力創造出一個不一樣的組織結構,因為他感到當他還在微軟時,好想法無法在組織中快速散播。每一個新發明或新人工智能算法都被封閉在其所在的團隊里。他說,Facebook 正在努力抵抗這種習氣。
然而, 卡耐基梅隆大學計算機科學院院長 Andrew Moore 懷疑,像 FBLearner Flow 這樣的人工智能平臺真的能在一個組織中得到廣泛應用。他說,大部分的機器學習模型都無法泛化。
「對機器學習來說,有一個陷阱,據我所知還沒有哪家大公司未曾掉入這個陷阱。」他說。「看起來建立一個平臺來支持機器學習算法似乎是很有用的,然而你會發現,每個使用機器學習的應用程序都需要調用不同的應用程序才能使用機器學習。因此,在機器學習平臺的建造者和那些試圖用平臺來制造產品的客戶之間常常存在著斷裂。」
到現在為止,Facebook 仍然樂于付出這些努力,而且這些努力似乎也在它的新產品中帶來了回報。隨著更多的決策交給算法決定,這家公司有許多事情需要調整。不過,這個綜合一切的項目已經改變了這家公司衡量其成功的方式。
例如,Facebook 發起的實名政策要求人們在其網站上使用真名,而這令跨性別者(他們可能并不認同他們出生時的名字)、美國原住民的后代(他們的名字不太容易用西方格式表示)和遭受侵犯虐待者(他們需要保留更多的隱私)感到不安。然而,當時 Facebook 的算法很難分析這些名字以適應這些需求。
Schroepfer 告訴我們,如今 Facebook 用與過去不同的方式來劃分它的數據,從而確保規模較小的人群沒有在取平均(averaging)的過程中被遺失。Schroepfer 說,Facebook 還組織了面向重點群體和直接用戶反饋的對新產品的質性評估。「現在,當我們要發起什么項目,但事先卻不理解怎樣的改變才能更好的為人服務,這樣的情況已經極少發生了。 」
這只是一條漫長道路的開端。毫無疑問人工智能技術正在使電腦變得更高效,并使我們能夠在前所未見的超大尺度上建立各種系統。人工智能正在幫助 Facebook 擴展它的社交網絡的范圍和性能,同時并未影響它產生利潤。如果幸運的話,這些技術也將幫助我們更好地學習如何與機器一起生活。
|