












最新內容
http://www.86xian.com 發布日期:2016-09-30 中關村多媒體創意產業園 關注度:
http://www.bjmmedia.com.cn
過去四年來許多領域的技術都取得了跨越性的發展。其中,最引人矚目的是智能手機的語音識別功能比以往有了顯著提升。當我們用聲音命令手機給另一半打電話時,我們能夠與他們取得聯系,手機沒有再將電話錯撥給陌生人或已經不在一起的那個人。
實際上,我們現在越來越多地通過對話與計算機互動,無論是亞馬遜的 Alexa、蘋果的 Siri、微軟的 Cortana,還是谷歌許多產品中的語音反饋功能。中國搜索巨頭百度表示,使用語音界面的用戶在過去 18 個月翻了三倍。
機器翻譯和其他語言處理也有了長足的發展,谷歌、Facebook、微軟和百度每個月都有新功能發布。谷歌翻譯現在能提供 32 種語言對的語音翻譯(輸入是語音輸出的也是語音),提供包括宿務語、伊博語、祖魯語在內的共 103 種語言的文字翻譯。谷歌郵箱應用有 3 種現成的自動回復。
接著要說的當時圖像識別方面的進展。還是上面那 4 家公司,都有產品供你搜索或自動組織沒有明確標簽的照片。你可以要求系統顯示所有帶有狗的照片,或者有雪的,甚至抽象些比如含有擁抱場景的。這些公司都有研發中的產品,可以自動生成一句話那么長的圖說。
深度學習推動計算產業逼近新的拐點
試想,要搜集含有狗的照片,應用程序必須識別出從吉娃娃到德國牧羊犬這么多種類的狗,還不能因為小狗上下顛倒或左邊右邊被雪被霧遮住了一塊就被騙過。同時還要排除狼和貓。只靠像素。這究竟是怎么做到的?
圖像識別技術的發展影響之深,已經遠不止在你手機上很炫酷的社交應用。醫療初創公司聲稱,他們馬上就能用計算機分辨 X 光片、MRI 和 CT 掃描圖片,而且比放射學家讀得更準更快,上至診斷預防癌癥,下至加速發現治病救命的新藥。更好的圖像識別技術對于機器人、無人機以及自動駕駛汽車而言也是至關重要的。自動駕駛汽車在今年 6 月登上了本刊的封面報道。福特、特斯拉、Uber、百度和谷歌的母公司 Alphabet,都在公路上測試自動駕駛的原型樣車。
但大多人沒有意識到的是,所有這些突破實際上都是一樣的。它們都受益于人工智能技術當中的深度學習,或者用大部分研究人員愛用的詞形容——深度神經網絡。
關于神經網絡最不可思議的事情是,沒有人曾經編程讓計算機去執行這些任務。實際上,沒有人能夠做到這一點。程序員不再編程,而是提供給計算機一個學習算法,然后用海量的數據去訓練它,這一過程會使計算機自己學會如何分辨需要分辨的物體、單詞或句子。
一句話,這樣的計算機可以自己教自己。用圖像處理器巨頭英偉達 CEO 黃仁勛的話說,“本質上說就是讓軟件寫軟件”。英偉達在大約 5 年前便看準深度學習,對這項技術做了大力投資。
神經網絡也并非新興技術。其概念可以回溯到上世紀 50 年代,而神經網絡很多重要的算法突破都發生在 20 世紀 80 到 90 年代。讓情況有所不同的是,如今的科學家終于將強大的計算力和海量的數據握在手中——從圖像、視頻、音頻到文本,互聯網上到處都是數據——而且人們發現,數據是讓神經網絡運行良好的關鍵。“這是深度學習的寒武紀大爆發,”投資公司 Andereesen Horowitz 的合伙人 Frank Chen 說。
這一劇變引發之下,AI 創業公司數量暴漲,根據調研公司 CB Insights,AI 投資額在過去一季度超過了 10 億美元。2016 年第二季度有 121 輪融資,而 2011 年同期只發生了 21 筆。投資額從 2011 年第二季度到 2016 年第二季度超過 75 億美元,其中有 60 多億美元都是在 2014 年后產生的。(今年 9 月,5 家 AI 巨頭——亞馬遜、Facebook、谷歌、IBM 和微軟——成立了一個非盈利組織,旨在促進公眾理解 AI 技術并就倫理、操作規范展開調查。)
2012 年時,谷歌有兩個深度學習項目。現在這個數字超過了 1000。根據一位谷歌發言人,現在谷歌所有主要產品分區中,從搜索、安卓、Gmail、翻譯、地圖、YouTube 到無人車,都有深度學習的影子。IBM 旗下的 Watson 贏得 Jeopardy 時雖用了人工智能,但沒用到深度學習。但現如今,Watson CTO Rob High 表示,Watson 提供的 30 多種服務都因為深度學習而得到增強。
5 年前根本沒有聽說過深度學習的投資人,如今對于初創公司沒有深度學習技術感到無比焦慮。“我們身處這樣一個時代,”Chen 認為:“將來每個人都必須能夠編寫復雜的應用程序。”很快人們就會說,“你們自然語處理的版本在哪里?”“我該怎么跟你的 App 對話?因為我懶得打字。”
這些公司已經將深度學習整合進了每天的工作日程。微軟研究院的 Peter Lee 說:“我們的銷售團隊使用神經網絡與買房取得聯系。”
硬件市場同樣感受到了震動。摩爾定律帶來芯片升級換代,更重要的是英偉達生產的圖像處理器在進行深度學習計算時要比傳統 CPU 快上 20 到 50 倍。過去的 8 月份,英偉達公布第 3 季度財報,數據中心這部分的銷售額是去年同期的兩倍多,達到了 1.15 億美元。英偉達的 CTO 告訴投資人,大部分的增長來自深度學習。在 83 分鐘的投資人會議里,深度學習被提到了 81 次。
芯片巨頭英特爾當然沒有什么都不做。在過去的兩個月里,英特爾收購了 Nervana Systems(超過 4 億美元)和 Movidius(金額未公開),兩家針對深度學習做技術的公司。
至于谷歌,則在 5 月份公布它在過去一年多的時間里,偷偷使用自己的定制芯片 TPU 加速深度學習。
企業或許真的到了又一個轉折點。百度首席科學家吳恩達說:“很多 S&P 500 CEO 都想著自己要是早些開始思考互聯網戰略就好了。再過 5 年,很多 S&P CEO 會想著自己要是早些思考 AI 戰略就好了。”
在吳恩達看來,擁有深度學習的 AI 比互聯網還強大。他說:“AI 是新的電力,就像 100 年前電力引發產業革命一樣,AI 也會改變許許多多的行業。”
從感知機到 AlphaGo,你知道的和不知道的深度學習
你可以將深度學習看做一個子集里包含著一個子集。“人工智能”涵蓋很廣,傳統的邏輯推理和符號系統也在其中,這門學科的目的是讓計算機和機器人以一種至少表面看來很像思考的方式解決問題。其中,有一個叫做機器學習的領域,里面有很多重要的數學技巧,計算機可以以此優化性能。最后,在機器學習領域里,還有一個子領域叫深度學習。
百度的吳恩達說,你可以把深度學習看為“從 A 到 B 的映射”。“你可以輸入一段音頻然后輸出錄音,那就是語音識別。”吳恩達說,只要你有數據訓練軟件,可能性就是無限。“你可以輸入電子郵件,輸出可以是:這是不是垃圾郵件?”輸入貸款申請,輸出可以是顧客歸還這筆款項的可能。輸入一組用車的用戶數據,輸出就可以是接下來將汽車派往哪里。
從這個觀點來說,深度學習將改變幾乎整個產業。“既然計算機視覺真的起作用,會發生一些根本性的變革。”谷歌大腦計劃的主管 Jeff Dean說,他又不安地變換了一下說法:“既然計算機已經睜開了它們的眼睛。”
這是否意味著現在該是要為“奇點”——超級智能機器開始不需人類參與地自行優化,引發超級可怕的結果的一個假定時刻——做好準備的時候?
還不是。神經網絡在識別模式方面表現良好——有時甚至和人類一樣好或超過人類。但它們沒有理性。
深度學習歷史關鍵點:1958年康奈爾心理學家羅森布拉特推出感知機,1969年明斯基出書質疑神經網絡,1986年Hinton等人發明訓練多重神經網絡糾錯的方法。
最初的革命火花開始于 2009 年。那年夏天微軟的 Lee 邀請了神經網絡先驅,多倫多大學的Geoffrey Hinton 來參觀。欽佩于 Hinton 的研究,Lee 的團隊用神經網絡做了語言識別方面的實驗。Lee說:“我們對結果非常震驚,我們得到了比原型高 30% 的準確率。”
2011 年,微軟推出了應用深度學習技術的商用語言識別產品。谷歌在 2012 年 8 月跟著推出同類產品。
但真正的轉折點出現在 2012 年 10 月。在意大利佛羅倫薩的一個工作室,斯坦福人工智能實驗室的負責人,同時也是著名的年度 ImageNet 計算機視覺大賽創始人李飛飛,公布 Hinton的 兩個學生做了一個識別物體軟件,準確率是當時最好的同類產品的兩倍。“這個成果非常驚人,”Hinton 說:“它說服了曾經的許多懷疑論者。”(在去年的大賽中,新的深度學習產品已經超越了人類的表現。)
深度學習歷史關鍵點:1989年LeCun用卷積神經網絡識別手寫體,1991年遞歸神經網絡發明,1987年IBM深藍戰勝卡斯帕羅夫。
圖像識別方面的成就像一把發令槍,啟動了一場人才爭奪賽。Google 得到了 Hinton 和他那兩位贏了大賽的學生,Facebook 和法國深度學習天才 Yann LeCun 簽約,LeCun 曾在 20 世紀 80 年代和 90 年代開創了深度學習算法并贏得 ImageNet 大賽。百度則得到了斯坦福 AI 實驗室的前負責人吳恩達,他曾在 2010 年幫助推出并領帶專注深度學習的谷歌大腦項目。
人才爭奪熱潮自此愈演愈烈。今天,微軟的Lee說,“這個領域的人才戰相當血腥,一流的人才就像NFL足球運動員。”
今年 68 歲的 Geoffrey Hinton 第一次聽說神經網絡是在1972年,當時他正在愛丁堡大學開始寫自己的碩士畢業論文,主題是人工智能。由于本科期間在劍橋大學主修實驗心理學,Hinton對神經網絡充滿熱情,神經網絡由軟件構建,從人類大腦中神經元網絡的運作方式獲得啟發。當時,神經網絡并不受歡迎。“每一個人都認為他們瘋了”,他說。但是Hinton選擇迎難而上。
深度學習歷史關鍵點:2007年李飛飛創立ImageNet;2011年微軟將神經網絡引入語音識別;同樣2011年IBM Watson贏得Jeopardy冠軍。
神經網絡為計算機的學習提供了一種孩子式的學習方式,從經驗,而不是從人類的編程設定中進行學習。“當時,大多數的AI 都是從邏輯推理中獲得啟發”,他回憶說,“但是邏輯推理是人類在人類長大的時候才具備的能力,2-3歲的孩子并不會做邏輯推理。所以,我認為,對于智能來說,神經網絡是比邏輯好得多的范式”。(邏輯從某種程度來說,是Hinton 家族的傳家寶。他的家族中誕生了多位杰出的科學家,他是19世紀著名數學家George Boole的玄孫,Boolean 搜索、邏輯和線性代數都是以這位數學家的名字命名的)。
20世紀50年代至60年代,神經網絡在計算機科學家中變得流行起來。1958年,Cornell 研究中心的心理學家 Frank Rosenblatt在一個海軍支持的項目中,開發了一個神經網絡原型,當時他稱為感知機(Perceptron)。模型使用的是一個穿孔卡片計算機,占滿了整個房間。在經過50次嘗試之后,計算機學會了分辨左邊標記幾號和右邊標記記號的圖片。針對這一事件,《紐約時報》的報道文章寫到,“今天,(美國)海軍發布了一個電子計算機原型,被認為可以行走、說話、看、寫、自我重生,并具有自我存在的意識”。
感知機的軟件只有一層類似神經元的節點,后被證明是有局限的。但是,研究者相信,隨著神經網絡層數變多,或者變深,它可以做的事情會更多。
Hinton 解釋了這一創意的基本原理。假設一個神經網絡在理解一批照片,其中一些照片上有鳥。“所以,輸入層會進來像素,進而,整個單元的第一層會探測到邊緣。暗的一邊,亮的在另一邊”。下一層的神經元,通過分析第一層得到的數據,將學會探測“比如邊角之類的,兩條邊組成一個角”,他說。這些神經元中,有一個可能會對鳥的輪廓構成的角產生強烈的反應。
下一層,可能會發現更多復雜的配置,比如,一個圓圈中排列的許多個角”,這一層中的神經元可能會對鳥的頭部作出反應。在一個更深的層,一個神經元可能會探測到頭部圓圈中反復出現的嘴部輪廓。“這構成了一個很好的線索,可以判斷出這可能是鳥的頭部”,Hinton說。每一個更深層次的神經元都會對更加復雜和抽象的概念作出反應,直至最后有一層對我們概念中的“鳥”作出匹配反應。
深度學習歷史關鍵點:2012年谷歌大腦識別貓臉(6月),8月谷歌將神經網絡引入語音識別,10月Hinton的學生在ImageNet競賽奪冠,成績大幅提升;2013年5月谷歌用神經網絡改善照片搜索功能。
但是,要進行學習,一個深度神經網絡需要做的不僅僅是在各層神經網絡中傳遞信息。它還需要一個方法來驗證是否獲得了爭取的結果,如果沒有,就把信息反饋回淺層的神經網絡,調整活動,改進結果。這才是學習發生的地方。
20世紀80年代早期,Hinton在這一難題上持續鉆研。法國的一位研究者Yann LeCun 也在默默耕耘,當時他剛在巴黎開始自己的研究生生涯。LeCun被Hinton發表于1983年的一篇論文震驚到了,這是一篇談多層神經網絡的文章。這些術語在當時都不是正規的,LeCun回憶說,在當時要發表一篇提及“神經元”或者“神經網絡”的論文,簡直比登天還難。所以,他以一種隱晦 方法寫成了這篇論文,以通過同行評議。但是我認為這篇論文是超級有趣的。
兩位學者兩年之后見面,一拍即合。
1986年,Hinton和兩位同事寫了一篇非常有影響力的論文,為error-correction難題提供了一個算法解決方案。LeCun說:“他的這篇論文奠定了第二波神經網絡發展的基礎”。重新點燃了研究領域的興趣。
在 Hinton 那讀完博士后后,LeCun 在1988年進入AT&T 貝爾實驗室,在接下來的10年中,他做了很多基礎性的工作,有一些在今天大部分的圖像識別任務中都還在使用。1990年,貝爾實驗室資助的NCR項目把一個神經網絡驅動的設備進行商業化,后被銀行廣泛采用,可以讀取支票上的手寫字跡。LeCun說。同時,兩位德國研究者 Sepp Hochreiter 和Jürgen Schmidhuber獨立地開發了一種算法,奠定了今天自然語言處理應用的基礎。雖然有這些進步,但是到20世紀90年代中期,神經網絡再次陷入低潮。主要原因是受到當時計算能力的限制。這一情形持續了差不多10年,直到研究者發現GPU的加速后,才再次崛起,此時的計算能力已經提高了3到4個維度。
深度學習歷史關鍵點:2014年谷歌收購DeepMind;2015年12月微軟ResNet圖像識別準確率超越人類;2016年3月AlphaGo戰勝李世石。
但是,還有一個大學依然缺乏:數據。雖然互聯網帶來了大量數據,但是,絕大部分數據,尤其是圖像數據,依然是沒有標簽的,但這又是訓練神經網絡不可或缺的。這時候,斯坦福的教授李飛飛進入了這一領域。“我們的預期是,大數據會改變機器學習的運作方式”,她在接受采訪時談到,“數據驅動的學習”。
2007年,她發布了ImageNet,打算組建一個免費數據庫,包含了超過1400萬標簽圖像。2009年,這一數據庫公開,下一年,她組織了一個年度的競賽,來激勵并發表計算機視覺上的重要突破。
2012年10月,Hinton 的兩個學生拿下 ImageNet冠軍,深度學習的到來變得明晰了。
但是,當時大眾已經聽說了深度學習,雖然是通過其他的事件。2012年6月,谷歌大腦團隊發布了“貓試驗”項目,在社交網絡上獲得廣泛傳播。這一項目實際上探索的是一個深度學習中一個還未解決但非常重要的領域——無監督學習。當下,幾乎所有的商業深度學習產品使用的都是“監督學習”,也就是說,神經網絡要經過標簽數據的訓練、在“無監督學習”的條件下,神經網絡獲得的是無標簽數據,只能簡單地參考遞歸模型。研究者會很喜歡看到有一天能掌握無監督學習,讓機器能自我學習,就像嬰兒一般。
深度學習四巨頭:產品、人才和戰績
谷歌在 2011年推出專注深度學習的谷歌大腦計劃(Google Brain Project),在2012年中期發布基于神經網絡的聲音識別產品,2013年3月得到了神經網絡先驅Geoffrey Hinton的加入。谷歌現在有超過1000個深度學習項目,研究的領域相當寬泛,包括Android,Gmail,照片、地圖、翻譯、YouTube和無人車。2014年谷歌收購DeepMind,今年3月DeepMind的加強深度學習項目AlphaGo打敗了世界圍棋冠軍李世石,這對人工智能來說是標志性的事件。
微軟在 2011年推出商業化的語音識別產品,包括Bing語音搜索和X-Box語音處理。微軟現在在搜索排序、照片搜索、翻譯系統等方面廣泛利用神經網絡。“如何轉化這些滲透性的影響非常不易。”Lee說。微軟去年贏得了圖像識別大賽,九月它在語言識別的錯誤率上取得了突破性的進展:錯誤率降到6.3%。
Facebook在2013年12月聘請了法國神經網絡創新者Yann LeCun作為它的新AI實驗室的帶頭人。Facebook平均每天使用神經網絡翻譯來自超過40種語言國家的20億用戶的帖子,這些翻譯的內容每天被8000萬用戶閱讀。(Facebook的用戶中有近一半不是英語用戶。)Facebook也在照片搜索和照片排列中使用神經網絡,而且它正在開發一個功能,能對無標簽的照片生成語音標簽以幫助視障人士。
百度在2014年4月聘請了谷歌腦計劃的前負責人吳恩達作為它的AI實驗室的領頭人。百度作為中國領先的搜索和網絡服務企業,把神經網絡應用于語音識別、翻譯、圖片搜索以及無人駕駛等項目中。對中國來說,語音識別是非常關鍵的領域,因為手機輸入中文相當困難。百度說,過去18個月里使用語音接口的用戶數量增長了三倍。
深度學習和蓬勃發展的醫療領域
并不讓人意外,大部分深度學習應用的商業部署都出自谷歌、微軟、Facebook、百度、亞馬遜等公司——他們擁有深度學習計算所需要的大數據。很多企業都在開發更加實用、更多功能的“聊天機器人”,作為自動客戶服務代表。
IBM 和微軟這樣的公司也在幫助商業客戶采納深度學習驅動的應用,比如語音識別交互和翻譯服務。同時,像亞馬遜的云服務提供了便宜的 GPU 驅動深度學習計算服務,讓其他公司開發自己的深度學習軟件成為可能。大量的開源軟件,比如 Caffe、谷歌的 TensorFlow 和亞馬遜的 DSSTNE,共同促進了創新的進程,同時也創造了一種開源共享的文化,進而有許多研究者在一個數據集上獲得成果以后會立刻發布出來,不需要再等待漫長的同行評議。
對深度學習的應用,許多最令人興奮的嘗試發生在醫療領域。我們已經知道神經網絡在圖像識別上可以做得很好。領導 Andreessen Horowitz 生物投資部門的觀察者、斯坦福教授Vijay Pande 說,“醫生的工作中,有很大一部分就是圖像識別,不管我們說的是放射科、皮膚科、眼科或者別的什么科”。
初創公司 Enlitic 使用深度學習來分享 CT 和 MRI 掃描結果。公司 CEO Igor Barani 此前曾是加利福尼亞大學的放射腫瘤學的教授,他說,Enlitics 的算法在探測和分類肺部腫瘤的惡化上超過了 四位腫瘤學專家。(該研究還沒有通過同行評議,也沒有獲得美國食品藥品管理局(FDA)的認可。
默克公司(Merck)正在嘗試使用深度學習來加速藥品的發現,在舊金山的一家初創企業 Atomwise 也在做同樣的事。神經網絡通過觀看3D圖像(圖像中上萬個分子可能會被用作藥材),預測這些分子在抵抗病原體上的適用性。這些公司正在使用神經網絡,嘗試提高人類已經在做的事情。但是,也有一起公司在嘗試做一些人類無法完成的是,27 歲的計算機生物學博士 Gabriel Otte 創辦了 Freenome,其目標是從樣本血中診斷癌癥。使用深度學習,他讓計算機找到脫細胞DNA和一些癌癥的關聯性。“我們發現了一些新穎的特征,這是還沒被癌癥生物學家發現的。”
Andreessen Horowitz 在考慮對 Freenome 進行投資時,Pande 給OTTE 設置了5個盲樣,其有兩個是正常的,另外三個是患癌的。Otte 五個檢測全正確了,然后獲得了投資。
一個放射科醫生一生可能會看上萬張掃描圖像,但是,一臺計算機可能會看上千萬張。“讓計算機來解決圖像的問題,這聽起來并不瘋狂”,Pande說,“因為他們能處理的數據遠比人類多得多”。
計算機的潛力不僅在于更準確、更快的分析,而是能帶來服務的民主化。隨著技術標準化,最終每一位患者都能受益。也許在以一種人們還沒有想到的方式,與其他的人工智能技術進行融合,形成一個完整的工具箱,人們才會感受到深度學習最大的影響力才。例如,谷歌的 DeepMind 通過把深度學習與相關的技術——增強學習相結合,已經取得了一些震撼的成功。結合這兩種技術,他們創造了AlphaGo,讓這一程序在今年3月份擊敗了圍棋世界冠軍,這被認為是 AI 領域具有里程碑意義的事件。與 1997 年擊敗國際象棋冠軍的 IBM 深藍不一樣,AlphaGo 沒用使用決策樹進行編程,也沒有使用如何評估棋盤位置的等式,沒有使用 if-then 規則。“AlphaGo 學習下圍棋主要是從自我對弈和觀察其他專業棋手的對弈中進行”,DeepMind 的 CEO Demis Hassabis 說。
一個游戲可能看起來像是人工設置的環境。但是 Hassabis認為,游戲的技術可以被用到現實世界的難題中。事實上,8月份的時候,谷歌報告說,通過使用與 AlphaGo 類似的方法,DeepMind 能夠將谷歌數據中心的能源效率提升 15%。在數據中心,可能有 120 種變量在影響電力消耗,Hassabis 說,“你可以換風扇、開窗戶、調整計算機系統等等,這些都是電力消耗的地方。從傳感器、溫度計之類的地方,你可以獲取數據。這和圍棋棋盤類似。通過試錯,你可以知道正確的方向是哪里”。
“這很好,”他繼續說,“每年,你可以省下上千萬美金,并且對環保來說也是好事。世界上的數據中心消耗了大量的能源。我們非常希望能大量地減少這些消耗,甚至是在國家電網的層面”。
聊天機器人是挺好。但這個,才是真正厲害的應用。
(來源:虎嗅網)