












![]() |
|
||
最新內(nèi)容
http://www.86xian.com 發(fā)布日期:2013-12-16 中關(guān)村多媒體創(chuàng)意產(chǎn)業(yè)園 關(guān)注度:
http://www.bjmmedia.com.cn
在商業(yè)和科學(xué)上,大數(shù)據(jù)可能帶來的革命性變化。
一、大數(shù)據(jù)商業(yè)革命
大數(shù)據(jù)是分層次的,包括大數(shù)據(jù)1.0、2.0和3.0,這里分別做一介紹。
大數(shù)據(jù)1.0
如果用一個(gè)關(guān)鍵詞來講大數(shù)據(jù)1.0,那就是分析,更深入、更好的分析技術(shù)。其實(shí),剛才鄔賀銓院士講了非常多的例子,我這里再補(bǔ)充一些。比較有意思的是醫(yī)療方面的大數(shù)據(jù),其中講得比較多的是“量化自我”,它是通過一種非干預(yù)的手段,把一些所謂的醫(yī)療傳感器放到我們的身邊,比如我們戴一個(gè)腕表、一枚戒指、一個(gè)耳塞、一副眼鏡等,通過這些設(shè)備我們可以了解自己的心跳、血壓情況,甚至包括我們體表的健康狀況,從而對一些大病(如癲癇等)進(jìn)行早期預(yù)測。同樣,如果我們給一個(gè)小孩子使用小兒床墊,通過這個(gè)床墊上的壓力與濕度傳感器分析,我們可以很早地判斷這個(gè)小孩子有沒有比較嚴(yán)重的打鼾或者睡姿不正確等問題。因?yàn)閲?yán)重的打鼾容易造成小孩在三、四歲的時(shí)候智力發(fā)育低于同齡人,現(xiàn)在通過這個(gè)床墊的傳感器分析就可以及早地發(fā)現(xiàn)并加以治療。針對慢性病人、老年人同樣也有一些類似的輔助工具。
關(guān)于大數(shù)據(jù)的深度分析,很重要內(nèi)容就是個(gè)性化的信息推薦。個(gè)性化的信息推薦不僅僅是基于用戶的相似性這么簡單的東西,還有大量比較深入的復(fù)雜模型。比如說,就用戶看資訊而言,我們怎么樣去判斷一個(gè)用戶點(diǎn)開一條八卦資訊后,是繼續(xù)深挖八卦到死,還是轉(zhuǎn)而瀏覽另外一個(gè)新聞。同樣,有的用戶登陸淘寶只是逛逛而已,有些用戶則是很明確地想要買一些東西,這就需要對用戶的意圖進(jìn)行預(yù)測,這里面涉及到一些比較難的機(jī)器學(xué)習(xí)技術(shù)。
大數(shù)據(jù)的深入分析可以在很多領(lǐng)域發(fā)揮重要作用。比如,netflix公司是一個(gè)線上vcd/dvd租賃公司,它通過分析大量電影電視劇的觀看和評價(jià)數(shù)據(jù),找到他認(rèn)為最合適的導(dǎo)演、演員班子和內(nèi)容,利用這些分析結(jié)果,它投資并拍攝了美國歷史上最成功的電視劇“紙牌屋”,這實(shí)際上是netflix公司推出的第一部影片。目前,我們可以利用機(jī)頂盒的數(shù)據(jù)對同一個(gè)電視臺的不同節(jié)目進(jìn)行智能排序,使得這些節(jié)目能夠更好服務(wù)不同的觀眾。我們還可以分析電視節(jié)目之間的競爭網(wǎng)絡(luò),通過微調(diào)播出時(shí)間,提高收視率。以上這些都是建立在對大數(shù)據(jù)深入分析的基礎(chǔ)上,所使用的方法比簡單的支持向量機(jī)、回歸分析、決策樹等等困難許多,大部分情況下也沒有辦法把這些分析方法產(chǎn)品化。
大數(shù)據(jù)2.0
大數(shù)據(jù)1.0只是一個(gè)起步,它強(qiáng)調(diào)的僅僅是自身的業(yè)務(wù)產(chǎn)生的大量數(shù)據(jù),并通過更多的深入分析優(yōu)化自身的業(yè)務(wù)。實(shí)際上,大數(shù)據(jù)在商業(yè)上的精髓不僅僅是深入分析,還在于怎么把自己的數(shù)據(jù)創(chuàng)造性地用到其它業(yè)務(wù)上去,或者是把其它外部的數(shù)據(jù)用到自己的業(yè)務(wù)中來。這就帶來了大數(shù)據(jù)2.0,它的關(guān)鍵詞是“外部性”。剛才鄔賀銓院士講了很多很好的例子,比如,印第安納大學(xué)怎么樣預(yù)測道瓊斯指數(shù),怎么樣通過微博、google的信息來預(yù)測股市,淘寶的cpi指數(shù)怎么用于評估中國的非剛需消費(fèi)等等。在這些例子中,微博和淘寶數(shù)據(jù)的產(chǎn)生最初并不是為了預(yù)測道瓊斯指數(shù),也不是為了計(jì)算中國消費(fèi)者指數(shù),它可能僅僅是用戶在網(wǎng)絡(luò)上發(fā)泄一下自己的情緒,或者是記錄淘寶上的銷售情況。但是這些數(shù)據(jù)可以發(fā)揮很多人想象不到的“外部”價(jià)值,這就是大數(shù)據(jù)2.0的一個(gè)典型特征。
這里我講一下zest finance的例子。它提出的一個(gè)口號是“所有的數(shù)據(jù)都是信用數(shù)據(jù)”,它通過分析一個(gè)用戶在互聯(lián)網(wǎng)上的大量內(nèi)容,包括刪除網(wǎng)頁的記錄、購買東西的記錄、社交關(guān)系記錄等等,能夠快速地做出給你提供多少貸款的決策。不僅決策周期短,成本低,而且放貸后用戶拖延還貸的比例比銀行業(yè)要低35%。
關(guān)于大數(shù)據(jù)的外部應(yīng)用,很重要的一點(diǎn)就是占領(lǐng)終端。比如,每一臺空調(diào)的外掛機(jī)上都可以放一些傳感器,收集溫度、濕度、空氣中的顆粒物等,這樣的空調(diào)基本上每幾十米就可以設(shè)置一個(gè),可以提供比當(dāng)前我國空氣質(zhì)量監(jiān)控站覆蓋更廣泛的信息,可以做全國范圍的環(huán)保監(jiān)測網(wǎng)——這樣的網(wǎng)絡(luò)反而是國家難以做到的。再舉個(gè)例子,一個(gè)終端,比如一個(gè)智能彩電的終端能做什么?大家可以想到的,似乎可以做一些個(gè)性化的節(jié)目推薦,或者做一些個(gè)性化的廣告推送,但事實(shí)上遠(yuǎn)不止于此。一個(gè)上千萬的智能終端,第一可以做更好的收視率調(diào)查,第二它還可以影響廣電、電視節(jié)目的收視率。比如,在節(jié)目推薦時(shí),把浙江衛(wèi)視放在湖南衛(wèi)視之前推薦,這樣就可以提高浙江衛(wèi)視的收視率。未來它甚至還可以做終端廣告、做內(nèi)容等等。這些未來終端的擁有者,將會極大地改變?nèi)藗兊纳罘绞剑瑳_擊傳統(tǒng)行業(yè)。
大數(shù)據(jù)3.0
大數(shù)據(jù)3.0是大數(shù)據(jù)時(shí)代到來的最后的一步,也是至關(guān)重要的一步。談?wù)摯髷?shù)據(jù)時(shí)代的到來,絕不說僅僅幾個(gè)人或者幾家公司能用大數(shù)據(jù)就標(biāo)志著大數(shù)據(jù)時(shí)代的到來,應(yīng)該是每一個(gè)科研團(tuán)隊(duì),每一個(gè)創(chuàng)業(yè)企業(yè)都有能在大數(shù)據(jù)應(yīng)用中獲益。對他們來說,盡管數(shù)據(jù)量如此龐大,但他們使用起來就像平時(shí)的“小數(shù)據(jù)”一樣方便。要做到這一點(diǎn),一方面需要有更好的it架構(gòu)、更好的分析工具,使得普通團(tuán)隊(duì)利用大數(shù)據(jù)成為可能;另一方面,需要政府和業(yè)界對于數(shù)據(jù)的質(zhì)量、價(jià)值、權(quán)益、隱私、安全等出臺量化的管理措施和方案。當(dāng)大數(shù)據(jù)的生態(tài)環(huán)境形成之后,我們就有可能進(jìn)一步討論所謂的大數(shù)據(jù)平臺,并利用這些平臺吸引最好的數(shù)據(jù)和最好的人才。
下面我們介紹四種可能的大數(shù)據(jù)集成平臺。
第一個(gè)是能不能在有效地保護(hù)隱私和信息監(jiān)管的情況下建立所謂的數(shù)據(jù)淘寶,即在符合法律規(guī)定的情況,通過這個(gè)平臺可以自由地上傳和下載數(shù)據(jù),并實(shí)現(xiàn)自由定價(jià)等。實(shí)際上,在科研數(shù)據(jù)已經(jīng)開始這樣做了,但其他領(lǐng)域還沒有起步。
第二個(gè)是能不能產(chǎn)生數(shù)據(jù)運(yùn)營商。數(shù)據(jù)運(yùn)營商通過先進(jìn)的it架構(gòu),提供存儲和計(jì)算功能,以及一些必要的分析工具和軟件。一些聰明的人以數(shù)據(jù)供應(yīng)商提供的數(shù)據(jù)為基礎(chǔ)開發(fā)相關(guān)產(chǎn)品,甚至在數(shù)據(jù)產(chǎn)品基礎(chǔ)上進(jìn)一步開發(fā)更好的數(shù)據(jù)產(chǎn)品。如果數(shù)據(jù)產(chǎn)品以下載或者api的形式售賣,那么數(shù)據(jù)運(yùn)營商、數(shù)據(jù)提供者、數(shù)據(jù)開發(fā)者等各方都可以從客戶使用數(shù)據(jù)產(chǎn)品所支付的費(fèi)用中獲得收益。
第三個(gè)是數(shù)據(jù)挖掘挑戰(zhàn)的平臺,我們希望用通過這樣的平臺把數(shù)據(jù)挖掘、大數(shù)據(jù)分析領(lǐng)域最重要的的挑戰(zhàn)性問題集中起來。這樣的平臺不僅能夠集中各行業(yè)內(nèi)具有普適性的問題,還可以集中大部分的人才。現(xiàn)在kaggle喊得最多的口號就是它擁有全世界上百萬的數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師的聯(lián)系方式。這些頂尖級人才所提出的解決方案,又成了這個(gè)平臺上的工具,這些工具將來還可能進(jìn)一步開發(fā)出一些普適性的工具。因此這樣的平臺將會成為“問題、人才和工具”集中的平臺。
最后一種平臺,是把不同垂直行業(yè)中具有普適性的問題與解決方案進(jìn)一步抽象提煉出來,建立垂直行業(yè)的大數(shù)據(jù)研究中心,再和產(chǎn)學(xué)研聯(lián)盟以及產(chǎn)業(yè)基金聯(lián)合起來建立大數(shù)據(jù)研究院,形成一種“三位一體、互為補(bǔ)充”的大數(shù)據(jù)產(chǎn)業(yè)生態(tài)。
如何成為大數(shù)據(jù)企業(yè)
要成為大數(shù)據(jù)的企業(yè)、大數(shù)據(jù)的個(gè)人或者大數(shù)據(jù)的政府,我們需要做很多。以企業(yè)為例,要成為大數(shù)據(jù)的企業(yè),首先其一切生產(chǎn)經(jīng)營流程都需要數(shù)據(jù)化,利用企業(yè)社會化平臺或者將傳感器部署到制造生產(chǎn)過程中,以便把這些數(shù)據(jù)都記錄下來;其次企業(yè)自身要具備海量數(shù)據(jù)的深入分析能力,并制定戰(zhàn)略數(shù)據(jù)的儲備計(jì)劃,其中尤其重要的是外部數(shù)據(jù)的儲備計(jì)劃。我們經(jīng)常說,數(shù)到用時(shí)方恨少,一個(gè)大數(shù)據(jù)的企業(yè),除了用好自己的數(shù)據(jù)外,更重要的是要清楚自身的哪些業(yè)務(wù)需要外部數(shù)據(jù)支撐,要把這些數(shù)據(jù)存儲下來。最后,站在平臺的高度,企業(yè)要以包容的心態(tài)開放一些可以開放的數(shù)據(jù),參與一些社會化的挑戰(zhàn)和競賽。
大數(shù)據(jù)給傳統(tǒng)科研帶來很多改變。
首先,大數(shù)據(jù)會帶來科學(xué)研究范式的轉(zhuǎn)變。以前必須是有了數(shù)據(jù)與理論后才有后續(xù)的解釋,而研究科學(xué)的最終目的是為了預(yù)測和控制。現(xiàn)在不一樣了,有了數(shù)據(jù)就可以直接進(jìn)行預(yù)測和控制。
第二個(gè)大的變化,以前社會學(xué)、心理學(xué)和管理學(xué)等領(lǐng)域的實(shí)驗(yàn)對象往往是幾十個(gè)人,最多不過幾百個(gè)人,其研究方法往往是半定量或者是定性的。現(xiàn)在,通過互聯(lián)網(wǎng)上可以針對幾千萬甚至上億人進(jìn)行實(shí)驗(yàn),而且是非控制化的實(shí)驗(yàn)。
這里我想通過幾個(gè)例子,從三個(gè)層面說明大數(shù)據(jù)是怎樣影響科學(xué)的,主要包括:第一,大數(shù)據(jù)提供了哪些新的視角。第二,大數(shù)據(jù)具有哪些實(shí)際作用。第三,科學(xué)是一把雙刃劍,大數(shù)據(jù)的科學(xué)研究是否可能傷害到在座的各位。
首先看看大數(shù)據(jù)提供了哪些新視角,先講barabasi小組去年在scientific reports上的一個(gè)工作。在做演化生物學(xué)實(shí)驗(yàn)的時(shí)候,我們相信一個(gè)生物總是希望把自己的基因盡可能地傳播出去,但是只有在極低等的生物中能夠驗(yàn)證這種猜測——我們不會相信一次刻骨銘心愛情背后的驅(qū)動力是繁殖。為了在高等生物層面討論這個(gè)問題,這個(gè)研究小組分析了5億條短信和20億次通話,通過這些短信與通話中分析誰是你的第一好友,這里的“第一好友”是指你發(fā)短信或者通話最多的人。研究發(fā)現(xiàn),一個(gè)20歲左右的女性,她的最佳朋友往往是男性,而一個(gè)20歲左右的男生的最佳朋友往往是女性,這主要是出于繁殖的考慮,他(她)可能是你的一個(gè)戀人。有趣的是,當(dāng)進(jìn)一步分析第二好友的時(shí)候卻發(fā)現(xiàn),男性的第二好友往往也是男性,而女性的第二好友往往是一個(gè)女性。但有點(diǎn)不一樣的是,當(dāng)你到了四五十歲的時(shí)候,男性第二好友的性別往往看不出來了,而女性的第二好友往往是男性。其中的原因是這樣的:當(dāng)男性到了四五十歲的時(shí)候,他的第一好友會變成他的老婆,而且男性結(jié)婚后對異性的關(guān)注下降得比女性快。而對于他老婆而言,一個(gè)女性到了四五十歲時(shí),她的第一好友往往是他的子女,所以第二好友容易是男性,就是他的丈夫。而對于男性來說,他的第二好友往往是他的子女。這個(gè)發(fā)現(xiàn)可能沒有什么實(shí)際用處,但是它為我們提供了一種全新的視角:即利用通訊技術(shù)研究演化生物學(xué)的規(guī)律。
社會學(xué)有一個(gè)非常重要的奠基性理論:社會資本等價(jià)于經(jīng)濟(jì)資本。換句話說,我們的人脈關(guān)系,我們和哪些人聯(lián)系、聯(lián)系的緊密程度和多樣性如何,從某種程度上講也是我們擁有的經(jīng)濟(jì)資本。但這只是一種理論,雖然是奠基性的理論,沒有得到證實(shí)。2010年,美國《科學(xué)》雜志刊登了一篇文章,通過分析英國99%人口的的通話關(guān)系,來量化英國3萬多個(gè)行政區(qū)與其它行政區(qū)通話的多樣性,這就是這個(gè)行政區(qū)的社會資本。研究人員對比這些行政區(qū)的經(jīng)濟(jì)發(fā)展指數(shù),發(fā)現(xiàn)社會資本和經(jīng)濟(jì)資本是強(qiáng)正相關(guān)的。這個(gè)研究第一次驗(yàn)證了剛才提到的社會學(xué)的奠基性理論。但這些研究是沒有什么實(shí)際作用的,因?yàn)槟悴荒芡ㄟ^多打電話提高一個(gè)城市或者一個(gè)行政區(qū)的經(jīng)濟(jì)水平。
那么大數(shù)據(jù)能有哪些實(shí)際作用呢?我們最近做了一個(gè)研究,如果你在互聯(lián)網(wǎng)上看了你認(rèn)為很爛的片子,比如“富春山居圖”,那么你在下一次評分時(shí)實(shí)際上傾向于打更低的評分,而不是傾向于打高分;這和很多人的感覺不一樣——我看到了爛片,可能下次要打高分。這說明人們的行為有一種“錨定效應(yīng)”。同樣地,你看了一個(gè)好片,你下一次會傾向于打更高的分。當(dāng)把這種“錨定效應(yīng)”剔除后,就可以大幅度提高個(gè)性化推薦的準(zhǔn)確度。這說明利用大量的數(shù)據(jù)分析可以直接解決一些實(shí)際問題。
然而,科學(xué)是一把雙刃劍,大數(shù)據(jù)帶給我們可能的福澤的同時(shí),也帶給我們可能的危險(xiǎn)。
我舉兩個(gè)例子。第一個(gè)是今年發(fā)表在scientific reports上的一篇文章,它分析了200多萬個(gè)手機(jī)的數(shù)據(jù)。手機(jī)數(shù)據(jù)的分辨率是比較低的,每一個(gè)小時(shí)有一個(gè)讀數(shù),告訴你這個(gè)手機(jī)的用戶屬于哪個(gè)基站。但實(shí)際上,在3個(gè)月的時(shí)間段中,只要有隨機(jī)的4次讓我們知道在某個(gè)小時(shí)中你處于某個(gè)基站,那么我就可以在200多萬人中幾乎可以唯一地確定你是誰。這對人的隱私是一個(gè)很大的侵犯,因?yàn)槲覀兡軌虮容^容易地通過科研和項(xiàng)目合作的方式拿到匿名的電信數(shù)據(jù)。在座的各位嘉賓都是有很大影響力的人,很多人可能想知道你們的手機(jī),想知道你們?nèi)ミ^哪些地方。他們只要在新聞中看一下你在什么時(shí)間、什么地點(diǎn)、參加了什么會議,如果恰好你在這期間的前后一兩個(gè)小時(shí)沒有關(guān)機(jī),通過分析很容易找出你們的手機(jī)號碼,進(jìn)而知道你以前去過哪些地方,和哪些人有過聯(lián)系。
下面介紹一個(gè)更典型的例子,是今年劍橋大學(xué)和微軟研究院在《美國科學(xué)院院刊》上發(fā)表的一篇文章。研究人員分析了5萬多用戶在facebook上點(diǎn)擊“喜歡”和“不喜歡”的數(shù)據(jù),這些數(shù)據(jù)可以用來預(yù)測你有沒有酗酒、屬于什么人種,它甚至還可以預(yù)測你是不是同性戀。這個(gè)案例背后潛藏的一個(gè)理論是,對于一個(gè)人來說,不同類型的數(shù)據(jù),包括你的購物數(shù)據(jù)、說話內(nèi)容、社交數(shù)據(jù)、喜歡和不喜歡的數(shù)據(jù)、看電影的數(shù)據(jù)等等,都從不同的側(cè)面暴露了你這個(gè)人。基于每一組數(shù)據(jù),都可以給你描繪一幅畫像,每幅畫像都和你本人有所區(qū)別,但是其間重復(fù)很多。從某種意義上講,有了上述不同的數(shù)據(jù),都可以對你進(jìn)行預(yù)測與判斷。
大數(shù)據(jù)倫理
大數(shù)據(jù)帶來的不僅僅是商業(yè)和科學(xué)上的變化,更重要的是它帶給我們很多觀念形態(tài)的變化,引發(fā)我們重新思考很多問題。并且大數(shù)據(jù)一旦和很多其它重大的產(chǎn)業(yè)創(chuàng)新結(jié)合在一起,會產(chǎn)生尤其可怕的結(jié)果。舉個(gè)例子,3d打印除了打印呈現(xiàn)技術(shù)和軟件設(shè)計(jì)建模以外,很重要的就是大數(shù)據(jù),因?yàn)樗枰?d的掃描數(shù)據(jù)。3d打印有兩種可在倫理上需要關(guān)注的發(fā)展趨勢:第一個(gè)趨勢是自己打印自己。隨著技術(shù)的發(fā)展,這種3d打印機(jī)可以自己去找一些打印材料,利用太陽能或者其它能量熔化這些材料來打印自己。這樣的3d打印機(jī),它的硬件和軟件都是開源的,未來可能會有一些人在這些開源硬件、軟件中加入一些自己的代碼。這些代碼是對環(huán)境的某種反應(yīng),有些代碼可能很善良、友好,有些代碼可能很不友好,甚至具有攻擊性。這些3d打印機(jī)的代碼可以自己變異、學(xué)習(xí),就象遺傳算法一樣:很多在不同環(huán)境變量下產(chǎn)生不同反應(yīng)的模塊通過某一種協(xié)議來交互,有的模塊成功了,可能中間還有一些變異的機(jī)制,它就能復(fù)制更多的打印機(jī);有的模塊失敗了,它的基因傳不下去,它復(fù)制的打印機(jī)就變少了。如果有以二氧化硅為主要原材料的3d打印機(jī)出來,我們會問一個(gè)問題,這是不是某種形式的生命?它也可以繁殖、進(jìn)化、變異,它可以活動、交流,甚至它可以攻擊人類或者其它生物,那么它未來會怎么發(fā)展?
另外一個(gè)讓人感覺到可怕的趨勢是打印生命。現(xiàn)在,我們可以用噴墨打印機(jī)打印單細(xì)胞,耳朵已經(jīng)可以移植成功了。以前腎臟只能在實(shí)驗(yàn)室外存活一個(gè)月,主要是它的血管系統(tǒng)做不好,而最近血管系統(tǒng)打印的難題也攻克了,所以單器官的移植就變得可能了。我們知道,如果要建立一個(gè)大廈,用灰塵建立是不可能的;同樣的道理,要建立一個(gè)生命,用基本粒子是絕對不可能建立的。但是,像用磚頭建立大廈一樣,用細(xì)胞建立一個(gè)生命體是可能的。在十幾年、二十年的時(shí)間里,我相信低等生命的打印機(jī)是可以成為現(xiàn)實(shí)的。未來有沒有可能打印高等生物,甚至打印人類呢?打印人不同于克隆人,如果卡爾。馬克思的理念是正確的,那么打印人擁有和我們完全相同的記憶,包括我們深刻的痛苦、感情經(jīng)歷、幸福快樂等等。這樣的打印會帶來什么樣的倫理沖擊呢?
我相信,大數(shù)據(jù)與其他相關(guān)產(chǎn)業(yè)一起,帶來的不僅是商業(yè)、科學(xué)和眼見即所得的類似智慧城市等的變化,還會帶給我們對于生命本質(zhì)是什么、存在的本質(zhì)是什么等本體論的思考。希望我們都能成為一個(gè)新時(shí)代來臨前第一批做好了充分準(zhǔn)備的人。
(來源:中關(guān)村在線)