国产精品一区二区av交换,中文字幕人成无码免费视频,永久免费av无码网站性色av,欧美一道本一区二区三区,樱桃熟了a级毛片

鄂維南:大數(shù)據(jù)發(fā)展中的一些瓶頸問題

  • fanzhe
  • ?
  • 2015-08-26 11:36:50
  • ?
  • DOIT

[導讀]8月26—27日,2015中國國際大數(shù)據(jù)大會在北京召開,DOIT傳媒作為大會戰(zhàn)略合作媒體受邀現(xiàn)場直播。中科院院士、北京大學、普林斯頓大學教授、普林科技董事長鄂維南做了題為“大數(shù)據(jù)發(fā)展中的一些瓶頸問題”的主題演講。

【DOIT】8月26—27日,2015中國國際大數(shù)據(jù)大會在北京召開,DOIT傳媒作為大會戰(zhàn)略合作媒體受邀現(xiàn)場直播。中科院院士、北京大學、普林斯頓大學教授、普林科技董事長鄂維南做了題為“大數(shù)據(jù)發(fā)展中的一些瓶頸問題”的主題演講。

中科院院士、北京大學、普林斯頓大學教授、普林科技董事長 鄂維南

以下為演講速記:

非常感謝收到邀請,因為我在這個講臺上肯定也是一個新人,我可能大家一個不太熟悉的人,我是北京大學元培學院院長,是搞教育的。從秋天開始我們學院有一個新的專業(yè),數(shù)據(jù)科學專業(yè),這是全國一個系統(tǒng)的專業(yè)。今天我看了這次大會的主要宗旨之一是讓大數(shù)據(jù)能夠在中國務實、健康地發(fā)展,這個題目非常好,現(xiàn)在中國的大數(shù)據(jù)非常熱,從國務院、各級政府、企業(yè)界、高校,整個社會都非常感興趣。中國大數(shù)據(jù)的前景非常廣闊,市場非常大。怎么把這個廣闊的前景變成現(xiàn)實現(xiàn)在還面臨很多問題,我現(xiàn)在想講講我個人的一些經歷。前面幾位嘉賓也講過很多了,我結合自己的體會講一講。

第一個問題就是沒數(shù)據(jù),理論上我們中國有很多數(shù)據(jù),但實際做數(shù)據(jù)分析你會發(fā)現(xiàn)這是一個非常嚴重的困難。就像前面張總工程師講數(shù)據(jù)孤島是一個嚴重的問題,不同部門數(shù)據(jù)存在在不同的地方,格式也不一樣。你要做數(shù)據(jù),大數(shù)據(jù)最高的層次就是要用數(shù)據(jù)來形成智慧,使得社會各方面可以運轉起來。做數(shù)據(jù)分析先要整合數(shù)據(jù),這是我們通常的理念,這本身就是研究的困難。

第二是數(shù)據(jù)的質量的問題,最后我還要在后面提到。我想強調一點并不是說我們要有很完美的數(shù)據(jù)才能做分析,完美的數(shù)據(jù)永遠是等不來的,我們做數(shù)據(jù)分析的人,我們的出發(fā)點是有多少數(shù)據(jù)可以做多少事,比方說碎片化的數(shù)據(jù)也可以有這樣一個流程,你也可以把它整合起來也可以做分析,所以這一點我想強調一下,不是說等到有完美的數(shù)據(jù)才能做數(shù)據(jù)分析。這是第一個瓶頸,大家很清楚。

第二個瓶頸就是數(shù)據(jù)擁有方,像電信、聯(lián)通,和數(shù)據(jù)分析,像我這樣做數(shù)據(jù)分析的人,這中間有一個很大的洪溝,我們是做數(shù)據(jù)分析的,像電信、聯(lián)通有數(shù)據(jù),但是他們還沒有像我們這樣數(shù)據(jù)分析做了很多年,十幾年,沒有這樣的。那么怎么樣使得數(shù)據(jù)能夠流通起來?

第一大家想到的就是開放,數(shù)據(jù)開放,現(xiàn)在政府也在呼吁數(shù)據(jù)開放,數(shù)據(jù)開放面臨一個嚴重問題就是隱私問題,脫敏遠遠不夠,隱私問題是一個無底洞。前面有一個我的鋪林斯頓大學的同事,他說從算法角度來判斷數(shù)據(jù)隱私這是不可能的。下面是一個例子,他們把美國的信用卡3個月數(shù)據(jù)拿過來,拿過來以后他發(fā)現(xiàn)如果我知道一個人昨天在某個部門買了一點東西,前天在另外一個商場買了東西,我就知道這個人是誰,也就是把你所有的消費數(shù)據(jù)都找到了,那么我就了解你的消費習慣,所以其實就是我了解你在消費方面的隱私。這是脫敏的,沒有名字,沒有號碼什么的,但可以通過算法可以找到一個人的消費習慣。想靠法律辦法解決隱私問題,這個嚴格來說是不可能,這是第一個問題。數(shù)據(jù)開放面臨的問題。

第二個就是數(shù)據(jù)交易,現(xiàn)在交易所很多。我想說數(shù)據(jù)作為一種商品,它有一定的特殊性,我用了別人也可以用,沒有任何消耗,可以在市場賣很多遍。這就產生一個問題,你這個數(shù)據(jù)到市場賣,根據(jù)經濟學觀點它的價值是零,你賣給我我可以用更低的價格賣給別人,所以數(shù)據(jù)交易理論上來說也是不可行的,現(xiàn)在很多數(shù)據(jù)交易平臺,我不知道他們怎么做的,怎么突破這個悖論。但是有一種說法是撮合,還有一種說法是不是直接賣數(shù)據(jù),是賣數(shù)據(jù)的加工品,這實際上有這個悖論在背后,對這兩種交易都是有影響的,只不過是更高層次的影響,這個問題本身不可避免。

怎么辦?數(shù)據(jù)怎么流通起來?面臨這樣的情況現(xiàn)在還有另外個情況,就是數(shù)據(jù)擁有方,數(shù)據(jù)分析,他們的出發(fā)點,自己建一個團隊自己來做,我想說我從事數(shù)據(jù)分析很多年,我想說數(shù)據(jù)分析有瓶頸,是一個技術活,而且你差個1%、2%,這樣表明你在市場里沒有競爭力,所以這條路也是有困難的。另外我們國家的實際狀況是什么呢?現(xiàn)在我們的數(shù)據(jù)分析公司是風起云涌,我把它說成是小鍋爐戰(zhàn)場,想當年大煉鋼鐵的時候就是自己在家里就建了鍋爐就煉。的確什么人都可以做,沒有什么技術含量,但是現(xiàn)在我們講的大數(shù)據(jù)有一個很重要的一點,大家平時不說的,就是現(xiàn)在數(shù)據(jù)分析的技術、方法、模型、算法有非常大改進,跟過去六七十年代完全不一樣了,不是說搞幾個SAAS軟件或者RAAS軟件就可以做了,雖然有人做起來了,也做得非?;ㄉ?,也可以說有很多市場,也可以說有很多人就能進入這個市場。但是長遠來說這條路走不通。所以我覺得數(shù)據(jù)行業(yè)服務最重要的是提高門檻,這個不是大家都可以做的,這真的是技術活,同樣真正把門檻提高了,數(shù)據(jù)服務的企業(yè)對本身有責任感,它本身就具有責任感,你才能提到前面的交易、隱私的問題,這是第二個瓶頸。

第三個瓶頸是技術。一個方面是數(shù)據(jù)分析本身就是一個難題,第二點中國的數(shù)據(jù)有它的特色,比如院士剛剛講到我們很多的視頻,中國的視頻比任何國家都要多,我們有很多監(jiān)控視頻,這些數(shù)據(jù)現(xiàn)在連存都存不下,北京的交通信息管理中心的視頻只存21天,想用的時候沒有了。視頻分析本身就是一個非常困難的問題。我們有很多監(jiān)控視頻的監(jiān)控視頻的分析。第二文本,我們用中文,美國用英文,中國的和美國的文本不完全一樣,這也是中國大數(shù)據(jù)的一個瓶頸。最主要的是我們的數(shù)據(jù)質量差、噪音多,也就是說在國外的方法拿到我們這里來不一定管用,因為噪音很多。這個是一個風控評級的模型,紅的是國外這個企業(yè)本身做的,綠的是普林科技做的,把大小和生物差,可以看到不同的數(shù)段是不同類型,可以看到普林科技的模型比國外這個模型好很多,誤差小很多。但是我們都知道數(shù)據(jù)分析很嚴重的問題就是過度擬合,尤其過度擬合把數(shù)據(jù)里的噪音擬合進去了,你在訓練級上表示非常好,你在測試級上真正實際數(shù)據(jù)表現(xiàn)差。比如這個地方,訓練級上藍的線走勢非常好,但到實際數(shù)據(jù)越來越差了。在我們國家尤其嚴重的問題,因為我們的數(shù)據(jù)質量非常差,數(shù)據(jù)里面噪音非常多。所以這個時候就需要對算法和模型進行改進,來避免過度擬合這樣的問題。這是對我們這個市場提出了一個新問題。

這里面我舉一個例子,不僅僅是數(shù)據(jù)分析本身就困難,中國市場的數(shù)據(jù)本身也有困難。還有一個難度,就是數(shù)據(jù)服務作為一個業(yè)務模式,它的商業(yè)模式現(xiàn)在沒有真正被認可?;ヂ?lián)網(wǎng)企業(yè)大家知道,平臺搭起來,流量提上去商業(yè)模式就解決了,那數(shù)據(jù)通過什么方式賺錢,前景不是那么清楚。

最最嚴重的問題是人才問題,我們國家大數(shù)據(jù)發(fā)展最大的優(yōu)勢市場大,最大的劣勢缺乏人才,人才缺乏非常嚴重。第一我們要跟國外爭人才,現(xiàn)在在國外做大數(shù)據(jù)的也很熱,有種說法說做IT的比做金融的華爾街的人更熱門,做大數(shù)據(jù)分析的人,在谷歌、臉書網(wǎng)做的很熱門,他們待遇非常好,這是對國外說。在國內也好,國外也好,你還要跟企業(yè)競爭。比如我在美國鋪林斯頓大學,這個大學是世界最好的大學之一了,現(xiàn)在在我們普林斯頓找數(shù)學家都非常困難,他很容易被大的公司挖走,我們去年有兩個非常好的人才就被微軟挖走了。所以即使在國外,現(xiàn)在學術界跟企業(yè)界競爭,人才都是非常嚴重缺乏的,在國外就更嚴重了。所以人才是非常嚴重的問題。

而在我們國家目前沒有非常好的培養(yǎng)大數(shù)據(jù)人才的機理,這樣的機制沒有建立起來。本來我們的教育界、科技界的人才就缺乏,而在大數(shù)據(jù)領域,統(tǒng)計、機械學習等這些領域相比而言更加弱,所以這是一個嚴重問題。那么怎么解決這個問題?其實我個人在這方面想了很長時間,就是怎么才能在中國真正建設一個具有國際標準、國際水平的大數(shù)據(jù)平臺?我們國家這么大的市場,我們做大數(shù)據(jù),在國際上競爭第二是沒有意義的,我們要競爭就至少在某些領域在領先地位。要做到這一點至少得要有一個國際標準的研究平臺,經過很多年我可以告訴大家明天再北京大學我們要有一個北京大數(shù)據(jù)研究院掛牌儀式。這個可以說是從體制來講是一個創(chuàng)新,但是北京市政府、北京大學、北京工業(yè)大學、中關村管委會等聯(lián)合推進的這樣的研究院,既有體制內,也有體制外的部分,把人才培養(yǎng)教育和科研創(chuàng)新和市場化、產業(yè)化結合在一起。

我覺得這樣的一個平臺有可能把一些一流的人才吸引過來,因為他們這些人可能會看到中國市場的廣大,在這樣的平臺上他既可以做科研,也可以做市場,做產業(yè)化。從這個平臺也可以某種程度解決待遇問題,所以我從2009年開始到現(xiàn)在,6年的時間為了做這樣一件事情想了很多,當然現(xiàn)在在各個部門,包括北大,包括北京市政支持下可以做起來,所以我們是掛牌了,萬里長征走完第一步。不管怎么樣我的個人的感覺是說我們中國大數(shù)據(jù)的市場非常大,但要真正務實,落到實處我們要做的還非常多。這幾天有很多論壇,都很多代表都會講我們做了很多很多事情,我想聽起來都非常吸引人,但是我們聽眾也要問問你究竟是怎么做的。我們要采取一種開放務實的態(tài)度,最后講的有點教訓式的口吻,對不起。不是說教育,而是我自己這么多年來的經驗和教訓,謝謝大家。

聲明:所有會議記錄均為現(xiàn)場速記整理,未經演講者審閱,本站刊登此文出于傳遞更多信息之目的,并不表示贊同其觀點或證實其描述。
 

更多精彩內容請關注:http://njyihanglw.cn/subject/cbds2015/

熱點文章

精彩專題

微信公眾平臺:搜索"doitmedia"
或掃描下面的二維碼:

?
  1. 公司簡介 | 媒體優(yōu)勢 | 廣告服務 | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會員注冊 | 訂閱中心
  2. Copyright ? 2013 DOIT Media, All rights Reserved. 百易傳媒 版權所有.
  3. 電信與信息服務業(yè)經營許可證:030972號 電信業(yè)務審批 [2009]字第572號
  4. 京ICP備13004627號-3 ??京公網(wǎng)安備: 110105001105