調(diào)查方法及樣本說(shuō)明

考慮到網(wǎng)絡(luò)調(diào)查的隨機(jī)性較容易保證,準(zhǔn)確性較高,本項(xiàng)目采用網(wǎng)絡(luò)調(diào)查的方式,并建立網(wǎng)絡(luò)專(zhuān)題和入口便于用戶(hù)參與調(diào)查
http://www.dochannel.com/research/register.html),調(diào)查時(shí)間為2012年8月1日至2012年8月20日,訪問(wèn)對(duì)象是擁有數(shù)據(jù)存儲(chǔ)應(yīng)用及需求的企業(yè)、機(jī)構(gòu)戒者組織。

為了更好地統(tǒng)計(jì)國(guó)內(nèi)各種類(lèi)型用戶(hù)的存儲(chǔ)現(xiàn)狀,本次調(diào)查幵沒(méi)有對(duì)用戶(hù)的企業(yè)大小、數(shù)據(jù)觃模、行業(yè)類(lèi)型、所處區(qū)域等迚行樣本分類(lèi),而是迚行了具體統(tǒng)計(jì)不記錄。根據(jù)統(tǒng)計(jì)資料顯示,本次調(diào)查樣本涵蓋了國(guó)內(nèi)大部分的地區(qū)及省市,北至哈爾濱、南至深圳、西至烏魯木齊、東至南通,覆蓋范圍之大在存儲(chǔ)行業(yè)內(nèi)非常鮮見(jiàn)。本次調(diào)查設(shè)計(jì)樣本數(shù)為300個(gè),截止至2012年8月30日,調(diào)查實(shí)際樣本數(shù)為284個(gè),有效實(shí)際樣本數(shù)234個(gè)。

有效實(shí)際樣本涉及行業(yè)中主要包括:政府、醫(yī)療、計(jì)算機(jī)服務(wù)和軟件業(yè)、制造業(yè)、金融服務(wù)、能源、電信等。其中媒體娛樂(lè)、汽車(chē)等行業(yè)也有所涉獵,占整個(gè)樣本數(shù)量的15%左右。

 

有效實(shí)際樣本涉及用戶(hù)的人員規(guī)模包括<50人、50-100人、101-500人、501-1000人、>1000人幾種劃分,其中以500人左右的企業(yè)占據(jù)主要,占比達(dá)到整體樣本數(shù)的49%,接近一半以上。

 

調(diào)查背景

隨著用戶(hù)數(shù)據(jù)量的暴增,其數(shù)據(jù)的存儲(chǔ)也出現(xiàn)高速增長(zhǎng)。在大數(shù)據(jù)時(shí)代,當(dāng)前用戶(hù)IT應(yīng)用出現(xiàn)新的變化,數(shù)據(jù)結(jié)構(gòu)類(lèi)型出現(xiàn)新的特點(diǎn),結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)并處于高速增長(zhǎng)狀態(tài)。針對(duì)這一現(xiàn)象,DOIT特別針對(duì)中國(guó)企業(yè)大數(shù)據(jù)狀況進(jìn)行此次調(diào)查,以探尋大數(shù)據(jù)背景下的中國(guó)企業(yè)數(shù)據(jù)存儲(chǔ)及應(yīng)用的特點(diǎn)和趨勢(shì),也希望可以幫助企業(yè)用戶(hù)能夠在 2012年把握大數(shù)據(jù)業(yè)務(wù)的現(xiàn)狀,為企業(yè)轉(zhuǎn)型和業(yè)務(wù)發(fā)展提供幫助,迎接大數(shù)據(jù)給企業(yè)帶來(lái)的新機(jī)遇。

2012年企業(yè)大數(shù)據(jù)狀況調(diào)查問(wèn)卷所涉足的用戶(hù)領(lǐng)域和行業(yè)都比較全面,通過(guò)調(diào)查分析發(fā)現(xiàn),企業(yè)所面臨的大數(shù)據(jù)結(jié)構(gòu)類(lèi)型主要分為三類(lèi),包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù);企業(yè)基礎(chǔ)架構(gòu)已經(jīng)不適應(yīng)大數(shù)據(jù)的發(fā)展,有待進(jìn)一步更新;企業(yè)處理大數(shù)據(jù)方面存在一系列問(wèn)題需要解決。

大數(shù)據(jù)類(lèi)型分析

隨著云時(shí)代的來(lái)臨,大數(shù)據(jù)(Big data)也吸引了越來(lái)越多的關(guān)注。大數(shù)據(jù)的數(shù)據(jù)格式包括哪些呢?這個(gè)問(wèn)題,在現(xiàn)在看來(lái)似乎很是簡(jiǎn)單,對(duì)于大數(shù)據(jù)的定義當(dāng)前也比較明確了,總的來(lái)說(shuō)大數(shù)據(jù)具備4個(gè)“V”,或者說(shuō)其特點(diǎn)有四個(gè)層面:第一,數(shù)據(jù)體量巨大。從TB級(jí)別,躍升到PB級(jí)別;第二,數(shù)據(jù)類(lèi)型繁多,包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化類(lèi)型。如當(dāng)前大家經(jīng)常提及的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,價(jià)值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅有一兩秒。第四,處理速度快。1秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。業(yè)界將其歸納為4個(gè)“V”——Volume,Variety,Value,Velocity。

在統(tǒng)計(jì)本次調(diào)查的數(shù)據(jù)顯示,54%的用戶(hù)所在的公司的大數(shù)據(jù)結(jié)構(gòu)類(lèi)型屬于結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)三者皆有,可見(jiàn),用戶(hù)在大數(shù)據(jù)類(lèi)型方面已經(jīng)呈現(xiàn)出類(lèi)型繁多的現(xiàn)狀。

另外,在用戶(hù)看來(lái),目前所在的公司大數(shù)據(jù)出現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)明顯增多的情況占了調(diào)查樣本的40%左右,而有30%的人出現(xiàn)所有數(shù)據(jù)類(lèi)型都明顯增多的情況。而結(jié)構(gòu)化數(shù)據(jù)類(lèi)型和半結(jié)構(gòu)化數(shù)據(jù)類(lèi)型都增多的情況有所放緩。

 

 

企業(yè)基礎(chǔ)架構(gòu)分析

從本次調(diào)查結(jié)果可以看出,將近有46%的企業(yè)服務(wù)器數(shù)量沒(méi)有超過(guò)100臺(tái),而擁有100至400臺(tái)占據(jù)了28%的比例。400至800臺(tái)服務(wù)器則占據(jù)剩下26%的比例。可以看出現(xiàn)今大部分企業(yè)面對(duì)大數(shù)據(jù)還沒(méi)有完善其硬件基礎(chǔ)架構(gòu)設(shè)施。

在對(duì)企業(yè)基礎(chǔ)設(shè)施架構(gòu)中采用最多處理器類(lèi)型的調(diào)查中,明顯發(fā)現(xiàn)英特爾至強(qiáng)系列占據(jù)了被調(diào)查樣本數(shù)約80%,英特爾X86架構(gòu)服務(wù)器在整個(gè)被調(diào)查用戶(hù)樣本中所占據(jù)的比例非常高,也說(shuō)明X86架構(gòu)的普及率早已超過(guò)了其他架構(gòu),當(dāng)然其中我們不排除用戶(hù)也采用其他架構(gòu)的需求所在,但從調(diào)查數(shù)據(jù)顯示,只有11%的用戶(hù)采用AMD皓龍系列,8%的用戶(hù)采用IBM POWER系列,而SUN SPARC系列的用戶(hù)占比最少,大約2%左右。

實(shí)際上,英特爾所代表的X86服務(wù)器在幾年之前就開(kāi)始不斷侵蝕企業(yè)的關(guān)鍵業(yè)務(wù)領(lǐng)域,而英特爾所發(fā)布的E7系列處理器已經(jīng)能夠提供完全不弱于小型機(jī)CPU所能提供的性能。如以往一樣,在英特爾所提出的大數(shù)據(jù)方案之中,至強(qiáng)處理器將為大數(shù)據(jù)分析提供原動(dòng)力。事實(shí)上,英特爾的x86架構(gòu)硬件平臺(tái)已經(jīng)幫助甲骨文等廠商在大數(shù)據(jù)一體機(jī)等方面取得了高性能和經(jīng)濟(jì)實(shí)惠的統(tǒng)一,而英特爾自己的Hadoop發(fā)行版也正幫助用戶(hù)解決了大數(shù)據(jù)領(lǐng)域的實(shí)際問(wèn)題。為此,這也是在本次企業(yè)大數(shù)據(jù)狀況調(diào)查中,X86架構(gòu)服務(wù)器已經(jīng)占到了整個(gè)行業(yè)的主流地位的原因所在。

 

企業(yè)處理大數(shù)據(jù)能力分析

通過(guò)調(diào)查發(fā)現(xiàn),從當(dāng)前階段大部分企業(yè)內(nèi)大數(shù)據(jù)處理基礎(chǔ)設(shè)施的情況來(lái)看,其中有將近50%的企業(yè)面臨大數(shù)據(jù)處理的問(wèn)題,這些問(wèn)題主要表現(xiàn)在企業(yè)在面對(duì)大數(shù)據(jù)的解決之道應(yīng)遵循采集、導(dǎo)入/處理、查詢(xún)、挖掘的流程等。這些問(wèn)題的出現(xiàn)主要也是來(lái)自用戶(hù)對(duì)于大數(shù)據(jù)處理存在諸多困難和問(wèn)題造成的。

在調(diào)查問(wèn)及“當(dāng)前您所在企業(yè)面對(duì)大數(shù)據(jù)處理的最大問(wèn)題是什么?”時(shí),有效調(diào)查樣本中選擇擴(kuò)展性差和運(yùn)營(yíng)成本較高的用戶(hù)占比達(dá)到42%,同時(shí)大家對(duì)于應(yīng)用部署過(guò)于復(fù)雜、資源利用率低、散熱不佳、能耗過(guò)高等其他問(wèn)題也比較關(guān)注。

當(dāng)然了,用戶(hù)對(duì)于大數(shù)據(jù)的關(guān)注度在提升的同時(shí)也是受到自身企業(yè)每天數(shù)據(jù)生成量影響的,在對(duì)有效樣本進(jìn)行“您所在企業(yè)每天的數(shù)據(jù)生成量有多少?”的問(wèn)話中發(fā)現(xiàn),將近50%的企業(yè)用戶(hù)每天的數(shù)據(jù)生成量達(dá)到了TB級(jí),有接近28%的企業(yè)用戶(hù)每天數(shù)據(jù)生成量超過(guò)了40TB。而在100GB以下數(shù)據(jù)生成量的企業(yè)用戶(hù)占比相對(duì)較少。但是每天數(shù)據(jù)生成量達(dá)到或者超過(guò)100TB級(jí)別的用戶(hù)也同樣不多。

企業(yè)面臨大數(shù)據(jù)處理急需解決的技術(shù)挑戰(zhàn)其實(shí)最大的表現(xiàn)還是在多格式數(shù)據(jù)方面,其次是讀寫(xiě)速度(讀寫(xiě)速度是指數(shù)據(jù)從端點(diǎn)移動(dòng)到處理器和存儲(chǔ)的速度),再就是國(guó)內(nèi)存儲(chǔ)廠商所關(guān)注的海量數(shù)據(jù)。

另外,用戶(hù)在考慮采購(gòu)什么樣廠商的大數(shù)據(jù)產(chǎn)品和方案時(shí),更多的會(huì)考慮投資回報(bào)的問(wèn)題。其次就是平臺(tái)的開(kāi)放性,用戶(hù)對(duì)于平臺(tái)開(kāi)放性的重視主要在于未來(lái)擴(kuò)展問(wèn)題。當(dāng)然中國(guó)用戶(hù)也非常重視初期成本的投入的。當(dāng)然也有18%被調(diào)查企業(yè)用戶(hù)非常重視廠商提供的服務(wù)和技術(shù)支持。對(duì)于方案是否開(kāi)源關(guān)注占到了8%左右。

 


在對(duì)用戶(hù)提問(wèn)“您所在公司的大數(shù)據(jù)處理系統(tǒng)部署了Hadoop體系嗎?”其中被調(diào)查樣本企業(yè)用戶(hù)有41%在計(jì)劃在內(nèi),即將部署。另外有25%用戶(hù)已經(jīng)部署,并在使用,有11%用戶(hù)不會(huì)部署,還有23%用戶(hù)沒(méi)有聽(tīng)說(shuō)過(guò),需要對(duì)這類(lèi)用戶(hù)進(jìn)行教育。據(jù)被調(diào)查人士分析指出,應(yīng)用部署過(guò)于復(fù)雜也催生了大數(shù)據(jù)處理系統(tǒng)管理員這一新興職業(yè),其主要負(fù)責(zé)日常Hadoop集群正常運(yùn)行。例如直接或間接的管理硬件,當(dāng)需要添加硬件時(shí)需保證集群仍能夠穩(wěn)定運(yùn)行。同時(shí)還要負(fù)責(zé)系統(tǒng)監(jiān)控和配置,保證Hadoop與其他系統(tǒng)的有機(jī)結(jié)合。


在對(duì)用戶(hù)認(rèn)為云時(shí)代下企業(yè)數(shù)據(jù)挖掘面臨哪些挑戰(zhàn)的問(wèn)題調(diào)查中發(fā)現(xiàn),不管是數(shù)據(jù)安全性、網(wǎng)絡(luò)瓶頸技術(shù)不成熟服務(wù)的水平缺乏相關(guān)的法規(guī)保障還是其他問(wèn)題,總體分析來(lái)看,在大數(shù)據(jù)增長(zhǎng)的影響下企業(yè)數(shù)據(jù)挖掘面臨如下幾個(gè)挑戰(zhàn):

一是異構(gòu)數(shù)據(jù)問(wèn)題,當(dāng)前企業(yè)用戶(hù)的網(wǎng)絡(luò)數(shù)據(jù)的最大特點(diǎn)就是半結(jié)構(gòu)化,如文檔、報(bào)表、網(wǎng)頁(yè)、聲音、圖片、視頻等,而云計(jì)算變革所帶來(lái)的基于互聯(lián)網(wǎng)方式提供的各種應(yīng)用,如何有效掌控這些異構(gòu)數(shù)據(jù)就是一個(gè)挑戰(zhàn)。目前也有提出異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng),就是相關(guān)的多個(gè)數(shù)據(jù)庫(kù)系統(tǒng)的集合,可以實(shí)現(xiàn)數(shù)據(jù)的共享和透明訪問(wèn)。

二是多源數(shù)據(jù)問(wèn)題,隨著企業(yè)不斷適應(yīng)云計(jì)算的變化,企業(yè)數(shù)據(jù)會(huì)有部分在公有云上,也有私有云上,面對(duì)不同數(shù)據(jù)來(lái)源,這對(duì)數(shù)據(jù)挖掘是一個(gè)很大的挑戰(zhàn),以電力行業(yè)為例,隨著網(wǎng)絡(luò)技術(shù)在電力系統(tǒng)中的廣泛應(yīng)用,調(diào)度中心數(shù)據(jù)采集渠道多,如何從繁雜重復(fù)的信息中得到可靠準(zhǔn)確信息,確實(shí)是一個(gè)挑戰(zhàn)。

三是挖掘效率問(wèn)題,通過(guò)分析每個(gè)數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示3個(gè)步驟。但在云計(jì)算環(huán)境下,封閉的企業(yè)數(shù)據(jù)挖掘會(huì)逐漸不能適用,面對(duì)互聯(lián)網(wǎng)帶來(lái)的異構(gòu)數(shù)據(jù)挑戰(zhàn),哪種數(shù)據(jù)挖掘算法效率更高,值得進(jìn)一步研究。

最重要的一項(xiàng)調(diào)查中,涉及到企業(yè)正在使用的數(shù)據(jù)分析與挖掘平臺(tái),選項(xiàng)設(shè)立了5個(gè)項(xiàng)目,包括了(A、 Hadoop B、 開(kāi)源的HBase C、 Teradata D、 Netezza E、Greenplum F、Exadata)從調(diào)查結(jié)果中分析得出Hadoop占據(jù)了一半多的市場(chǎng),企業(yè)正在使用的數(shù)據(jù)分析與挖掘平臺(tái)最多的還是Hadoop。可以預(yù)見(jiàn)的是,Hadoop日漸成長(zhǎng)引領(lǐng)開(kāi)源云計(jì)算發(fā),“大象很會(huì)跳舞。”Hadoop作為企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)核心技術(shù),在未來(lái)幾年中它將會(huì)保持很好的增長(zhǎng)。

為此,在2012年英特爾也推出了它的Hadoop發(fā)行版,英特爾Hadoop發(fā)行版是一套解決方案,針對(duì)不同行業(yè)客戶(hù)進(jìn)行系統(tǒng)整合,根據(jù)不同用戶(hù)的需求來(lái)實(shí)現(xiàn)個(gè)性化解決方案。長(zhǎng)期來(lái)看,英特爾致力于打造健康的生態(tài)系統(tǒng),通過(guò)ISV、OEM等眾多合作伙伴,共同應(yīng)對(duì)大數(shù)據(jù)帶來(lái)的挑戰(zhàn),把握時(shí)代機(jī)遇,利用大數(shù)據(jù)深挖價(jià)值。

英特爾以至強(qiáng)處理器構(gòu)建的高效IT基礎(chǔ)設(shè)施為基石,英特爾還計(jì)劃在其上的數(shù)據(jù)組織與管理層,針對(duì)大數(shù)據(jù)的分發(fā)和管理需求提供針對(duì)英特爾平臺(tái)優(yōu)化的Hadoop產(chǎn)品和服務(wù)。在大數(shù)據(jù)的分析與發(fā)現(xiàn)層,提供針對(duì)客戶(hù)端與服務(wù)器端算法開(kāi)發(fā)的支持,以滿足大數(shù)據(jù)計(jì)算所需的性能與規(guī)模要求。在大數(shù)據(jù)的決策支持與IT服務(wù)層,則將聯(lián)合生態(tài)系統(tǒng)內(nèi)的合作伙伴,提供更為優(yōu)化的可視化應(yīng)用體驗(yàn)。英特爾所有與這些規(guī)劃相關(guān)的具體策略,將隨著大數(shù)據(jù)技術(shù)、應(yīng)用和市場(chǎng)的發(fā)展逐步深化、細(xì)化。

相信有了英特爾這樣上游廠商的加入,必將對(duì)Hadoop的未來(lái)增長(zhǎng)帶來(lái)更加積極深遠(yuǎn)的影響。

 

 

分享到

dochannel

相關(guān)推薦