會上,騰訊大數(shù)據(jù)負責人劉煜宏正式發(fā)布了“星火計劃”,他表示:“在騰訊大數(shù)據(jù)十年的發(fā)展歷程中, 我們不斷追求技術創(chuàng)新, 集群數(shù)從30臺到突破35000臺。2016年,我們打破了計算奧運會之稱的Sort Benchmark 4項世界紀錄,性能全球領先。騰訊大數(shù)據(jù)的發(fā)展從開源中受益,秉承著開放共享的精神, 今天我們也推出技術共享的‘星火計劃’,希望能夠助力和反哺大數(shù)據(jù)生態(tài)繁榮?!?/p>

圖片包含 室內(nèi), 墻壁, 人員, 男士

描述已自動生成

騰訊大數(shù)據(jù)發(fā)展“三部曲”

作為大數(shù)據(jù)領域的前沿探索者,騰訊大數(shù)據(jù)從2009年開始, 經(jīng)歷離線計算、實時計算與機器學習三個階段,在實踐中積累了大量的經(jīng)驗。

圖片包含 屏幕截圖

描述已自動生成

據(jù)劉煜宏介紹,2009年之前,騰訊主要使用傳統(tǒng)的關系型數(shù)據(jù)庫。2009年開始,傳統(tǒng)的單機數(shù)據(jù)庫所提供的服務,在系統(tǒng)可擴展性、性價比方面已不再適用騰訊業(yè)務爆發(fā)式的增長。面對這種變化,騰訊大數(shù)據(jù)轉向分布式,基于開源的Hadoop體系,構建了騰訊第一代大數(shù)據(jù)平臺,并建設離線計算平臺,主要發(fā)力規(guī)?;?。騰訊大數(shù)據(jù)由此進入第一階段。三年里,騰訊實現(xiàn)了從關系型數(shù)據(jù)庫到自建大數(shù)據(jù)平臺的全面遷移,到2012年,騰訊大數(shù)據(jù)的單集群規(guī)模突破了4400臺。

2012年,移動互聯(lián)網(wǎng)爆發(fā),應對業(yè)務數(shù)據(jù)統(tǒng)計及時性、快速性的需求,騰訊大數(shù)據(jù)從Hadoop轉向Spark和Storm體系,在吸收開源技術的基礎上,結合騰訊自身的需求進行重寫,探索流式計算、秒級采集系統(tǒng)的建設,構建企業(yè)級的實時數(shù)據(jù)分析體系,騰訊大數(shù)據(jù)發(fā)展進入第二階段。

2015年至今,騰訊大數(shù)據(jù)邁入了第三階段。隨著數(shù)據(jù)挖掘、數(shù)據(jù)應用的深入,騰訊大數(shù)據(jù)再次自我迭代,于2016年推出了自研機器學習平臺Angel,專攻復雜計算場景,可進行大規(guī)模的數(shù)據(jù)訓練,支撐內(nèi)容推薦、廣告推薦等AI應用場景。它由騰訊與北京大學聯(lián)合研發(fā),兼顧了工業(yè)界的高可用性和學術界的創(chuàng)新性。不僅支撐騰訊自身業(yè)務需求,在行業(yè)上也具有里程碑意義。

從海量業(yè)務中來,專注圖計算場景

作為面向機器學習的第三代高性能計算平臺,騰訊Angel在稀疏數(shù)據(jù)高維模型的訓練上具有獨特優(yōu)勢,擅長推薦模型和圖網(wǎng)絡模型相關領域。當前業(yè)界主流的大規(guī)模圖計算系統(tǒng)主要有Facebook的Big Graph、Power graph、Data bricks的 Spark GraphX等,但這些系統(tǒng)并不都支持圖挖掘、圖表示學習、圖神經(jīng)網(wǎng)絡的三大類型算法。

圖片包含 屏幕截圖

描述已自動生成

據(jù)騰訊Angel開發(fā)負責人肖品介紹,騰訊Angel從騰訊海量業(yè)務場景中而來,是超大樣本和超高維度的機器學習平臺。從性能上來看,Angel優(yōu)于現(xiàn)有圖計算系統(tǒng),能夠支持十億級節(jié)點、千億級邊的傳統(tǒng)圖挖掘算法,百億邊的圖神經(jīng)網(wǎng)絡算法需求。它可運行于多任務集群以及公有云環(huán)境,具備高效容錯恢復機制,也更容易支持新算法,同時,Angel能夠較好支持圖挖掘、圖表示、圖神經(jīng)網(wǎng)絡算法,具備圖學習的能力。

如今,Angel已在QQ、微信支付、騰訊廣告、騰訊視頻等騰訊旗下產(chǎn)品中廣泛應用,并向微眾銀行等行業(yè)合作伙伴全面開放,普遍適用于智能推薦、金融風險評估等圖計算業(yè)務場景。

到開源中去,積極貢獻社區(qū)

發(fā)布僅一年時間,2017年,騰訊Angel就正式開源。2018年8月,騰訊將Angel捐贈給Linux旗下專注人工智能的LF AI基金會,結合基金會成熟的運營,全面升級的 Angel與國際開源社區(qū)深入互動,致力于讓機器學習技術更易于上手研究及應用。

圖片包含 屏幕截圖

描述已自動生成

“Angel在2018年加入LF AI基金會進行孵化后,一直按照開源社區(qū)的模式進行運營,增長速度非???,增加了特征工程、自動機器學習等很多新的功能,在Github上增加了超過2000個Star。” Linux Foundation APAC大中華區(qū)總監(jiān)楊軒表示: “Angel是LF AI基金會下最活躍的項目之一,相信不久的將來,Angel將進入LF AI的頂級項目之列?!?/p>

圖片包含 文字, 屏幕截圖

描述已自動生成

目前,Angel在GitHub上Star數(shù)已超過5300,F(xiàn)ork數(shù)超過1300,總共有39位代碼貢獻者,提交了超過2336個commit。

面向未來,大數(shù)據(jù)、AI和云的深度融合

騰訊Angel在深度學習和圖計算能力的演變,也與大數(shù)據(jù)的行業(yè)發(fā)展方向相契合。據(jù)劉煜宏介紹,未來,騰訊大數(shù)據(jù)將持續(xù)發(fā)力數(shù)據(jù)湖、批流統(tǒng)一(批量計算、流線計算的融合)、AI+大數(shù)據(jù)、云計算+大數(shù)據(jù)四個主要方向。

分享到

zhangnn

相關推薦