“創(chuàng)新引擎獎”頒獎儀式 “實踐先鋒獎”頒獎儀式
人工智能時代對智算的需求急劇增長,也對網(wǎng)絡提出了前所未有的要求。樊小平表示,建設高性能智算網(wǎng)絡面臨著諸多挑戰(zhàn)。在終端層面,RDMA網(wǎng)卡需接入存儲和智算參數(shù)面等多個網(wǎng)絡平面并面臨業(yè)務融合加速的問題,RDMA網(wǎng)卡若要發(fā)揮極致性能需攻克高性能通信庫難題。在網(wǎng)絡層面,AI大模型的訓練數(shù)據(jù)、參數(shù)規(guī)模龐大且訓練涉及萬卡并行,這不僅對網(wǎng)絡的性能、可靠性、安全性、帶寬等提出了更高的要求,還需要組建大規(guī)模的RDMA網(wǎng)絡來支撐。
為了應對以上挑戰(zhàn),天翼云積極探索智算網(wǎng)絡領域新技術,構建的高性能智算網(wǎng)絡,可擴展至萬卡集群,參數(shù)面RDMA網(wǎng)絡采用3層組網(wǎng),以實現(xiàn)端網(wǎng)協(xié)同、軟硬件結合以及業(yè)務感知;在RDMA網(wǎng)卡優(yōu)化方面,天翼云基于紫金DPU底座研發(fā)的紫金RDMA網(wǎng)卡,實現(xiàn)了一卡四用,同時支持可編程擁塞控制框架;在擁塞控制方面,天翼云推出CTCC擁塞控制算法,可以免去交換機復雜的水線配置,能夠在不同的端側(cè)選擇不同的傾向性策略,例如傾向于高吞吐或傾向于低時延等;在存儲網(wǎng)絡方面,天翼云三棧融合的協(xié)議棧SF-STACK,支持動態(tài)選擇傳輸層協(xié)議,擁有高性能、高可靠優(yōu)勢并屏蔽硬件差異,擴展了可部署的網(wǎng)絡類型。此外,天翼云推出高性能集合通信庫CTCCL,聚焦多路徑負載均衡、故障檢測與恢復,可以優(yōu)化網(wǎng)絡路徑,保障網(wǎng)絡可用性。
目前,天翼云高性能智算網(wǎng)絡,通過紫金DPU支持VPC/對象存儲(VxLAN)接入、提供并行文件存儲(RoCE)接入、實現(xiàn)高性能存儲引擎LAVA對接,可減少網(wǎng)絡平面、降低網(wǎng)絡復雜度。憑借單卡支持多種網(wǎng)絡形態(tài)接入、單網(wǎng)絡承載多種傳輸流量的優(yōu)勢,天翼云高性能智算網(wǎng)絡在助力智算高性能存儲方面已取得顯著成效,能夠幫助企業(yè)有效降低成本、提升效率。
隨著各行業(yè)上云用數(shù)不斷深入推進,網(wǎng)絡與算力的相互協(xié)同將進一步促進數(shù)字經(jīng)濟蓬勃發(fā)展。天翼云將堅持科技創(chuàng)新,探索全新智算網(wǎng)絡解決方案,為千行百業(yè)的數(shù)智發(fā)展注入強勁動能。