今年以來(lái),大模型應(yīng)用的深入推進(jìn)為人工智能產(chǎn)業(yè)帶來(lái)新機(jī)遇,人工智能產(chǎn)業(yè)呈現(xiàn)出應(yīng)用場(chǎng)景多元化拓展、數(shù)據(jù)體量爆發(fā)式增長(zhǎng)等態(tài)勢(shì),這對(duì)支撐大規(guī)模智能計(jì)算的基礎(chǔ)設(shè)施提出更高要求。天翼云推出的智算基礎(chǔ)設(shè)施平臺(tái)“云驍”,依托天翼分布式架構(gòu)云底座和海量計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源,基于天翼云操作系統(tǒng)TeleCloudOS4.0,為用戶提供軟硬一體的解決方案,可實(shí)現(xiàn)高階算力供給、資源高效利用、多種計(jì)算能力服務(wù)一站式提供,大幅提升數(shù)據(jù)加載、訓(xùn)練和推理效率,滿足智算、超算、通算多樣化算力服務(wù)需求。
“云驍”構(gòu)建了高性能存儲(chǔ)與網(wǎng)絡(luò)服務(wù)。在存儲(chǔ)方面,“云驍”基于塊存儲(chǔ)服務(wù)、并行文件服務(wù)、分布式文件服務(wù)以及對(duì)象存儲(chǔ)服務(wù),為客戶提供端到端的存儲(chǔ)解決方案。在網(wǎng)絡(luò)方面,“云驍”提供百GB帶寬RDMA無(wú)損網(wǎng)絡(luò),實(shí)現(xiàn)計(jì)算節(jié)點(diǎn)以及計(jì)算存儲(chǔ)之間數(shù)據(jù)的快速傳遞;支持存算分離高速網(wǎng)絡(luò)自動(dòng)化部署以及多租戶網(wǎng)絡(luò)隔離技術(shù),實(shí)現(xiàn)數(shù)據(jù)安全隔離,保障用戶數(shù)據(jù)安全;支持多場(chǎng)景存儲(chǔ)訪問(wèn),滿足用戶對(duì)高速訪問(wèn)并行文件存儲(chǔ)、云上對(duì)象存儲(chǔ)等多種應(yīng)用場(chǎng)景的綜合需求。
整體來(lái)看,“云驍”具有算力整合、算力調(diào)度加速、算力運(yùn)營(yíng)管理等能力。在算力整合方面,“云驍”為模型開(kāi)發(fā)、訓(xùn)練、推理、算力加速、算力運(yùn)維等場(chǎng)景提供軟硬一體解決方案;在算力調(diào)度加速方面,實(shí)現(xiàn)基于硬件網(wǎng)絡(luò)的拓?fù)涓兄{(diào)度、故障感知調(diào)度,從而提高通信效率和訓(xùn)練效率,同時(shí)通過(guò)數(shù)據(jù)加速、單機(jī)計(jì)算加速和顯存優(yōu)化、分布式并行加速、通信優(yōu)化等加速技術(shù),加速AI訓(xùn)練推理效率,降低客戶成本;在算力運(yùn)營(yíng)管理方面,支持訓(xùn)練和推理過(guò)程中的效率分析和優(yōu)化,提供全面的日志和監(jiān)控,方便用戶運(yùn)維和全流程觀測(cè)。
為提升智算服務(wù)能力,“云驍”打造了先進(jìn)的服務(wù)架構(gòu),可實(shí)現(xiàn)微服務(wù)拆分,滿足用戶便捷部署、高可用、負(fù)載均衡等需求;具備Region、AZ、集群、多租戶等多層級(jí)資源管理、供給能力,便于用戶調(diào)用資源;支持通過(guò)Web UI以及API等多樣化方式接入,提供個(gè)性化接入服務(wù)。此外,“云驍”內(nèi)置全自研任務(wù)管理、調(diào)度系統(tǒng),便于用戶進(jìn)行統(tǒng)一管理和調(diào)度。其中,自研任務(wù)系統(tǒng)兼具多場(chǎng)景、全流程任務(wù)管理能力;自研任務(wù)控制器支持常用智算任務(wù)的編排控制;自研調(diào)度器支持多種調(diào)度策略,支撐用戶便捷化調(diào)用智算能力,賦能各類(lèi)智慧應(yīng)用建設(shè)。
目前,“云驍”已在多個(gè)行業(yè)場(chǎng)景落地應(yīng)用,推動(dòng)企業(yè)快速發(fā)展。在大模型行業(yè),“云驍”為思必馳提供AI基礎(chǔ)設(shè)施層服務(wù),賦能思必馳進(jìn)一步縮短語(yǔ)音識(shí)別訓(xùn)練時(shí)間周期并降低算力成本。此外,“云驍”還為人工智能研究機(jī)構(gòu)、汽車(chē)等客戶進(jìn)行大模型訓(xùn)練和微調(diào),助力降低科研創(chuàng)新成本。