今年以來,大模型應用的深入推進為人工智能產(chǎn)業(yè)帶來新機遇,人工智能產(chǎn)業(yè)呈現(xiàn)出應用場景多元化拓展、數(shù)據(jù)體量爆發(fā)式增長等態(tài)勢,這對支撐大規(guī)模智能計算的基礎設施提出更高要求。天翼云推出的智算基礎設施平臺“云驍”,依托天翼分布式架構云底座和海量計算、存儲、網(wǎng)絡資源,基于天翼云操作系統(tǒng)TeleCloudOS4.0,為用戶提供軟硬一體的解決方案,可實現(xiàn)高階算力供給、資源高效利用、多種計算能力服務一站式提供,大幅提升數(shù)據(jù)加載、訓練和推理效率,滿足智算、超算、通算多樣化算力服務需求。

“云驍”構建了高性能存儲與網(wǎng)絡服務。在存儲方面,“云驍”基于塊存儲服務、并行文件服務、分布式文件服務以及對象存儲服務,為客戶提供端到端的存儲解決方案。在網(wǎng)絡方面,“云驍”提供百GB帶寬RDMA無損網(wǎng)絡,實現(xiàn)計算節(jié)點以及計算存儲之間數(shù)據(jù)的快速傳遞;支持存算分離高速網(wǎng)絡自動化部署以及多租戶網(wǎng)絡隔離技術,實現(xiàn)數(shù)據(jù)安全隔離,保障用戶數(shù)據(jù)安全;支持多場景存儲訪問,滿足用戶對高速訪問并行文件存儲、云上對象存儲等多種應用場景的綜合需求。

整體來看,“云驍”具有算力整合、算力調(diào)度加速、算力運營管理等能力。在算力整合方面,“云驍”為模型開發(fā)、訓練、推理、算力加速、算力運維等場景提供軟硬一體解決方案;在算力調(diào)度加速方面,實現(xiàn)基于硬件網(wǎng)絡的拓撲感知調(diào)度、故障感知調(diào)度,從而提高通信效率和訓練效率,同時通過數(shù)據(jù)加速、單機計算加速和顯存優(yōu)化、分布式并行加速、通信優(yōu)化等加速技術,加速AI訓練推理效率,降低客戶成本;在算力運營管理方面,支持訓練和推理過程中的效率分析和優(yōu)化,提供全面的日志和監(jiān)控,方便用戶運維和全流程觀測。

為提升智算服務能力,“云驍”打造了先進的服務架構,可實現(xiàn)微服務拆分,滿足用戶便捷部署、高可用、負載均衡等需求;具備Region、AZ、集群、多租戶等多層級資源管理、供給能力,便于用戶調(diào)用資源;支持通過Web UI以及API等多樣化方式接入,提供個性化接入服務。此外,“云驍”內(nèi)置全自研任務管理、調(diào)度系統(tǒng),便于用戶進行統(tǒng)一管理和調(diào)度。其中,自研任務系統(tǒng)兼具多場景、全流程任務管理能力;自研任務控制器支持常用智算任務的編排控制;自研調(diào)度器支持多種調(diào)度策略,支撐用戶便捷化調(diào)用智算能力,賦能各類智慧應用建設。

目前,“云驍”已在多個行業(yè)場景落地應用,推動企業(yè)快速發(fā)展。在大模型行業(yè),“云驍”為思必馳提供AI基礎設施層服務,賦能思必馳進一步縮短語音識別訓練時間周期并降低算力成本。此外,“云驍”還為人工智能研究機構、汽車等客戶進行大模型訓練和微調(diào),助力降低科研創(chuàng)新成本。

分享到

xiesc

相關推薦