大模型行業(yè)應用落地加速,DeepSeek-R1 32B、QwQ-32B等模型中文能力見長,并在理解能力和知識儲備上有顯著優(yōu)勢,是企業(yè)平衡性能和部署成本的頂級模型選擇。元腦CPU推理服務器僅基于通用處理器進行軟硬協同優(yōu)化,可為企業(yè)32B模型推理與云計算、數據庫等通用關鍵業(yè)務場景融合提供更高效、更靈活、更穩(wěn)定的AI通用算力支撐。
大模型爆火背后的機遇與困境
春節(jié)過后,DeepSeek的爆火將AI應用推向新高度,其7天內活躍度突破1億,引發(fā)千行百業(yè)競相擁抱AI。浪潮信息副總經理趙帥表示:“DeepSeek的爆火,讓AI真正走進了千家萬戶,許多資深同行都主動詢問相關信息,這在以往是難以想象的。它創(chuàng)造了大量實際落地業(yè)務價值,推動各行業(yè)積極探索AI應用?!?/p>
但是在DeepSeek火爆的背后是算力稀缺,尤其是好用、易用的算力獲取困難,成為制約大模型發(fā)展的關鍵因素。中小企業(yè)、教育科研用戶更是陷入兩難境地:將私有數據上云面臨安全風險;部署滿血版服務器,初始投資高昂且并發(fā)需求不匹配。
趙帥指出:“中小企業(yè)和教科研用戶對易于部署、易于管理、易于使用的入門級AI推理服務需求強烈,他們希望服務器更便于部署和管理,控制成本,并能將AI融入日常業(yè)務,實現多業(yè)務協同管理。這是市場的現實需求,也是我們發(fā)布元腦CPU推理服務器的重要出發(fā)點。”
元腦CPU推理服務器:軟硬協同創(chuàng)新破解應用難題
為滿足市場需求,浪潮信息推出元腦CPU推理服務器,這款產品在技術上實現了一系列突破。
在硬件層面,以4路服務器為例,其單機可支持2TB以上內存,強大的內存擴展能力為模型運行提供充足空間。浪潮信息人工智能與高性能應用軟件部AI架構師Hongyan SUN解釋道:“隨著CPU技術發(fā)展,內存帶寬不斷提升,從早期8通道發(fā)展到如今的16通道,還有MRD新型內存技術助力。這使得CPU服務器在運行大模型時,即便面對如671B這樣存儲需求大的模型,也能憑借大容量內存實現良好運行效果。”
軟件優(yōu)化同樣至關重要。服務器采用先進的張量并行策略和AI加速技術,如英特爾的AMX加速功能。浪潮信息人工智能與高性能應用軟件部AI架構師Owen ZHU介紹:“在32B推理中,我們運用TP并行技術,將權重分成四份存入對應CPU內存,充分利用整機內存帶寬,相比單CPU內存帶寬使用,可提升至1.2T。同時,采用AWQ量化技術,通過逐通道測放和網格搜索找到最佳縮放因子,有效減少量化誤差,提升模型性能?!?/p>
軟硬協同優(yōu)化更是這款服務器的核心亮點。趙帥強調:“AI推理不是單純的硬件工作,軟硬件協同才能發(fā)揮最大性能。我們的AIStation、EPAI等軟件平臺,能讓用戶快速上手使用大模型,根據自身場景選擇最合適的模型,降低使用門檻,提升使用體驗?!?/p>
差異化定位,推動AI應用普及
市場中,DeepSeek一體機已占據一席之地,元腦CPU推理服務器與之相比有何不同?
趙帥分析:“滿血版DeepSeek一體機適用于中大型企業(yè),這些企業(yè)有較高的技術實力和成本承受能力,對模型參數數量和并發(fā)數要求較高,一般并發(fā)數在兩三百以上才能發(fā)揮其最大價值。而我們的元腦CPU推理服務器主要面向中小企業(yè)市場,這類企業(yè)更注重成本控制,對AI應用處于起步階段,希望將AI融入現有業(yè)務。元腦CPU推理服務器穩(wěn)定性強、易維護、支持多種負載,既能與企業(yè)現有IT基礎設施無縫融合,也避免了專用AI硬件的局限。”
例如,在一些中小企業(yè)的日常辦公場景中,服務器不僅可以運行AI推理任務,輔助員工進行文檔撰寫、數據分析等工作,還能同時承擔數據庫管理、郵件服務等傳統業(yè)務,實現一機多用,提升企業(yè)運營效率。
多元應用場景,解鎖無限可能
元腦CPU推理服務器的應用場景十分廣泛,除了常見的大模型對話,還在RAG(檢索增強生成)、長文本處理、多模態(tài)任務等領域展現出潛力。
在RAG業(yè)務支持上,趙帥表示:“RAG技術對企業(yè)模型的微調至關重要,但它并非由推理服務器獨立完成。浪潮信息的元腦企智EPAI大模型平臺,聯合ISV合作伙伴,幫助用戶對數據進行微調,使模型更貼合業(yè)務需求。推理服務器則根據模型參數、并發(fā)規(guī)模和場景選擇,為RAG業(yè)務提供算力支撐?!?/p>
針對長文本處理,Hongyan SUN表示:“在RAG場景下,我們預先處理和計算檢索文檔的KV值并存儲在硬盤,用戶加載時可直接提取,減少冷啟動時間。同時,通用服務器大容量內存為KV Cache存儲提供便利,不過受限于計算能力,在長文本快速輸出方面存在一定挑戰(zhàn)。我們正在研究新的KV Cache技術,預計今年下半年發(fā)布,進一步提升長文本處理能力?!?/p>
在多模態(tài)任務方面,雖然目前尚未成為服務器的主要應用方向,但隨著技術發(fā)展,其潛力不容小覷。Owen ZHU認為:“隨著多模態(tài)技術的成熟,我們的服務器憑借強大的計算能力和靈活的軟件適配性,未來有望在圖像、語音與文本融合的多模態(tài)應用中發(fā)揮重要作用,為企業(yè)提供更豐富的服務?!?/p>
市場反饋熱烈,前景一片光明
產品推出后,市場反饋如何?趙帥透露:“目前市場熱度極高,已有大量客戶咨詢,涉及金融、教育、中小企業(yè)、創(chuàng)業(yè)公司、科研團隊等多個領域。他們對低成本、易部署、易管理的產品需求迫切,我們的服務器恰好滿足這些需求。雖然出于商業(yè)保密原因不能透露具體訂單量,但可以肯定的是,這款產品市場前景廣闊。”
從實際應用案例來看,某金融企業(yè)利用元腦CPU推理服務器結合特定大模型,實現智能客服升級,快速準確回答客戶咨詢,提升客戶滿意度;某教育機構借助服務器搭建智能教學輔助系統,為學生提供個性化學習方案,提高教學質量。這些成功案例充分證明了產品的價值。
展望未來,趙帥表示:“浪潮信息將持續(xù)投入基礎大模型研究,深入理解算力需求,優(yōu)化系統架構。我們還將不斷完善產品陣列,從數據中心級AI服務器到CPU服務器、邊緣服務器,滿足不同客戶場景需求。同時,加強網絡、存儲等方面布局,打造完整AI業(yè)務生態(tài),推動AI技術在各行業(yè)深度應用。”
CPU推理服務器的出現,為大模型應用困境提供了有效解決方案,其憑借技術創(chuàng)新、差異化定位和多元應用場景,正在市場中嶄露頭角。隨著AI技術不斷發(fā)展,更加快速、易獲得、低投入的理想算力平臺將推動AI應用邁向新高度,讓更多企業(yè)在智能時代實現創(chuàng)新發(fā)展。