“這場革命的核心在于兩點:算法的突破與芯片算力的躍升。”上海交通大學副教授、無問芯穹聯(lián)合創(chuàng)始人兼首席科學家戴國浩表示。

正如蒸汽機需要煤炭驅動,大模型的智能同樣依賴海量數據和強大算力。但與傳統(tǒng)工業(yè)革命不同,智能革命的迭代速度遠超想象——技術更新以“天”為單位推進,模型參數量從十億級邁向萬億級,推理需求呈指數級增長。

更深遠的影響在于生產關系的重構。過去勞動者是人,未來可能是機器。而機器的“勞動”本質是推理——通過模型計算完成決策、對話、控制等任務。無論是金融風控還是醫(yī)療診斷,大模型推理正在成為各行業(yè)的新生產力。

從預訓練模型到推理模型,對算力的需求也在不斷增加,這為整個行業(yè)帶來了新的挑戰(zhàn)和機遇。

一張PPT背后:新技術催生的算力“剛需”

戴國浩教授引用了英偉達CEO黃仁勛今年3月在HTC大會上的一張PPT。在這張PPT中,一條核心定律揭示了AI發(fā)展的密碼——尺度定律(Scaling Law)。模型能力隨著參數規(guī)模和數據量的增加而提升,但這種增長需要付出巨大代價:其中預訓練階段需要用海量數據“喂養(yǎng)”模型,耗電量堪比小型城市;在推理階段,模型實際應用時,算力需求不降反增。用戶對實時性的期待(如秒級響應)與模型復雜度的提升形成矛盾。

戴國浩教授通過實測發(fā)現:運行一個“滿血版”大模型推理,需同時調用16張英偉達H100顯卡,若將同等算力移植到手機,電量僅能支撐10秒。這暴露了一個殘酷現實——推理算力成本已成為AI普及的最大瓶頸。

隨著模型參數量和數據量的增加,模型的能力也在不斷增強。從預訓練階段的規(guī)模擴展,到補充增強訓練和推理階段的規(guī)模擴展,每一個階段都對算力提出了更高的要求。為了滿足這種需求,推理技術需要不斷創(chuàng)新和優(yōu)化,以提高算力的利用效率。

相關數據顯示,自2020年起,全球人工智能算力需求每3-4個月便翻一番,遠超傳統(tǒng)計算領域發(fā)展速度。這種迅猛的增長態(tài)勢給科技產業(yè)帶來巨大挑戰(zhàn),也促使科研人員和企業(yè)不斷探索新的算力解決方案,以滿足人工智能快速發(fā)展的需求。

存算融合 vs 存算分離:一場技術路線的對決

推理過程可以分為Prefill、Decode和調度三個階段。

在云側推理中,面臨著如何高效調度算力資源、存儲資源和網絡資源等問題。存儲方面,KV Cache的管理和內存碎片化問題成為關鍵挑戰(zhàn)。計算方面,推理任務不像訓練任務那樣密集,如何提高計算利用率成為一個難題。

目前,推理技術主要分為存算融合和存算分離兩種路線。存算融合技術,如vLLM,通過統(tǒng)一管理計算和存儲資源,提高了內存利用率,但計算任務之間容易產生干擾。存算分離技術,如Mooncake和DeepSeek,將計算和存儲分開,減少了計算干擾,但存儲碎片化和冗余存儲問題較為突出。

戴國浩教授團隊提出的半分離式方案(semi-PD),結合了存算融合和分離的優(yōu)點,實現了高效的推理性能:通過計算分離,為不同任務分配獨立計算單元,避免資源爭奪;而結合存儲融合,采用vLLM的分頁緩存技術,將內存利用率提升至90%以上。實測顯示,該方案比主流框架SGLang的端到端延遲降低40%,且代碼即將開源,有望重塑云端推理架構。

發(fā)力端側,以SpecEE應對資源不足

在端側推理場景下,資源受限是主要問題。面對終端設備的算力困局,戴國浩教授團隊另辟蹊徑——如果模型不必完整運行,能否提前輸出結果?戴國浩教授團隊提出了SpecEE技術,通過自適應和動態(tài)的機器學習模型,在Transformer的級聯(lián)結構中提前判斷是否已經輸出正確結果,從而減少計算層數,實現輕量化推理。在不聯(lián)網的情況下,讓手機或電腦等智能終端設備充分享受智能能力。

SpecEE的動態(tài)性和正交性使其不僅適用于端側設備,在單用戶云端場景也能發(fā)揮優(yōu)勢,還可與其他端側加速方案無感兼容,進一步提升模型推理精度和速度。

實測中,SpecEE在保持95%以上準確率的同時,將端側推理速度提升3倍。這項技術已與聯(lián)想等廠商合作,應用于新一代AI PC,讓離線環(huán)境下的智能助手“快如閃電”。

推理革命:一場關乎每個人未來的生產力升級

戴國浩教授堅信,2025 年是大模型推理至關重要的一年。推理算力作為智能革命的基本生產資料和生產力,降低成本是關鍵目標。通過團隊的核心技術和原始創(chuàng)新,他們致力于推動大模型推理技術的發(fā)展和應用。

戴國浩教授團隊的研究,正在從兩個方向推動智能革命落地:在云側,他們的技術已經賦能了上海、北京、杭州等地的公共算力平臺建設,提升了模型推理的服務能力。在端側,與合作伙伴共同推動了聯(lián)想AIPC產品的智能化發(fā)展。無論是在云側還是端側,他們的實時響應、彈性擴展的推理系統(tǒng)都為人們更好地享受智能能力提供了支持。

戴教授團隊希望通過總結方法論,與更多合作伙伴共同努力,不斷推進模型推理能力的發(fā)展,讓智能革命的浪潮持續(xù)涌動,為人類社會帶來更多的變革和機遇。

這場變革的本質是“推理民主化”——當算力成本降低至當前的1/10,AI將不再局限于科技巨頭,中小企業(yè)和個人開發(fā)者也能調用智能能力。正如電力普及讓工廠走進千家萬戶,推理技術的突破將讓智能革命真正滲透到每個角落。

戴國浩教授最后強調:“30年前,計算機從實驗室走向辦公室;今天,我們要讓大模型從云端走進每個人的口袋。”這場始于算力的革命,終將重塑人類與機器協(xié)作的方式,而推理技術,正是打開未來之門的鑰匙。

分享到

xiesc

相關推薦