成人免费观看视频,午夜私人成年影院在线观看,最近中文字幕视频高清

“這場(chǎng)革命的核心在于兩點(diǎn)：算法的突破與芯片算力的躍升?！鄙虾＝煌ù髮W(xué)副教授、無(wú)問(wèn)芯穹聯(lián)合創(chuàng)始人兼首席科學(xué)家戴國(guó)浩表示。

正如蒸汽機(jī)需要煤炭驅(qū)動(dòng)，大模型的智能同樣依賴(lài)海量數(shù)據(jù)和強(qiáng)大算力。但與傳統(tǒng)工業(yè)革命不同，智能革命的迭代速度遠(yuǎn)超想象——技術(shù)更新以“天”為單位推進(jìn)，模型參數(shù)量從十億級(jí)邁向萬(wàn)億級(jí)，推理需求呈指數(shù)級(jí)增長(zhǎng)。

更深遠(yuǎn)的影響在于生產(chǎn)關(guān)系的重構(gòu)。過(guò)去勞動(dòng)者是人，未來(lái)可能是機(jī)器。而機(jī)器的“勞動(dòng)”本質(zhì)是推理——通過(guò)模型計(jì)算完成決策、對(duì)話(huà)、控制等任務(wù)。無(wú)論是金融風(fēng)控還是醫(yī)療診斷，大模型推理正在成為各行業(yè)的新生產(chǎn)力。

從預(yù)訓(xùn)練模型到推理模型，對(duì)算力的需求也在不斷增加，這為整個(gè)行業(yè)帶來(lái)了新的挑戰(zhàn)和機(jī)遇。

一張PPT背后：新技術(shù)催生的算力“剛需”

戴國(guó)浩教授引用了英偉達(dá)CEO黃仁勛今年3月在HTC大會(huì)上的一張PPT。在這張PPT中，一條核心定律揭示了AI發(fā)展的密碼——尺度定律（Scaling Law）。模型能力隨著參數(shù)規(guī)模和數(shù)據(jù)量的增加而提升，但這種增長(zhǎng)需要付出巨大代價(jià)：其中預(yù)訓(xùn)練階段需要用海量數(shù)據(jù)“喂養(yǎng)”模型，耗電量堪比小型城市；在推理階段，模型實(shí)際應(yīng)用時(shí)，算力需求不降反增。用戶(hù)對(duì)實(shí)時(shí)性的期待（如秒級(jí)響應(yīng)）與模型復(fù)雜度的提升形成矛盾。

戴國(guó)浩教授通過(guò)實(shí)測(cè)發(fā)現(xiàn)：運(yùn)行一個(gè)“滿(mǎn)血版”大模型推理，需同時(shí)調(diào)用16張英偉達(dá)H100顯卡，若將同等算力移植到手機(jī)，電量?jī)H能支撐10秒。這暴露了一個(gè)殘酷現(xiàn)實(shí)——推理算力成本已成為AI普及的最大瓶頸。

隨著模型參數(shù)量和數(shù)據(jù)量的增加，模型的能力也在不斷增強(qiáng)。從預(yù)訓(xùn)練階段的規(guī)模擴(kuò)展，到補(bǔ)充增強(qiáng)訓(xùn)練和推理階段的規(guī)模擴(kuò)展，每一個(gè)階段都對(duì)算力提出了更高的要求。為了滿(mǎn)足這種需求，推理技術(shù)需要不斷創(chuàng)新和優(yōu)化，以提高算力的利用效率。

相關(guān)數(shù)據(jù)顯示，自2020年起，全球人工智能算力需求每3-4個(gè)月便翻一番，遠(yuǎn)超傳統(tǒng)計(jì)算領(lǐng)域發(fā)展速度。這種迅猛的增長(zhǎng)態(tài)勢(shì)給科技產(chǎn)業(yè)帶來(lái)巨大挑戰(zhàn)，也促使科研人員和企業(yè)不斷探索新的算力解決方案，以滿(mǎn)足人工智能快速發(fā)展的需求。

存算融合 vs 存算分離：一場(chǎng)技術(shù)路線(xiàn)的對(duì)決

推理過(guò)程可以分為Prefill、Decode和調(diào)度三個(gè)階段。

在云側(cè)推理中，面臨著如何高效調(diào)度算力資源、存儲(chǔ)資源和網(wǎng)絡(luò)資源等問(wèn)題。存儲(chǔ)方面，KV Cache的管理和內(nèi)存碎片化問(wèn)題成為關(guān)鍵挑戰(zhàn)。計(jì)算方面，推理任務(wù)不像訓(xùn)練任務(wù)那樣密集，如何提高計(jì)算利用率成為一個(gè)難題。

目前，推理技術(shù)主要分為存算融合和存算分離兩種路線(xiàn)。存算融合技術(shù)，如vLLM，通過(guò)統(tǒng)一管理計(jì)算和存儲(chǔ)資源，提高了內(nèi)存利用率，但計(jì)算任務(wù)之間容易產(chǎn)生干擾。存算分離技術(shù)，如Mooncake和DeepSeek，將計(jì)算和存儲(chǔ)分開(kāi)，減少了計(jì)算干擾，但存儲(chǔ)碎片化和冗余存儲(chǔ)問(wèn)題較為突出。

戴國(guó)浩教授團(tuán)隊(duì)提出的半分離式方案（semi-PD），結(jié)合了存算融合和分離的優(yōu)點(diǎn)，實(shí)現(xiàn)了高效的推理性能：通過(guò)計(jì)算分離，為不同任務(wù)分配獨(dú)立計(jì)算單元，避免資源爭(zhēng)奪；而結(jié)合存儲(chǔ)融合，采用vLLM的分頁(yè)緩存技術(shù)，將內(nèi)存利用率提升至90%以上。實(shí)測(cè)顯示，該方案比主流框架SGLang的端到端延遲降低40%，且代碼即將開(kāi)源，有望重塑云端推理架構(gòu)。

發(fā)力端側(cè)，以SpecEE應(yīng)對(duì)資源不足

在端側(cè)推理場(chǎng)景下，資源受限是主要問(wèn)題。面對(duì)終端設(shè)備的算力困局，戴國(guó)浩教授團(tuán)隊(duì)另辟蹊徑——如果模型不必完整運(yùn)行，能否提前輸出結(jié)果？戴國(guó)浩教授團(tuán)隊(duì)提出了SpecEE技術(shù)，通過(guò)自適應(yīng)和動(dòng)態(tài)的機(jī)器學(xué)習(xí)模型，在Transformer的級(jí)聯(lián)結(jié)構(gòu)中提前判斷是否已經(jīng)輸出正確結(jié)果，從而減少計(jì)算層數(shù)，實(shí)現(xiàn)輕量化推理。在不聯(lián)網(wǎng)的情況下，讓手機(jī)或電腦等智能終端設(shè)備充分享受智能能力。

SpecEE的動(dòng)態(tài)性和正交性使其不僅適用于端側(cè)設(shè)備，在單用戶(hù)云端場(chǎng)景也能發(fā)揮優(yōu)勢(shì)，還可與其他端側(cè)加速方案無(wú)感兼容，進(jìn)一步提升模型推理精度和速度。

實(shí)測(cè)中，SpecEE在保持95%以上準(zhǔn)確率的同時(shí)，將端側(cè)推理速度提升3倍。這項(xiàng)技術(shù)已與聯(lián)想等廠(chǎng)商合作，應(yīng)用于新一代AI PC，讓離線(xiàn)環(huán)境下的智能助手“快如閃電”。

推理革命：一場(chǎng)關(guān)乎每個(gè)人未來(lái)的生產(chǎn)力升級(jí)

戴國(guó)浩教授堅(jiān)信，2025 年是大模型推理至關(guān)重要的一年。推理算力作為智能革命的基本生產(chǎn)資料和生產(chǎn)力，降低成本是關(guān)鍵目標(biāo)。通過(guò)團(tuán)隊(duì)的核心技術(shù)和原始創(chuàng)新，他們致力于推動(dòng)大模型推理技術(shù)的發(fā)展和應(yīng)用。

戴國(guó)浩教授團(tuán)隊(duì)的研究，正在從兩個(gè)方向推動(dòng)智能革命落地：在云側(cè)，他們的技術(shù)已經(jīng)賦能了上海、北京、杭州等地的公共算力平臺(tái)建設(shè)，提升了模型推理的服務(wù)能力。在端側(cè)，與合作伙伴共同推動(dòng)了聯(lián)想AIPC產(chǎn)品的智能化發(fā)展。無(wú)論是在云側(cè)還是端側(cè)，他們的實(shí)時(shí)響應(yīng)、彈性擴(kuò)展的推理系統(tǒng)都為人們更好地享受智能能力提供了支持。

戴教授團(tuán)隊(duì)希望通過(guò)總結(jié)方法論，與更多合作伙伴共同努力，不斷推進(jìn)模型推理能力的發(fā)展，讓智能革命的浪潮持續(xù)涌動(dòng)，為人類(lèi)社會(huì)帶來(lái)更多的變革和機(jī)遇。

這場(chǎng)變革的本質(zhì)是“推理民主化”——當(dāng)算力成本降低至當(dāng)前的1/10，AI將不再局限于科技巨頭，中小企業(yè)和個(gè)人開(kāi)發(fā)者也能調(diào)用智能能力。正如電力普及讓工廠(chǎng)走進(jìn)千家萬(wàn)戶(hù)，推理技術(shù)的突破將讓智能革命真正滲透到每個(gè)角落。

戴國(guó)浩教授最后強(qiáng)調(diào)：“30年前，計(jì)算機(jī)從實(shí)驗(yàn)室走向辦公室；今天，我們要讓大模型從云端走進(jìn)每個(gè)人的口袋?！边@場(chǎng)始于算力的革命，終將重塑人類(lèi)與機(jī)器協(xié)作的方式，而推理技術(shù)，正是打開(kāi)未來(lái)之門(mén)的鑰匙。

分享到

上海交通大學(xué)大模型戴國(guó)浩推理

xiesc

相關(guān)推薦

近期文章

熱門(mén)標(biāo)簽