全新升級,CPM-Ant 蝶變 CPM-Bee

CPM(Chinese Pretrained Model) 系列大模型是我們團隊自研模型,其中包括國內(nèi)首個中文大模型 CPM-1高效易用大模型 CPM-2、可控持續(xù)大模型 CPM-3 等。最新的百億大模型訓練直播項目 CPM-Live 的計劃書在2022年5月26日發(fā)布,第一期模型 CPM-Ant 的訓練在2022年5月29日正式啟動,并于2022年9月16日圓滿發(fā)布報告。

作為 CPM-Live 的第二期模型,CPM-Bee 在2022年10月13日開啟訓練,在基礎能力和性能表現(xiàn)上都在 CPM-Ant 的基礎上進行了全新升級。CPM-Bee 一網(wǎng)打盡多種能力,可以準確地進行語義理解,高效完成各類基礎任務,包括:文字填空、文本生成、翻譯、問答、評分預測、文本選擇題 等等。考慮到用戶使用模型的易用性,我們在預訓練階段將模型的輸入輸出設計成了 JSON 結構化形式,用戶只需調(diào)整不同任務字段,就可以完成各類任務。

CPM-Bee 是一個 完全開源、允許商用 的百億參數(shù)中英文基座模型。它采用 Transformer 自回歸架構(auto-regressive),使用萬億級高質(zhì)量語料進行預訓練,擁有強大的基礎能力。CPM-Bee 的特點可以總結如下:

 ?? Github地址   https://github.com/OpenBMB/CPM-Bee 

?? Hugging Face地址   https://huggingface.co/openbmb/cpm-bee-10b 

 百煉千錘 ,零樣本評測獨占鰲頭

我們對 CPM-Bee 基座模型進行了全方位的中英文能力評測。在中文的 Zero-CLUE 評測基準上,CPM-Bee 可以大幅超越其他模型,穩(wěn)居中文大模型第一。

在英文評測基準上,CPM-Bee 也 展現(xiàn)出了和開源模型 LLaMA 相當?shù)男?/strong>果。

英文評測

使用CPM-Bee提供的API 與 OpenBMB 和 THUNLP聯(lián)合自研的Decoder Tuning(ACL 2023)技術,可以在 不訪問和修改模型參數(shù)的情況下大幅提高下游任務的性能!

 生態(tài)支持 ? 微調(diào)壓縮部署一應俱全

基于 OpenBMB 的大模型生態(tài)系統(tǒng),我們在訓練 CPM-Bee 的過程中實現(xiàn)了全流程高效。同時提供了訓練(基于 BMTrain)、微調(diào)(基于 OpenPrompt 和 OpenDelta)、外部工具使用(基于 BMTools)、模型壓縮(基于 BMCook)低資源推理(基于 BMInf)的全套腳本,可以協(xié)助開發(fā)者快速上手和使用 CPM-Bee。

基于高效微調(diào)工具 OpenDelta,我們給出了兩種微調(diào)方案:全參數(shù)微調(diào)和增量微調(diào),可以將 CPM-Bee 適配到各類下游場景中。

基于高效壓縮工具 BMCook,我們對原始的 CPM-Bee 基座模型進行壓縮,提供了 10B、5B、2B、1B 四種大小的 CPM-Bee 模型來適應各種不同的場景:

模型#Attn.層#FFN層Attn隱狀態(tài)維度FFN隱狀態(tài)維度
CPM-Bee-10B4848409610240
CPM-Bee-5B1924409610240
CPM-Bee-2B192420485120
CPM-Bee-1B192412801024

對于壓縮后的 CPM-Bee,普通的消費級顯卡即可完成快速推理,不同大小的模型所占用的推理資源如下:

模型推理內(nèi)存占用硬件需求
CPM-Bee-10B20GBRTX3090(24 GB)
CPM-Bee-5B11 GBRTX3090(24 GB)
CPM-Bee-2B6.7 GBGTX 1080(8 GB)
CPM-Bee-1B4.1 GBGTX 1660(6 GB)

OpenBMB 始終堅守初衷,致力于打造卓越的大規(guī)模預訓練語言模型庫和相關工具。基于工具平臺和模型庫,我們在建設大模型開源生態(tài)的同時,也積極促進大模型的落地與廣泛應用。

依托強大的開源基座模型 CPM-Bee,我們期待世界上涌現(xiàn)出更多精彩的大模型和大模型驅動的產(chǎn)品應用。人工智能的大模型時代正在加速行進!

分享到

zhupb

相關推薦