支付寶小程序云技術(shù)負(fù)責(zé)人李錚宣布CodeFuse正式開(kāi)源

這是螞蟻?zhàn)匝械拇a生成專屬大模型,根據(jù)開(kāi)發(fā)者的輸入提供智能建議和實(shí)時(shí)支持,幫助開(kāi)發(fā)者自動(dòng)生成代碼、自動(dòng)增加注釋,自動(dòng)生成測(cè)試用例,修復(fù)和優(yōu)化代碼等,以提升研發(fā)效率。

無(wú)論用戶是初學(xué)者還是有經(jīng)驗(yàn)的開(kāi)發(fā)者,CodeFuse都能夠極大地提高編程效率和準(zhǔn)確性,讓人人可編程、可創(chuàng)新成為現(xiàn)實(shí)。

CodeFuse基于螞蟻基礎(chǔ)大模型研發(fā),在近期代碼補(bǔ)全的HumanEval評(píng)測(cè)中,CodeFuse得分74.4%,超過(guò)GPT-4 (67%)的成績(jī),也超過(guò)了WizardCoder-34B 73.2%的得分,在開(kāi)源模型中位于國(guó)際前列。本次開(kāi)源內(nèi)容包括代碼框架、模型等,現(xiàn)已上架相關(guān)平臺(tái),模型可在HuggingFace下載。

代碼框架部分包括自研的多任務(wù)微調(diào)(Multi-task fine-tuning,縮寫(xiě)為MFT)框架。MFT支持代碼生成、代碼翻譯、測(cè)試用例生成、bug修復(fù)等數(shù)10個(gè)任務(wù)一起微調(diào),它充分利用多任務(wù)之間的信息互補(bǔ),通過(guò)創(chuàng)新的loss設(shè)計(jì)處理不同任務(wù)之間收斂難易不均衡的難題,最終取得比單任務(wù)微調(diào)SFT更好的效果。

MFT微調(diào)框架支持螞蟻?zhàn)匝心P?,以及多個(gè)開(kāi)源大模型的代碼能力微調(diào)。同時(shí),框架內(nèi)含創(chuàng)新的微調(diào)數(shù)據(jù)打包技術(shù),提升微調(diào)速度約8倍;并使用多重部署優(yōu)化技術(shù),使推理加速約2倍。

模型部分包括CodeFuse13B-4K、CodeFuse-CodeLlaMa34B-MFT兩個(gè)大模型。模型訓(xùn)練過(guò)程中,CodeFuse使用了程序分析校驗(yàn)技術(shù),對(duì)高質(zhì)量代碼數(shù)據(jù)進(jìn)行篩選,并構(gòu)建了代碼領(lǐng)域?qū)S米值?,編碼平均長(zhǎng)度低10%+。

早在2022年1月,螞蟻集團(tuán)內(nèi)部成立了代碼智能生成專項(xiàng),隨著公司整體戰(zhàn)略的推進(jìn),在統(tǒng)一軟硬件基礎(chǔ)設(shè)施支持下,從零到一訓(xùn)練了多個(gè)代碼大模型,最終基于13B版本,打造了CodeFuse,并在今年6月開(kāi)始內(nèi)測(cè),用以真實(shí)開(kāi)發(fā)環(huán)境,可以助力開(kāi)發(fā)者低門(mén)檻編程,例如用自然語(yǔ)言編寫(xiě)H5小游戲、快速開(kāi)發(fā)支付寶小程序等。

基于CodeFuse的應(yīng)用場(chǎng)景有開(kāi)發(fā)助手、IDE插件、數(shù)據(jù)分析器等,覆蓋了目前研發(fā)工作的主要需求,在螞蟻集團(tuán)內(nèi)部研發(fā)流程中陸續(xù)得到驗(yàn)證。

CodeFuse的目的是重新定義下一代AI研發(fā),提供全生命周期AI輔助工具。螞蟻集團(tuán)期望通過(guò)開(kāi)源CodeFuse,和社區(qū)一起推進(jìn)軟件工程領(lǐng)域的范式躍遷,重塑軟件研發(fā)的各個(gè)領(lǐng)域,加速各行各業(yè)的數(shù)字化進(jìn)程。

分享到

zhupb

相關(guān)推薦