圖1 本次開(kāi)源行業(yè)數(shù)據(jù)量與其他開(kāi)源數(shù)據(jù)量的部分對(duì)比(GB)
IndustryCorpus 1.0覆蓋了18類行業(yè)的預(yù)訓(xùn)練數(shù)據(jù)集,其中科技類334GB,法律類275GB,醫(yī)學(xué)類189GB,金融類198GB,新聞?lì)?64GB。除此之外,還包含教育、旅游、體育、汽車等,未來(lái)將進(jìn)一步擴(kuò)展至30類行業(yè)。同步發(fā)布的還有醫(yī)療和教育兩個(gè)領(lǐng)域的指令微調(diào)數(shù)據(jù)集。IndustryCorpus 1.0的發(fā)布,有望大幅提升模型在專業(yè)領(lǐng)域的知識(shí)性,助力大模型的行業(yè)落地應(yīng)用。
圖2 本次開(kāi)源行業(yè)數(shù)據(jù)集按行業(yè)分布情況
為驗(yàn)證行業(yè)數(shù)據(jù)集應(yīng)用效果,智源選取醫(yī)療行業(yè)數(shù)據(jù)集進(jìn)行示范模型訓(xùn)練。智源基于Aquila通用模型完成繼續(xù)預(yù)訓(xùn)練、SFT訓(xùn)練和RLHF訓(xùn)練,取得了優(yōu)異的模型行業(yè)能力提升。對(duì)比繼續(xù)預(yù)訓(xùn)練前的模型,在客觀指標(biāo)方面,采用醫(yī)療行業(yè)數(shù)據(jù)集經(jīng)過(guò)繼續(xù)預(yù)訓(xùn)練、SFT和DPO之后的示范醫(yī)療模型總體醫(yī)療能力提升20.1%(見(jiàn)圖3)。在主觀評(píng)測(cè)方面,在經(jīng)過(guò)醫(yī)療行業(yè)SFT數(shù)據(jù)和DPO數(shù)據(jù)的訓(xùn)練后,示范醫(yī)療對(duì)話模型能力勝率達(dá)到82.2%,5分制多輪對(duì)話能力CMTMedQA評(píng)分達(dá)到4.45(見(jiàn)圖4)。綜上,行業(yè)數(shù)據(jù)集在一定程度上解決了用戶行業(yè)數(shù)據(jù)獲取難、訓(xùn)練效果不佳的難題。
圖3 客觀指標(biāo)方面,采用醫(yī)療行業(yè)預(yù)訓(xùn)練數(shù)據(jù)集繼續(xù)預(yù)訓(xùn)練、SFT和DPO之后的示范醫(yī)療模型總體醫(yī)療能力提升20.1%
圖4 主觀評(píng)測(cè)方面,經(jīng)過(guò)醫(yī)療行業(yè)SFT數(shù)據(jù)和DPO數(shù)據(jù)訓(xùn)練后,示范醫(yī)療對(duì)話模型能力勝率達(dá)到82.2%
2、啟動(dòng)千萬(wàn)級(jí)指令微調(diào)數(shù)據(jù)集 InfinityInstruct 的開(kāi)源項(xiàng)目
高質(zhì)量的指令數(shù)據(jù)是大模型性能的“養(yǎng)料”。本次論壇上,智源研究院發(fā)布的千萬(wàn)級(jí)高質(zhì)量指令微調(diào)數(shù)據(jù)集開(kāi)源項(xiàng)目,包括基于開(kāi)源數(shù)據(jù)集進(jìn)行高質(zhì)量篩選的數(shù)據(jù),和通過(guò)數(shù)據(jù)合成方法構(gòu)造的高質(zhì)量指令數(shù)據(jù)。智源對(duì)現(xiàn)有開(kāi)源數(shù)據(jù)進(jìn)行領(lǐng)域分析確保合理類型分布,對(duì)大規(guī)模數(shù)據(jù)進(jìn)行質(zhì)量篩選保留高價(jià)值數(shù)據(jù),針對(duì)開(kāi)源數(shù)據(jù)缺乏的領(lǐng)域和任務(wù),進(jìn)行數(shù)據(jù)增廣,并結(jié)合人工標(biāo)注對(duì)數(shù)據(jù)質(zhì)量進(jìn)行控制,避免合成數(shù)據(jù)分布偏差。本次大會(huì)開(kāi)源首批300萬(wàn)條經(jīng)過(guò)模型驗(yàn)證的高質(zhì)量中英文指令數(shù)據(jù)InfInstruct-3M,并將在未來(lái)一個(gè)月內(nèi)完成 InfinityInstruct 千萬(wàn)條指令數(shù)據(jù)的全部驗(yàn)證和開(kāi)源。為了驗(yàn)證InfInstruct-3M的質(zhì)量,我們?cè)贛istral-7B上面進(jìn)行微調(diào)訓(xùn)練得到對(duì)話模型InfInstruct-3M-Mistral-7B。在ApacheEval的評(píng)測(cè)中,該模型明顯優(yōu)于其它同量級(jí)的對(duì)話模型(見(jiàn)圖5)。這意味著,用戶可以使用InfInstruct數(shù)據(jù)集,再加以自有應(yīng)用數(shù)據(jù),對(duì)基礎(chǔ)模型進(jìn)行微調(diào),輕松獲得專有的高質(zhì)量中英雙語(yǔ)對(duì)話模型。
圖5 使用ApacheEval評(píng)測(cè)對(duì)比多個(gè)對(duì)話模型的能力
3、構(gòu)建通用數(shù)據(jù)集和行業(yè)數(shù)據(jù)集兩大專區(qū),滿足用戶不同需求
今年以來(lái),智源匯聚了海量可直接用于算法訓(xùn)練的通用數(shù)據(jù)集和行業(yè)數(shù)據(jù)集。本次論壇上,智源發(fā)布通用數(shù)據(jù)集和行業(yè)數(shù)據(jù)集兩大專區(qū)。
通用數(shù)據(jù)集為用于通用基礎(chǔ)模型訓(xùn)練的多種模態(tài)數(shù)據(jù)。當(dāng)前已經(jīng)匯聚在數(shù)據(jù)運(yùn)營(yíng)平臺(tái)的通用數(shù)據(jù)集有116個(gè),總數(shù)據(jù)量700.27TB,其中文本數(shù)據(jù)9.76TB,多模態(tài)圖文數(shù)據(jù)量75.31TB,視頻數(shù)據(jù)量615TB,音頻數(shù)據(jù)0.2TB。
行業(yè)數(shù)據(jù)集包含了行業(yè)領(lǐng)域特有的知識(shí)和信息,用于訓(xùn)練各種行業(yè)模型,推動(dòng)人工智能從通用向?qū)I(yè)化、精細(xì)化持續(xù)發(fā)展。目前行業(yè)專區(qū)數(shù)據(jù)集28個(gè),數(shù)據(jù)量4.33TB,其中文本數(shù)據(jù)集22個(gè),數(shù)據(jù)量4.3TB,多模態(tài)圖文行業(yè)數(shù)據(jù)集6個(gè),數(shù)據(jù)量0.03TB。
4、全面升級(jí)數(shù)據(jù)處理工具FlagData3.0,助力數(shù)據(jù)高質(zhì)量發(fā)展
數(shù)據(jù)質(zhì)量直接決定了大模型的輸出能力,使用數(shù)據(jù)處理工具不斷提升數(shù)據(jù)質(zhì)量變得日益重要。智源研究院長(zhǎng)期投入數(shù)據(jù)建設(shè)工作,開(kāi)發(fā)了一批數(shù)據(jù)處理的高效工具。FlagData數(shù)據(jù)工具·開(kāi)源項(xiàng)目包含清洗、標(biāo)注、壓縮、統(tǒng)計(jì)分析等功能在內(nèi)的多個(gè)數(shù)據(jù)處理工具與算法,為提升數(shù)據(jù)質(zhì)量帶來(lái)直接的便利。
本次論壇上,F(xiàn)lagaData2.0全面升級(jí)為FlagData 3.0,一方面提供了傻瓜式語(yǔ)言數(shù)據(jù)處理工具,支持一鍵式搭建數(shù)據(jù)處理工作流。另一方面,為專業(yè)的進(jìn)階用戶提供數(shù)十種數(shù)據(jù)加工算子,支持自定義數(shù)據(jù)處理流程。
三、“行業(yè)數(shù)據(jù)集—場(chǎng)景應(yīng)用創(chuàng)新計(jì)劃”啟動(dòng),加速千行百業(yè)大模型落地
為推動(dòng)人工智能在各行業(yè)深入應(yīng)用、為大模型行業(yè)落地提供數(shù)據(jù)支撐,本次論壇上,智源研究院和中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)、中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)人工智能工作委員會(huì)聯(lián)合發(fā)布“行業(yè)數(shù)據(jù)集—場(chǎng)景應(yīng)用創(chuàng)新計(jì)劃”。向全國(guó)企業(yè)征集場(chǎng)景應(yīng)用模型需求,定向提供高質(zhì)量行業(yè)數(shù)據(jù)集,助力一批場(chǎng)景應(yīng)用模型的創(chuàng)新。最后,將依據(jù)模型應(yīng)用成果組織評(píng)選優(yōu)秀案例。
同時(shí),該計(jì)劃還將開(kāi)展“行業(yè)數(shù)據(jù)愿望清單”征集項(xiàng)目,旨在調(diào)研和收集更多的人工智能行業(yè)數(shù)據(jù)集需求,以推動(dòng)打造更多高需求的數(shù)據(jù)集,通過(guò)北京人工智能數(shù)據(jù)運(yùn)營(yíng)平臺(tái)向社會(huì)提供。