圖1 知識(shí)圖譜示例

通用知識(shí)圖譜or行業(yè)知識(shí)圖譜?

按照知識(shí)圖譜的用途,知識(shí)圖譜可分為通用知識(shí)圖譜和行業(yè)知識(shí)圖譜。通用知識(shí)圖譜側(cè)重構(gòu)建常識(shí)性的知識(shí),并用于搜索引擎和推薦系統(tǒng)等。行業(yè)知識(shí)圖譜(也可稱企業(yè)知識(shí)圖譜)主要面向企業(yè)業(yè)務(wù),通過(guò)構(gòu)建不同行業(yè)、企業(yè)的知識(shí)圖譜,對(duì)企業(yè)內(nèi)部提供知識(shí)化服務(wù)。華為云知識(shí)圖譜服務(wù)可用于以上兩類知識(shí)圖譜的構(gòu)建、管理和服務(wù),更側(cè)重面向企業(yè)知識(shí)圖譜。

二、如何構(gòu)建知識(shí)圖譜?

知識(shí)圖譜構(gòu)建主要分為自頂向下(top-down)與自底向上(bottom-up)兩種構(gòu)建方式。自頂向下構(gòu)建方式需要先定義好本體(Ontology或稱為Schema),再基于輸入數(shù)據(jù)完成信息抽取到圖譜構(gòu)建的過(guò)程。該方法更適用于專業(yè)知識(shí)方面圖譜的構(gòu)建,比如企業(yè)知識(shí)圖譜,面向領(lǐng)域?qū)I(yè)用戶使用。自底向上構(gòu)建方式則是從開放的Open Linked Data中抽取置信度高的知識(shí),或從非結(jié)構(gòu)化文本中抽取知識(shí),完成知識(shí)圖譜的構(gòu)建。該方式更適用于常識(shí)性的知識(shí),比如人名、機(jī)構(gòu)名等通用知識(shí)圖譜的構(gòu)建。本文側(cè)重介紹自頂向下構(gòu)建方式的相關(guān)流程和技術(shù),并用于構(gòu)建企業(yè)知識(shí)圖譜。

目前業(yè)界暫無(wú)知識(shí)圖譜云服務(wù),也沒(méi)有統(tǒng)一標(biāo)準(zhǔn)的自頂向下構(gòu)建流程。當(dāng)前業(yè)界主流的知識(shí)圖譜構(gòu)建方式是基于企業(yè)內(nèi)部數(shù)據(jù)、公開數(shù)據(jù),圖譜服務(wù)商以解決方案形式幫助客戶定制構(gòu)建知識(shí)圖譜。這樣的方式無(wú)疑成本非常高并且效率很低,通常需要很長(zhǎng)的周期才能完成。同時(shí),企業(yè)沒(méi)有參與感,圖譜構(gòu)建也可能存在很大偏差,難以用于實(shí)際業(yè)務(wù)中。

站在用戶角度,華為云通過(guò)抽象知識(shí)圖譜構(gòu)建流程及相關(guān)技術(shù),推出華為云知識(shí)圖譜云服務(wù)(圖2),為不同行業(yè)、不同企業(yè)提供快速構(gòu)建知識(shí)圖譜能力的平臺(tái),賦能大中小型企業(yè)構(gòu)建屬于自己的知識(shí)圖譜。

圖2 華為云知識(shí)圖譜云服務(wù)

華為云知識(shí)圖譜云服務(wù)提供流水線式圖譜構(gòu)建能力,將圖譜構(gòu)建抽象為如下基本流程:本體構(gòu)建、數(shù)據(jù)源配置、信息抽取、知識(shí)映射以及知識(shí)融合。

圖3 知識(shí)圖譜構(gòu)建基本流程

進(jìn)一步通過(guò)將每一個(gè)流程模塊抽象成插件形式,并通過(guò)組合配置生成圖譜構(gòu)建任務(wù)。面向不同的行業(yè)和領(lǐng)域,只需要修改插件配置即可完成企業(yè)知識(shí)圖譜的構(gòu)建。同時(shí),基于流水線設(shè)計(jì),知識(shí)圖譜云服務(wù)可以在只修改數(shù)據(jù)源的前提下完成知識(shí)圖譜的更新操作,非常適用于需要頻繁更新的知識(shí)圖譜。

2.1如何構(gòu)建知識(shí)圖譜的本體?

知識(shí)圖譜構(gòu)建的第一步需要完成圖譜本體(Ontology)的設(shè)計(jì)和構(gòu)建。本體是圖譜的模型,是對(duì)構(gòu)成圖譜的數(shù)據(jù)的一種模式約束。對(duì)于企業(yè)知識(shí)圖譜的構(gòu)建,一般是由垂直領(lǐng)域的行業(yè)專家和知識(shí)圖譜專家合作完成。

本體的構(gòu)建和設(shè)計(jì)對(duì)于知識(shí)圖譜的構(gòu)建至關(guān)重要??梢酝ㄟ^(guò)梳理領(lǐng)域知識(shí)、術(shù)語(yǔ)詞典、專家的人工經(jīng)驗(yàn)等作為本體構(gòu)建的基礎(chǔ),結(jié)合知識(shí)圖譜的應(yīng)用場(chǎng)景來(lái)完善圖譜的構(gòu)建,最終獲得實(shí)體類別、類別之間的關(guān)系、實(shí)體包含的屬性定義。華為云知識(shí)圖譜云服務(wù)提供圖形化本體設(shè)計(jì)工具,可以通過(guò)拖拽編輯靈活完成企業(yè)知識(shí)圖譜本體的構(gòu)建。

圖4 華為云知識(shí)圖譜云服務(wù)-本體設(shè)計(jì)界面

2.2如何配置數(shù)據(jù)源?需要做哪些準(zhǔn)備

在配置數(shù)據(jù)源之前,需要將不同類型、不同格式的數(shù)據(jù)進(jìn)行初步的整理。比如:針對(duì)本地非電子化文檔,需要先進(jìn)行掃描電子化,結(jié)合OCR等技術(shù)將掃描件轉(zhuǎn)換成文本文檔。再比如:針對(duì)本地電子化文檔,需要將本地文檔按文檔類型、格式進(jìn)行歸檔解析整理成規(guī)范的格式,或者針對(duì)網(wǎng)絡(luò)資源,需要根據(jù)網(wǎng)站特點(diǎn),開發(fā)相應(yīng)的爬蟲,對(duì)數(shù)據(jù)進(jìn)行爬取,并存儲(chǔ)到本地?cái)?shù)據(jù)庫(kù)等等。還有一些第三方資源,需要獲取相應(yīng)的數(shù)據(jù)訪問(wèn)接口,并通過(guò)接口獲取相應(yīng)數(shù)據(jù)。

整理好的數(shù)據(jù)上傳到華為云OBS對(duì)象存儲(chǔ)服務(wù)后,知識(shí)圖譜云服務(wù)就可以進(jìn)行數(shù)據(jù)源的配置,包括指定格式的針對(duì)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化文本的配置等。

2.3什么是信息抽取?怎樣抽取?

信息抽取的目的是根據(jù)不同的數(shù)據(jù)源、不同的數(shù)據(jù)格式,完成實(shí)體、屬性、關(guān)系這種知識(shí)的抽取。這是知識(shí)圖譜構(gòu)建流程中非常關(guān)鍵的一環(huán),信息抽取的質(zhì)量決定了知識(shí)圖譜的質(zhì)量。實(shí)體之間的關(guān)系以及實(shí)體的屬性值,都可以用三元組(主語(yǔ)、謂詞、賓語(yǔ))來(lái)表示,所以信息抽取又可以簡(jiǎn)單叫做三元組抽取。華為云知識(shí)圖譜云服務(wù)支持結(jié)構(gòu)化Key-Value格式和非結(jié)構(gòu)化文本的三元組抽取。針對(duì)結(jié)構(gòu)化數(shù)據(jù),可以通過(guò)配置預(yù)置函數(shù)的組合,完成字段的處理。與之對(duì)應(yīng)的,針對(duì)非結(jié)構(gòu)化文本,云服務(wù)提供算法模型抽取能力,支持業(yè)界前沿的基于機(jī)器閱讀理解(Machine Reading Comprehension,MRC)的三元組抽取方法,通過(guò)使用多輪對(duì)話的思想進(jìn)行三元組抽取,先抽取主語(yǔ)(Subject),然后根據(jù)抽取結(jié)果和候選謂詞對(duì)應(yīng)的模板構(gòu)造問(wèn)句抽取賓語(yǔ)(Object),最終組成(主語(yǔ),謂詞,賓語(yǔ))三元組。該框架模型效果可以達(dá)到當(dāng)前業(yè)界最好水平(state-of-the-art)。華為云知識(shí)圖譜服務(wù)支持基于該算法的模型訓(xùn)練、預(yù)測(cè)以及管理功能,同時(shí)以插件形式完成流水線中信息抽取部分。

圖5 基于機(jī)器閱讀理解(MRC)的三元組抽取方法

信息抽取中模型訓(xùn)練推理功能是基于華為云一站式AI開發(fā)管理平臺(tái)ModelArts完成的,該平臺(tái)提供高效的AI計(jì)算、模型訓(xùn)練、推理及部署能力,同時(shí)為了方便訓(xùn)練三元組抽取模型,額外提供三元組標(biāo)注工具,用戶可以基于該工具快速獲得訓(xùn)練數(shù)據(jù),完成信息抽取以及知識(shí)圖譜構(gòu)建工作。

圖6 三元組標(biāo)注工具示例

2.4知識(shí)融合是如何完成的?

所謂知識(shí)融合,就是對(duì)多個(gè)數(shù)據(jù)源進(jìn)行知識(shí)抽取后的大量三元組數(shù)據(jù)進(jìn)行對(duì)齊合并。舉個(gè)例子:百度百科有明星劉德華,互動(dòng)百科有明星劉德華,我們構(gòu)建的知識(shí)圖譜不能有兩個(gè)明星劉德華吧?這時(shí)候就需要把他們識(shí)別出來(lái)放在一起,然后合并成一個(gè)實(shí)體,這就是實(shí)體的對(duì)齊以及知識(shí)的融合。這其中關(guān)鍵的問(wèn)題是怎樣高效的完成實(shí)體對(duì)齊,技術(shù)路線基本可以分為兩類:基于實(shí)體屬性相似度的框架、基于聯(lián)合表征的深度學(xué)習(xí)框架。考慮到基于聯(lián)合表征的深度學(xué)習(xí)框架依賴大量標(biāo)注數(shù)據(jù),并且模型與行業(yè)及數(shù)據(jù)強(qiáng)相關(guān),無(wú)法提供很好的通用化能力,因此,華為云知識(shí)圖譜服務(wù)當(dāng)前支持基于實(shí)體屬性相似度的框架,可以通過(guò)定義相似度度量及組合,完成實(shí)體對(duì)齊以及知識(shí)融合。

除此之外,華為云知識(shí)圖譜云服務(wù)還提供圖譜可視化服務(wù),可以直觀地觀察分析實(shí)體及關(guān)系。

圖7 病毒蛋白知識(shí)圖譜可視化示例

三、知識(shí)圖譜需要怎樣的存儲(chǔ)方式?

經(jīng)過(guò)知識(shí)圖譜構(gòu)建,我們現(xiàn)在已經(jīng)有了大量的三元組知識(shí)。那么要怎樣來(lái)存儲(chǔ)這些三元組知識(shí)呢?

最直接的方式是使用表格式的存儲(chǔ)方式,如關(guān)系型數(shù)據(jù)表,三元組以三列數(shù)據(jù)或多列數(shù)據(jù)的形式存儲(chǔ)。這種方法在圖譜規(guī)模比較小的時(shí)候是可行的,但是如果圖譜規(guī)模變大了,是否依然可行呢?舉個(gè)例子,假使我們有了娛樂(lè)明星+電影這樣一個(gè)娛樂(lè)圖譜,其中包括了大量的明星人物、電影以及他們之間的關(guān)系。如果想查詢“劉德華和梁朝偉共同演過(guò)的電影中,年齡最大的導(dǎo)演是誰(shuí)?“,就需要對(duì)關(guān)系型數(shù)據(jù)庫(kù)中知識(shí)圖譜結(jié)果表做2-3次自連接操作,如果三元組的數(shù)量是千萬(wàn)、億、十億規(guī)模的話,顯而易見,這樣的查詢效率極低,基本不可行。

華為云知識(shí)圖譜服務(wù)采用的是業(yè)界主流的圖數(shù)據(jù)庫(kù)方式存儲(chǔ)知識(shí)圖譜,直接把數(shù)據(jù)或知識(shí)圖譜以圖的形式存儲(chǔ),可以非常高效地完成多跳關(guān)系、屬性的查詢。具體的,我們使用華為云圖引擎服務(wù),包括圖存儲(chǔ)、圖計(jì)算一體的架構(gòu)設(shè)計(jì),不僅可以提供高效的查詢性能,同時(shí)也可以提供多種預(yù)置的圖深度學(xué)習(xí)算法,使用起來(lái)非常方便,歡迎大家前來(lái)試用。

圖8 華為云圖引擎服務(wù)產(chǎn)品優(yōu)勢(shì)

四、華為云知識(shí)計(jì)算案例介紹

中國(guó)石油基于華為云知識(shí)計(jì)算服務(wù)的知識(shí)建模、油氣圖譜構(gòu)建、圖譜存儲(chǔ)、自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等能力構(gòu)建了業(yè)界首個(gè)油氣知識(shí)計(jì)算平臺(tái)。以油氣勘探開發(fā)數(shù)據(jù)為基礎(chǔ),通過(guò)知識(shí)計(jì)算技術(shù)的應(yīng)用,為油氣勘探開發(fā)增儲(chǔ)上產(chǎn)、降本增效提供智能輔助和決策。

圖9 油氣知識(shí)計(jì)算的價(jià)值和意義

華為知識(shí)計(jì)算解決方案提供豐富的知識(shí)應(yīng)用,從解決企業(yè)痛點(diǎn)、提升企業(yè)效率、提供知識(shí)化服務(wù)的角度全面賦能企業(yè),體現(xiàn)了知識(shí)計(jì)算在各行業(yè)中的智能化價(jià)值,讓各行業(yè)的企業(yè)可以快速、低成本、高效率地管理,通過(guò)應(yīng)用企業(yè)知識(shí)、實(shí)現(xiàn)知識(shí)化轉(zhuǎn)型,釋放知識(shí)化帶來(lái)的紅利,全面提升企業(yè)在智能化時(shí)代的競(jìng)爭(zhēng)力。

想要get知識(shí)圖譜全流程能力?更多精彩干貨請(qǐng)收看3月13日的DevRun Live直播!

DevRun Live是華為開發(fā)者大會(huì)2020(Cloud)旗下的線上開發(fā)者沙龍活動(dòng),以直播的形式分享前沿科技和應(yīng)用實(shí)踐,開發(fā)者可以了解技術(shù)趨勢(shì)、學(xué)習(xí)最新實(shí)踐應(yīng)用、獲取最新開發(fā)工具。

分享到

xiesc

相關(guān)推薦