除了服務(wù)國(guó)家級(jí)的圖書館、檔案館,漢王科技的數(shù)據(jù)化業(yè)務(wù)也在銀行、醫(yī)院、法院等行業(yè)廣泛鋪陳,幫助相關(guān)部門將紙質(zhì)單據(jù)的信息轉(zhuǎn)化為電子文檔。也就是在這些具體項(xiàng)目的實(shí)施中,漢王開(kāi)始意識(shí)到“文檔電子化”只是完成了知識(shí)、信息應(yīng)用的一部分,形成的電子文本是非結(jié)構(gòu)化數(shù)據(jù)。

漢王科技高級(jí)副總裁李志峰介紹:將紙質(zhì)文檔變成電子化文檔,只是漢王步入文檔大數(shù)據(jù)的入口。如果把文檔大數(shù)據(jù)應(yīng)用比作摩天大樓,文檔電子化只是其高聳入云的扎實(shí)地基,通過(guò)掃描將紙質(zhì)文檔變成圖像,再通過(guò)OCR技術(shù)將圖像變成數(shù)字化文本,但這樣的電子文檔知識(shí)之間缺乏關(guān)聯(lián),被電腦檢索也只是對(duì)比相同字符搜集信息,對(duì)語(yǔ)義沒(méi)有理解,還是需要閱讀者進(jìn)行人工甄別,根據(jù)自己的需求找尋所需信息。要將海量的電子文檔“智慧化”,就必須將文字信息形成結(jié)構(gòu)化數(shù)據(jù),只有形成結(jié)構(gòu)化數(shù)據(jù),信息和知識(shí)之間形成關(guān)聯(lián),才能為大數(shù)據(jù)應(yīng)用服務(wù)。

將文檔的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,轉(zhuǎn)化為技術(shù)術(shù)語(yǔ),就要用到“自然語(yǔ)言理解”技術(shù),俗稱“人機(jī)對(duì)話”,這是未來(lái)計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。可以暢想,未來(lái)你想了解某類知識(shí)點(diǎn),通過(guò)對(duì)已結(jié)構(gòu)化的信息數(shù)據(jù)進(jìn)行檢索,查找瞬間,涉及到該類知識(shí)點(diǎn)的書籍便會(huì)全部呈現(xiàn)眼簾,相關(guān)內(nèi)容也會(huì)被抽撿萃取。這種將文檔“知識(shí)化”的自然語(yǔ)言處理技術(shù),在閱讀者眼前展現(xiàn)的不僅僅是一本一本的書,而是與之相關(guān)的知識(shí)浩渺的書庫(kù)和智能化的知識(shí)分揀工具。

布局:攻堅(jiān)人工智能難中之難-中文自然語(yǔ)言處理

為此,漢王科技融合武漢大學(xué)的研發(fā)團(tuán)隊(duì)聯(lián)合成立了武漢漢王數(shù)據(jù)技術(shù)有限公司,專門研究及開(kāi)發(fā)“自然語(yǔ)言理解”課題方面的技術(shù)及產(chǎn)品。

自然語(yǔ)言處理(NLP,NaturalLanguageProcessing)是研究人與計(jì)算機(jī)交互的語(yǔ)言問(wèn)題。從語(yǔ)言識(shí)別,到語(yǔ)義識(shí)別,從而真正做到可以交互。業(yè)界普遍認(rèn)為,自然語(yǔ)言處理是人工智能中最難的部分,也是決定AI是否“智能”的關(guān)鍵因素。

目前在這一領(lǐng)域從事相關(guān)技術(shù)研發(fā)工作的主角為國(guó)際巨頭谷歌。目前谷歌正在開(kāi)發(fā)一套神經(jīng)網(wǎng)絡(luò),開(kāi)發(fā)代號(hào)是神經(jīng)官能癥(neurosis),而這套智慧網(wǎng)絡(luò)的核心就是讓機(jī)器具有強(qiáng)大的學(xué)習(xí)能力,理解人類幾千年積累下來(lái)的自然語(yǔ)言信息,幫助人類隨時(shí)調(diào)用和理解這些信息,進(jìn)行快速學(xué)習(xí),以適應(yīng)知識(shí)大爆炸的時(shí)代來(lái)臨。

而對(duì)于博大精深的中文,是以“字”為單位,一個(gè)中文文本或一個(gè)漢字(含標(biāo)點(diǎn)符號(hào)等)串可能有多個(gè)含義,相對(duì)于天然分詞的英文,中文處理的難度有所提高,是自然語(yǔ)言理解中的主要困難和障礙。漢王利用其中文文字識(shí)別技術(shù)優(yōu)勢(shì),布局自然語(yǔ)言理解技術(shù)研發(fā)與突破,在未來(lái)將幫助更多的相關(guān)工作者或機(jī)構(gòu)將平面的書本變成立體化的知識(shí)書庫(kù)。

從大的技術(shù)發(fā)展來(lái)看,現(xiàn)在無(wú)論是IT技術(shù)業(yè)、互聯(lián)網(wǎng)業(yè),“自然語(yǔ)言理解”都是最尖端的研究方向。武漢漢王數(shù)據(jù)的“自然語(yǔ)言理解工具化”發(fā)展方向,已經(jīng)成為最尖端的IT技術(shù)研究工作。

展望:基于NLP的文檔大數(shù)據(jù),讓AI真正“智能”

2016年,漢王科技不僅成立了武漢漢王數(shù)據(jù)技術(shù)有限公司,還成功收購(gòu)了北京影研創(chuàng)新科技發(fā)展有限公司,影研科技業(yè)務(wù)范圍涵蓋文檔信息化應(yīng)用及內(nèi)容管理解決方案,目前在醫(yī)療和法院市場(chǎng)具有競(jìng)爭(zhēng)優(yōu)勢(shì),將技術(shù)、資金注入影研科技,顯而易見(jiàn),漢王完成了醫(yī)療和法院文檔大數(shù)據(jù)市場(chǎng)的進(jìn)入。

隨著漢王數(shù)字、武漢漢王數(shù)據(jù)、影研科技的發(fā)展,漢王科技在文檔數(shù)據(jù)化領(lǐng)域的布局將進(jìn)一步延伸,通過(guò)承擔(dān)國(guó)家級(jí)、各行業(yè)項(xiàng)目,漢王進(jìn)行文檔“大數(shù)據(jù)化”研發(fā)工作,并同步建立起自己的文檔大數(shù)據(jù)庫(kù),而未來(lái)要做的,則是在大數(shù)據(jù)基礎(chǔ)上開(kāi)發(fā)各種新的應(yīng)用,以探索文檔數(shù)據(jù)化更廣闊的應(yīng)用前景。

這種通過(guò)自然語(yǔ)言處理(NLP)而“結(jié)構(gòu)化的文檔大數(shù)據(jù)”會(huì)給整個(gè)社會(huì)帶來(lái)從生活到思維上革命性的變化:未來(lái),法院法律文檔大數(shù)據(jù)平臺(tái)可以為律師等法律工作者提供海量的同類案例參考,使其能更方便地借鑒歷史判案情況,也可以幫助普通人查閱理解自己在生活中遇到的各種相關(guān)法律問(wèn)題;而挖掘健康領(lǐng)域數(shù)字化文檔資源價(jià)值,也將對(duì)醫(yī)療市場(chǎng)產(chǎn)生顛覆性的影響,未來(lái),醫(yī)學(xué)界人士可透過(guò)院內(nèi)、院際的互通數(shù)據(jù),輔以病患本身的健康信息與過(guò)往病歷,迅速做出較以往精確許多的診斷,加速推動(dòng)包括疾病診斷與預(yù)測(cè)、臨床實(shí)驗(yàn)數(shù)據(jù)的分析與處理等諸多應(yīng)用。

全球知名咨詢公司麥肯錫稱:“數(shù)據(jù)已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)?!碑?dāng)全社會(huì)聚焦互聯(lián)網(wǎng)外賣市場(chǎng)通過(guò)大數(shù)據(jù)重組餐飲市場(chǎng)的今天,漢王科技的商業(yè)價(jià)值是否也值得我們更加理性地去探尋?

分享到

songjy

相關(guān)推薦