本次競賽共設立五個任務,包括機器閱讀理解、面向推薦的對話、語義解析、關系抽取和事件抽取,涉及到語言理解、人機對話、知識抽取等復雜技術,這些任務的研究對于智能搜索、智能推薦、智能交互等人工智能應用具有重要意義,是自然語言處理和人工智能領域的重要前沿課題。本次競賽的五個任務都將提供百度大規(guī)模中文數據集,為研究者提供學術交流平臺,推動語言理解和人工智能領域技術研究和應用的發(fā)展。
三大經典任務全面升級 覆蓋更多真實應用場景
本次競賽中,機器閱讀理解、面向推薦的對話、關系抽取三大經典任務在2019年的基礎上,做了全面升級。
機器閱讀理解是指讓機器閱讀文本然后回答和閱讀內容相關的問題。與2019年相比,今年的閱讀理解任務,將重點關注閱讀理解模型在真實應用場景中的魯棒性。因此,在本次競賽中特別構建了DuReader_robust數據集,用于考察模型在多個維度上的魯棒性,包括模型的過敏感性、過穩(wěn)定性以及泛化能力。數據集中的樣本均來自于實際的應用場景,難度大,考察點豐富,覆蓋了真實應用中諸多難以解決的問題。
面向推薦的對話則是指集成對話系統(tǒng)和推薦系統(tǒng)的人機交互系統(tǒng),該系統(tǒng)先通過問答或閑聊等形式收集用戶興趣和偏好,然后主動給用戶推薦其感興趣的內容。真實世界的人機交互會同時涉及到多種類型的對話,如何自然的融合多類型對話是一個重要的挑戰(zhàn)。為了應對這個挑戰(zhàn),本次競賽將提出一個新的任務—多類型對話中的面向推薦的對話,期望系統(tǒng)能夠主動且自然地將對話從非推薦對話引導到推薦對話,然后基于收集到的用戶興趣及用戶實時反饋,通過多次交互完成最終的推薦目標。同時,任務還將提供多種對話類型、多個領域、融合用戶profile信息的對話邏輯數據集,貼近真實的應用場景。
關系抽取是指從自然語言文本中抽取實體及其之間的關系。本次競賽在去年信息抽取任務的基礎上進行了兩處升級,一是在簡單SPO關系的基礎上增加了復雜關系類型,用以刻畫現實世界中廣泛存在的復雜關系;二是引入百度貼吧口語化表達語料,其文本語義自由度更高,更貼近日??谡Z表達習慣,使關系抽取評測任務具有更大的挑戰(zhàn)性和實戰(zhàn)應用價值。
新增兩大熱門任務 為參賽者帶來全新挑戰(zhàn)
與往年競賽不同,除沿襲機器閱讀理解、面向推薦的對話、關系抽取三大任務外,還特別新增了語義解析與事件抽取兩大熱門任務。
語義解析任務旨在讓機器能自動將用戶輸入的自然語言問題轉成可與數據庫操作的編程語言(如SQL),以降低結構化數據使用的門檻和成本,同時提升結構化數據使用的價值和效率。當前的中文Text-to-SQL數據集的數據庫基本都是由單表構成的,問題模式比較簡單,僅覆蓋實際應用中存在的部分問題。本次競賽將首次發(fā)布DuSQL數據集,包含164個領域的200個數據庫,覆蓋了匹配、計算、推理等實際應用中常見的問題形式,每個問題關聯一個數據庫中一或多張表格。該數據集更貼近真實應用場景,對模型解決領域無關性、問題無關性、計算推理問題的能力提出了更高的挑戰(zhàn)。
事件抽取一直受到學術界和工業(yè)界的廣泛關注,具有重要的實用價值,也極具挑戰(zhàn)。此次競賽中,該任務目標是通過給定目標事件類型和角色類型集合及句子,識別句子中所有目標事件類型的事件,并根據論元角色集合抽取事件所對應的論元。針對事件抽取任務,百度將對外發(fā)布當前業(yè)界最大規(guī)模的中文事件抽取數據集,其中包含65個事件類型和1.7萬個具有事件信息的句子。希望通過此次競賽及開放的大規(guī)模中文數據集,助力事件抽取技術的進一步發(fā)展。
百度飛槳火力全開為參賽選手提供全面支持
作為本次競賽的承辦方,百度還將為參賽選手提供全面的技術資源及平臺支持。本次比賽中,百度將為5大競賽任務均提供基于飛槳PaddlePaddle基線系統(tǒng),助力選手快速上手。作為開源開放、功能完備的產業(yè)級深度學習平臺,飛槳具備開發(fā)便捷的核心框架、支持超大規(guī)模深度學習模型訓練、多端多平臺部署的高性能推理引擎和產業(yè)級開源模型庫等領先技術,鼓勵大家使用飛槳完成模型的設計、訓練和預測。
不僅如此,百度AI Studio也將為本次比賽提供軟硬件環(huán)境的支持。AI Studio是基于飛槳平臺的一站式AI開發(fā)實訓平臺,為參賽團隊提供在線編程環(huán)境、Tesla V100 免費GPU算力、海量開源算法和數據。登錄即送算力,每天登錄AI Studio并運行Notebook即可獲得12小時算力,連續(xù)登錄5天額外領取48小時算力。AI Studio宣布將為報名參加2020語言與智能技術比賽的參賽團隊額外提供免費GPU算力時長,徹底破除算力桎梏,助力選手取得優(yōu)異成績。
據了解,2020語言與智能技術競賽將在2020年3月10日正式啟動競賽報名,并開放競賽平臺,發(fā)放樣例數據,并于3月31日對報名者發(fā)放全部訓練數據和第一批測試數據。競賽的每個任務都將分別評出一等獎1名,二等獎1名,三等獎1名和優(yōu)勝獎2名,主辦方中國中文信息學會(CIPS)和中國計算機學會(CCF)將為獲獎者提供榮譽證書認證。同時,百度公司將為獲獎者提供獎金和參會旅行贊助。更多競賽信息及報名入口,可搜索2020語言與智能技術競賽官網(http://lic2020.cipsc.org.cn)進入各任務詳情頁查看詳細內容及報名比賽。