(騰訊AI Lab:AI技術在游戲產(chǎn)業(yè)全鏈路中的研究與應用能力)

絕悟AI玩家教學,提升人機協(xié)作能力

“絕悟”是騰訊Al Lab研發(fā)的決策智能Al,已在MOBA、FPS、RTS、3D開放世界等多類復雜策略游戲中取得了國際頂尖的研究成果?;诓粩嗵嵘膹碗s長期決策和團隊協(xié)作能力,絕悟也已應用于多款游戲,賦能游戲制作與運營環(huán)節(jié)。

和王者榮耀共同研發(fā)的王者絕悟已表現(xiàn)出媲美人類頂尖職業(yè)選手的決策能力。如王者絕悟能把一身本領傳授玩家,將能幫助玩家快速提升競技水平。這需要AI具備形式豐富的信息交流與協(xié)作能力。但此前競技型的王者絕悟是基于智能體間的建模訓練而成,這種建模方式導致AI難以理解人類玩家意圖,因此無法實現(xiàn)對玩家的交流指導。

人機協(xié)作技術解決了這一問題,成功讓王者絕悟實現(xiàn)AI教學。在游戲內“絕悟試煉”玩法中,王者絕悟身兼隊友及老師,與玩家在真實對戰(zhàn)環(huán)境中交流協(xié)作,并在過程中向玩家傳授職業(yè)級的策略與操作技術,幫助玩家迅速熟悉英雄操作與游戲玩法。數(shù)據(jù)顯示,在引入王者絕悟AI教學后,玩家單局游戲主動溝通的次數(shù)提高了56%,提高了PVE玩法的可玩性。

具體到技術方案,人機協(xié)作要應對AI與玩家之間理解、溝通、協(xié)作三個層面的挑戰(zhàn):

?王者絕悟通過自對弈探索策略,與玩家“師出不同門”,兩者在策略和行為上存在差異,如何讓AI理解玩家意圖?

?玩家與玩家之間通過語音文字等交流,但AI描述信息的方式與人類截然不同,如何讓雙方有效溝通?

?當玩家和AI的策略不同時,如何合理地進行協(xié)作?

為了解決這些問題,我們使用了之前提出的MGG算法(Learning Diverse Policies in MOBA Games via Macro-Goals,Neurips 2021收錄)來搭建仿真的人機協(xié)作環(huán)境。MGG使用分層建模的思想,將任務分解為宏觀策略建模和微觀操作建模。其中,宏觀策略模型負責戰(zhàn)略層面的長期規(guī)劃,微觀操作模型則在宏觀策略下的指導下進行實時決策。然后,我們通過構建基于專家知識的宏觀策略模型,來引導AI學習玩家的策略,并讓AI在自對弈訓練中與不同策略的隊友進行組隊,從而能更好地理解玩家的意圖。

image.png

實現(xiàn)人機“同頻”之后,接下來是溝通和協(xié)作的問題。首先我們用基于專家策略的AI模型模擬玩家,再使用各種不同策略的AI模型分別模擬對手和隊友,從而搭建起一個高度仿真的人機協(xié)作的環(huán)境。然后,我們在宏觀策略層面建模了信息交流,通過構建通用的通信協(xié)議“元指令”來描述戰(zhàn)略意圖,實現(xiàn)AI與玩家的交流。

image.png

同時,我們還訓練了一個指令選擇器,利用長期獎勵和自對弈來評估“元指令”的價值,從而完成合理的協(xié)作。王者絕悟在人機教學中主要有兩種協(xié)作模式,一種是被動式協(xié)作,即玩家發(fā)送指令給AI隊友,AI隊友使用指令選擇器評估價值,執(zhí)行其中有價值的指令并向玩家反饋。另一種是主動式協(xié)作,AI隊友用職業(yè)級的宏觀策略作為元指令發(fā)送給玩家,指導玩家去哪里、做什么。

image.png

來看看人機協(xié)作的實戰(zhàn)效果。在玩家發(fā)出各種指令后,AI會根據(jù)血量、距離等實際情況,評估指令的合理性,選擇執(zhí)行或拒絕。同時,AI還能執(zhí)行一系列的多指令任務(如集合 -搶奪資源 -撤退),完成更復雜的協(xié)作。

image.png

隨著人工智能技術的發(fā)展,人機協(xié)作將成為未來重要模式,“理解-溝通-協(xié)作”是實現(xiàn)這一目標的通用問題。王者絕悟在王者榮耀人機教學場景下的應用探索,不僅適用于大多數(shù)MOBA游戲,為玩家?guī)韮r值,也是對未來更多現(xiàn)實場景中人機協(xié)作方向的有利探索。

AI自動生成游戲關卡,推進虛實融合未來

游戲內容通常包括角色、地圖、建筑、關卡、世界等,而游戲內容的制作成本很高,一般來說,一款大型游戲需要數(shù)百人花費幾年時間開發(fā)。程序化內容生成(Procedural Content Generation,PCG)近年來成為游戲行業(yè)的一大熱點,即通過程序算法自動生成游戲內容,提高制作效率。

由于消耗速度遠快于生產(chǎn),程序化生成游戲關卡的需求尤為突出。比如你可能花幾分鐘就完成一關《超級馬里奧兄弟》,游戲制作方卻需要幾天或幾周的時間來開發(fā)。此前行業(yè)已有基于構造、基于搜索和基于模型等方法,但這些方法生成的關卡通常缺少對實際游戲體驗的建模,例如:難度、節(jié)奏等。

利用AI bot技術自動生成游戲關卡的優(yōu)勢明顯,AI bot可以作為人類玩家的代理,代替人類進行大規(guī)模地關卡評估和測試,降低人力成本;還能提供更多語義信息,減少對訓練數(shù)據(jù)的依賴;以及根據(jù)語義信息提升生成關卡的游戲體驗。

騰訊AI Lab正探索將AI自動生成關卡技術應用于2D、3D等類型的游戲之中。在本次大會上,我們以一款自研的2D小游戲作為案例,只需要不到一百個訓練關卡作為輸入,AI即可在幾個小時內生成一千多個可玩的、高質量、多樣化的關卡。

image.png

具體到技術方案,AI的第一個任務是生成可玩的關卡。我們可以借助AI bot跑圖并篩選出可玩的關卡,這里的核心是如何訓練一個通關能力強、泛化能力好的AI bot,它可以評估大量沒有見過的關卡。在特征上,我們使用以AI bot為中心的相對位置特征,去除了絕對坐標相關的特征,防止模型過擬合;在數(shù)據(jù)上,我們使用大量生成的關卡作為AI bot的訓練關卡,提高泛化能力;在模型上,我們使用PPO算法和RND算法讓AI bot更穩(wěn)更快地探索通關。最后利用AI bot跑圖測試濾掉不可玩的關卡。

第二步,在可玩的基礎上,AI要提升關卡的質量,高質量的關卡是指符合游戲設計規(guī)范、美學、樂趣等,更重要的是需要和種子關卡的游戲體驗是一致的。我們可以通過AI bot跑圖模擬對局結果,可以獲取體驗相關的特征,例如:每幀的承傷、子彈位置等,然后基于種子關卡和少量人類標注數(shù)據(jù)訓練評估器模型。最后結合MCTS算法和評估器模型進行搜索,相比隨機搜索,MCTS生成的關卡的評估得分提升約50%。

image.png

最后,重復相似的關卡會直接影響玩家的體驗,因此AI還要能識別并去除相似的關卡。我們采用的是無監(jiān)督訓練模型自編碼器,該方法不需要依賴有標注的數(shù)據(jù),在自編碼器的基礎上,我們加入了AI bot跑圖的語義信息作為監(jiān)督信號,讓自編碼器的隱層去預測跑圖結果,這樣可以使得關卡編碼向量除了刻畫關卡的視覺信息之外,還可以刻畫游戲體驗的語義信息。最后通過自編碼器學習到的關卡編碼向量進行相似度計算,從而過濾掉相似的關卡。

image.png

此外,AI還可以用于動態(tài)難度調整,讓玩家能從具有挑戰(zhàn)的關卡中獲得成就感,又不至于“卡關”。我們的方法是通過AI bot模擬不同buff的難度效果,建立buff與難度之間的映射,根據(jù)玩家實際的表現(xiàn),動態(tài)投放合適的buff來提升玩家的心流體驗。

借助關卡編輯器工具,AI還可與玩家協(xié)作生成關卡,AI可以根據(jù)玩家制作和修改的關卡來迭代模型訓練和關卡生成的效果,玩家也可以獲得更高質量和更多樣的關卡進行二次創(chuàng)作。這也是用戶生成內容(UGC)趨勢下,AI技術的潛在應用之一。

相比之下,AI生成3D關卡內容則要復雜得多,3D關卡涉及地形起伏、元素之間的關聯(lián)、不同分辨率的元素、路線與區(qū)域規(guī)劃等,更考驗AI的生成能力。目前騰訊AI Lab已在約200個訓練關卡的基礎上,結合人類的標注編輯,生成了超過一萬個3D關卡,并在持續(xù)探索AI在3D領域的多種內容生成能力。

image.png

展望未來,虛擬世界與真實世界將高度融合,人們生活工作的更多方面將實現(xiàn)線上、線下一體化。前沿AI正成為虛實融合未來的基礎設施,將助力構建更加開放、龐大、多樣且高品質的虛擬世界,創(chuàng)造前所未有的體驗與機遇。

分享到

songjy

相關推薦