以下是本次直播實(shí)錄“具身智能”部分——
Genji:關(guān)于具身智能,大家有很多好奇的領(lǐng)域,大家接觸最多的是人形機(jī)器人,那么,現(xiàn)在人形機(jī)器人和各位研究的領(lǐng)域有哪些差異?
周博士:現(xiàn)在大家經(jīng)常可以看到雙足人形機(jī)器人的展示,行業(yè)里也有非常優(yōu)秀的公司,如在春晚上火爆的宇樹(shù)科技,這類公司更多的是側(cè)重于機(jī)器人本體設(shè)計(jì)、機(jī)電系統(tǒng)以及運(yùn)動(dòng)控制,這是讓機(jī)器人穩(wěn)定、可靠動(dòng)起來(lái)的基礎(chǔ),也是讓大眾能快速領(lǐng)略到機(jī)器人魅力的很好的切入點(diǎn)。例如,我們可以讓機(jī)器人模仿人類跳一段舞蹈,或讓機(jī)器人穿過(guò)一段崎嶇的山路。在機(jī)器人能很好的動(dòng)起來(lái)之后,還有一個(gè)更大的挑戰(zhàn),是如何讓機(jī)器人聰明的行動(dòng)。比如像人一樣,讓機(jī)器人可以通過(guò)看說(shuō)明書(shū),技能組裝起一套復(fù)雜的家具,或是使用手機(jī)導(dǎo)航就能找到想去的咖啡廳,購(gòu)買一杯咖啡并帶回家等。這些能力需要機(jī)器人對(duì)3D空間有非常深刻的理解,能夠執(zhí)行長(zhǎng)序的物理推理,能預(yù)測(cè)其采取的行動(dòng),將對(duì)物理世界產(chǎn)生什么樣的影響。這些是我們當(dāng)前更關(guān)注的技術(shù)。但是這還不是我們最終的目標(biāo),當(dāng)前,還存在許多類似于礦井下的高危工作環(huán)境,也存在可能導(dǎo)致塵肺病等職業(yè)病的惡劣工況,所以我們非常希望將機(jī)器人應(yīng)用到這些場(chǎng)景中,讓機(jī)器人超越人,解難題、做難事,體現(xiàn)科技的價(jià)值。
王博士:不同于業(yè)界通常展示一些家居生活場(chǎng)景的應(yīng)用演示,華為云更加關(guān)注如何讓具身智能技術(shù)深入各個(gè)工業(yè)制造領(lǐng)域中,幫助工業(yè)產(chǎn)線提高效率。但工業(yè)場(chǎng)景相比于家庭場(chǎng)景有一些特殊的地方,首先,因?yàn)榇蠖鄶?shù)工件都比較精密,裝配冗余孔隙僅有毫米級(jí)甚至更小,這對(duì)機(jī)器人操作的控制精度要求非常高;其次,工業(yè)場(chǎng)景對(duì)于整個(gè)任務(wù)完成效率也有非常高的要求,因?yàn)橐坏┏晒β蔬^(guò)低或速度較慢,都將影響產(chǎn)品的出貨周期;最后,從機(jī)器人本體形態(tài)來(lái)看,家用場(chǎng)景未來(lái)可能會(huì)收斂到人形機(jī)器人,但工業(yè)場(chǎng)景應(yīng)用的機(jī)器人形態(tài)可能會(huì)非常多樣,有可能是單個(gè)機(jī)械臂,或者一輛小車,甚至挖掘機(jī)都有可能成為具身智能技術(shù)的載體。所以如何讓不同類型的本體都能夠適配我們的技術(shù),是非常重要的挑戰(zhàn),也是我們需要攻克的問(wèn)題。
Genji:請(qǐng)四位詳細(xì)介紹一下,在具身智能開(kāi)發(fā)落地的過(guò)程中,我們現(xiàn)在正面對(duì)哪些難題,以及最難的是什么?
周博士:在我看來(lái),現(xiàn)在具身智能沒(méi)有最難,只有更難。其實(shí)提到智能,大家可能會(huì)想到經(jīng)典的AI三要素,即算力、數(shù)據(jù)和算法。但面對(duì)具身智能,這是需要探索的AI的下一跳,我覺(jué)得三要素需要稍微做一些轉(zhuǎn)變,更需要大家關(guān)注數(shù)據(jù)、算法以及機(jī)器人的本體。如果這三個(gè)要素不能協(xié)同,整個(gè)具身智能系統(tǒng)就無(wú)法擴(kuò)展,也就談不上對(duì)算力的巨大的需求。6月20日的HDC主題大會(huì)上,華為常務(wù)董事、華為云計(jì)算CEO張平安專門強(qiáng)調(diào),我們不做機(jī)器人的本體,目前更加關(guān)注具身智能的數(shù)據(jù)、算法以及對(duì)應(yīng)的平臺(tái)能力,下面這一頁(yè)幻燈片,剛好也展示了我們現(xiàn)在正在做的具身智能從數(shù)據(jù)到算法迭代的平臺(tái)原型,這一套原型現(xiàn)在已經(jīng)交付給了我們的部分伙伴使用,并通過(guò)在他們工作現(xiàn)場(chǎng)收集的反饋持續(xù)優(yōu)化。這個(gè)平臺(tái)的整體理念,就是讓機(jī)器人在數(shù)字世界中學(xué)習(xí),在物理世界中調(diào)優(yōu)和運(yùn)行。具體來(lái)說(shuō),先通過(guò)Real2Sim的技術(shù),讓物理世界快速數(shù)字化,隨后借助數(shù)字世界中仿真引擎合成、生成式AI等技術(shù),大量生產(chǎn)多樣化的數(shù)據(jù),而這些數(shù)據(jù)的多樣性問(wèn)題在物理世界是幾乎不可能被解決的。有了這些數(shù)據(jù)之后,通過(guò)一套完備的數(shù)據(jù)工程管線,將所有數(shù)據(jù)處理成具身智能VLA模型訓(xùn)練所需的狀態(tài),并在云上完成具身模型的訓(xùn)練。最后,我們進(jìn)一步挖掘云仿真的價(jià)值,通過(guò)算法構(gòu)建成百上千的測(cè)試用例,對(duì)模型能力進(jìn)行測(cè)試調(diào)優(yōu),再通過(guò)端云協(xié)同機(jī)制,講最優(yōu)的模型能力推送到機(jī)器人的端側(cè)運(yùn)行。
張博士:數(shù)據(jù)難題我有切身體會(huì),我經(jīng)常與客戶聊,每個(gè)客戶反映的問(wèn)題都是,數(shù)據(jù)從哪里來(lái),怎么樣構(gòu)建數(shù)據(jù)。這里為不熟悉具身的同學(xué)介紹一下,目前來(lái)說(shuō)大部分客戶采集數(shù)據(jù)的方式都是人工的:通過(guò)穿動(dòng)捕設(shè)備采集數(shù)據(jù),或者遙控機(jī)器人讓機(jī)器人執(zhí)行動(dòng)作,在這個(gè)過(guò)程中采集數(shù)據(jù)。但大家應(yīng)該能夠想象這樣的人工采集方式,它是有瓶頸的,取決于機(jī)器人數(shù)量的多少,以及數(shù)采員采集效率的高低。傾全國(guó)產(chǎn)能來(lái)說(shuō),一年大概只能采集千萬(wàn)級(jí)別的數(shù)據(jù)量,而這個(gè)數(shù)據(jù)量用來(lái)訓(xùn)練模型顯然是遠(yuǎn)遠(yuǎn)不夠的;另外,實(shí)采數(shù)據(jù)還有缺乏多樣性的問(wèn)題。比如,訓(xùn)練機(jī)器人倒茶這一動(dòng)作,比如讓機(jī)器人在這個(gè)木質(zhì)的桌面上反復(fù)倒茶、收集數(shù)據(jù),而這些訓(xùn)練出來(lái)的模型,或許換一張大理石桌,就不一定會(huì)執(zhí)行成功了,因?yàn)樵谟?xùn)練數(shù)據(jù)中沒(méi)有見(jiàn)過(guò)這樣的場(chǎng)景。而這類問(wèn)題恰好很適合仿真合成數(shù)據(jù)解決,因?yàn)樵诜抡姝h(huán)境里,我們可以輕松改變桌子的材質(zhì)、環(huán)境光照、物品布置等等,這樣采集的數(shù)據(jù)和訓(xùn)練的機(jī)器人技能都將更具備泛化性,另外這樣通過(guò)仿真合成構(gòu)建數(shù)據(jù)的速度也會(huì)比人工采集的方式快很多,所以我們也在真實(shí)的客戶項(xiàng)目中廣泛應(yīng)用了這樣的技術(shù)。同時(shí),最近我也注意到一個(gè)新的方向,有客戶問(wèn)我,最近生成視頻很火,有沒(méi)有可能將生成視頻這個(gè)技術(shù)應(yīng)用到具身數(shù)據(jù)積累和模型訓(xùn)練里,那我知道王博士最近就在研究這個(gè)方向。
王博士:是的。剛才說(shuō)到視頻生成技術(shù)非?;?,具身智能數(shù)據(jù)又非常短缺,所以目前我們正在探索如何利用基于可控條件的視頻生成技術(shù)生成符合我們要求的具身智能數(shù)據(jù)。視頻生成當(dāng)前存在的一個(gè)難題是它生成視頻中的機(jī)器人動(dòng)作不符合實(shí)際需求,例如不滿足基礎(chǔ)的物理約束條件。為了解決這個(gè)問(wèn)題,我們探索將深度圖像作為視頻生成模型的可控輸入條件,通過(guò)視頻生成模型做視覺(jué)渲染,來(lái)保證生成視頻中的機(jī)械臂運(yùn)動(dòng)軌跡符合我們的要求。此外,合成的數(shù)據(jù)還存在仿真到真實(shí)的遷移差異較大的問(wèn)題,我們通過(guò)直接在真實(shí)視頻數(shù)據(jù)的基礎(chǔ)上,做一些光照背景變換,或者修改被操作物體等少量元素的編輯,從而盡可能緩解這一問(wèn)題;
馬博士:總結(jié)來(lái)說(shuō),我們?yōu)槭裁匆瞥鼍呱矶嗄B(tài)技術(shù),其實(shí)就是為了降本增效。首先是降本,我們的生成技術(shù)可以減少仿真環(huán)境搭建的成本,實(shí)現(xiàn)短時(shí)間內(nèi)不去改變?cè)镜姆抡姝h(huán)境,就可以增加許多不同紋理、不同背景的數(shù)據(jù);其次是增效,因?yàn)樵谡鎸?shí)場(chǎng)景中,真實(shí)數(shù)據(jù)采集是非常有限的,視頻生成技術(shù)可以極大程度分成它的數(shù)據(jù)集,從而讓我們的模型越來(lái)越泛化。
Genji:我分享一下自己的想法,人工智能發(fā)展是在1956年美國(guó)達(dá)特茅斯會(huì)議時(shí)產(chǎn)生的。人工智能從笨到變聰明的過(guò)程,經(jīng)歷過(guò)很多卡點(diǎn)和細(xì)節(jié),這可以概括成兩種動(dòng)物,一是鸚鵡學(xué)舌,給木桌上的杯子倒上水,鸚鵡只知道這個(gè)動(dòng)線;二是烏鴉,聊人工智能繞不開(kāi)的一個(gè)詞是涌現(xiàn),涌現(xiàn)是復(fù)雜學(xué)科里的詞,無(wú)論人的大腦如何協(xié)作,多項(xiàng)神經(jīng)元如何傳遞信號(hào),到具身智能里面,這個(gè)情況都會(huì)更加復(fù)雜,因?yàn)樵跒貘f的能力中,它對(duì)現(xiàn)實(shí)世界的理解相對(duì)深刻,如烏鴉觀測(cè)到汽車能夠撞開(kāi)堅(jiān)果,汽車也能撞到自己,而紅綠燈能夠控制汽車,發(fā)現(xiàn)這三件事以后,它就可以在亮紅燈的時(shí)候叼堅(jiān)果,把堅(jiān)果丟到車群中,讓汽車開(kāi)堅(jiān)果,亮綠燈的時(shí)候飛起來(lái),所以烏鴉就具備推理和思考的能力。我們從鸚鵡到烏鴉,這是一個(gè)逐漸學(xué)習(xí)或者是讓它理解、思考世界的過(guò)程,讓機(jī)器人變聰明指的就是這一過(guò)程,而這個(gè)過(guò)程一定會(huì)面臨非常多的挑戰(zhàn)和紛紜復(fù)雜的協(xié)作。所以請(qǐng)教一下各位,在這一過(guò)程中,技術(shù)上是如何實(shí)現(xiàn)讓機(jī)器人工作的?
張博士:我舉一個(gè)真實(shí)的案例,客戶是如何與華為一起,讓機(jī)器人變得更聰明的。這是我們?cè)谏虾5目蛻簟獓?guó)地人形機(jī)器人創(chuàng)新中心。該創(chuàng)新中心希望達(dá)到的目的是構(gòu)建具身的數(shù)據(jù),并且基于具身數(shù)據(jù)訓(xùn)練具身模型,引領(lǐng)行業(yè)發(fā)展。為此,創(chuàng)新中心搭建一個(gè)大型的物理訓(xùn)練場(chǎng),并購(gòu)買了很多機(jī)器人,讓其在真實(shí)的物理訓(xùn)練場(chǎng)里執(zhí)行各種任務(wù)采集數(shù)據(jù),但很快,客戶發(fā)現(xiàn)通過(guò)這一方式采數(shù)據(jù)、積累數(shù)據(jù)太慢了,于是找到了華為云。我們進(jìn)入項(xiàng)目組后,開(kāi)始與客戶聯(lián)合創(chuàng)新,并試用我們的方案,詳細(xì)來(lái)說(shuō)就是我們先通過(guò)重建的方式,快速幫助客戶將物理訓(xùn)練場(chǎng)數(shù)字化,構(gòu)建了物理訓(xùn)練場(chǎng)數(shù)字孿生體,我們通過(guò)隨機(jī)化使得訓(xùn)練場(chǎng)的場(chǎng)景變得多樣化,并讓機(jī)器人在這樣的環(huán)境中執(zhí)行導(dǎo)航和操作任務(wù),繼而積累大量的數(shù)據(jù),當(dāng)數(shù)據(jù)量積累到一定量的時(shí)候,就會(huì)涌現(xiàn)出“烏鴉躲避汽車”這個(gè)智能。
Genji:在這里面還有什么其他的案例可以分享嗎?
周博士:接著張博士提到的上海人形伙伴,我們還聯(lián)合孵化了針對(duì)工業(yè)轉(zhuǎn)運(yùn)任務(wù)的具身智能創(chuàng)新方案。工業(yè)轉(zhuǎn)運(yùn)是工廠里非常常見(jiàn)的任務(wù),工人需要找到對(duì)應(yīng)的貨架,并且找到對(duì)應(yīng)的料框、揀選對(duì)應(yīng)的物料,然后將這些物料匯總到產(chǎn)線上。由于需要揀選的物料種類和數(shù)量都不確定,所以這個(gè)過(guò)程的非常柔性且長(zhǎng)序的,按照傳統(tǒng)的機(jī)器人開(kāi)發(fā)方法,很難解決這種問(wèn)題。我們現(xiàn)在的方案是基于上海人形采集的雖然少量但是高質(zhì)量的數(shù)據(jù),通過(guò)引擎合成和生成技術(shù),以十倍到百倍不等的量級(jí)生產(chǎn)更加多樣化的合成數(shù)據(jù)。因?yàn)椴煌臄?shù)據(jù)配方會(huì)導(dǎo)致不同的模型效果,所以將不同來(lái)源數(shù)據(jù),以不同配比進(jìn)行模型訓(xùn)練與評(píng)估測(cè)試是至關(guān)重要的。我們通過(guò)一套數(shù)據(jù)配方的研究,把不同的數(shù)據(jù)配比、模型訓(xùn)練、模型在數(shù)字世界里的多樣化測(cè)試與調(diào)優(yōu),整個(gè)過(guò)程借助Agent機(jī)制自動(dòng)化的聯(lián)通,這樣用戶就可以快速拿到最好的模型。最后,我們?cè)偻ㄟ^(guò)端云協(xié)同的形式把能力推送到本體,這樣就可以在物理世界中進(jìn)行空間理解、物料揀選、自主導(dǎo)航等任務(wù),最終完成工業(yè)轉(zhuǎn)運(yùn)需求。
馬博士:以華為手機(jī)打包場(chǎng)景為例,這里涉及了20多種操作步驟,10多種操作對(duì)象,以及包括推、拉、抓、吸等6種操作技能,面對(duì)這樣復(fù)雜且長(zhǎng)的任務(wù),我們首先借助具身規(guī)劃模型,即剛才所說(shuō)的“烏鴉大腦”,去做自主的規(guī)劃以及任務(wù)拆解,把任務(wù)分解成一個(gè)一個(gè)子步驟,同時(shí)在模型運(yùn)行過(guò)程中,萬(wàn)一發(fā)生各種報(bào)錯(cuò),規(guī)劃模型也能夠根據(jù)真實(shí)場(chǎng)景重新規(guī)劃,保證任務(wù)的順利進(jìn)行;此外還有一個(gè)具身執(zhí)行模型以及性能庫(kù),它們需要做的是接收子任務(wù)文本指令并完成整個(gè)動(dòng)作,我們的具身執(zhí)行模型需要在位置不固定、光線光源無(wú)法預(yù)測(cè)、不清楚背景等情況下,依舊魯棒的完成任務(wù)。另一個(gè)例子是水浸線的理線場(chǎng)景,機(jī)械臂需要將水浸線依次扣入卡扣中,在這個(gè)場(chǎng)景中,我們使用VLA模型融合3D點(diǎn)云信息,3D點(diǎn)云信息能夠更好地解決線懸空時(shí)的情況,精準(zhǔn)識(shí)別高度,提升任務(wù)成功率。此外,我們也能夠做到在一定的干擾之下順利完成任務(wù),包括遮擋的干擾、光線的干擾、人為錯(cuò)誤干擾等。
Genji:HDC主題演講中,平安總發(fā)布CloudRobo平臺(tái)服務(wù)的用戶是誰(shuí)?做哪些工作?請(qǐng)科普一下。
王博士:我們更多面向的是工業(yè)場(chǎng)景。工業(yè)應(yīng)用的一大特性是場(chǎng)景非常分散,且每個(gè)細(xì)分場(chǎng)景的專業(yè)化程度很高,所以工業(yè)應(yīng)用中有很多只聚焦在自己垂直領(lǐng)域的中小型企業(yè),且這些企業(yè)大多自動(dòng)化能力很強(qiáng),但智能化水平不足。此外,他們并不需要通用的具身智能,他們只希望針對(duì)自己的產(chǎn)線需求開(kāi)發(fā)相應(yīng)的具身智能技術(shù),用以解決他們產(chǎn)線的問(wèn)題,達(dá)到降本增效的目的。對(duì)于這類玩家,如果想自己完全獨(dú)立開(kāi)發(fā)具身智能技術(shù),則需要搭建平臺(tái)底座,成本高難度大。因此,我們基于這樣的需求因素,開(kāi)發(fā)了CloudRobo具身智能平臺(tái),它能夠提供包含數(shù)據(jù)處理、模型開(kāi)發(fā)、云端部署等一整套面向具身智能解決方案的開(kāi)發(fā)工作平臺(tái),我們希望借此賦能不同的機(jī)器人廠家和行業(yè)應(yīng)用場(chǎng)景。另外也可以看到,我們還有R2C協(xié)議,平臺(tái)面對(duì)不同的機(jī)器人本體,涉及的關(guān)節(jié)、傳感器類型都是不一樣的,為了讓我們的平臺(tái)和不同類型本體有效對(duì)接,就需要設(shè)計(jì)一套統(tǒng)一的標(biāo)準(zhǔn),同時(shí)我們也在倡導(dǎo)與聯(lián)合各個(gè)機(jī)器人本體伙伴,共同構(gòu)建R2C協(xié)議,即Robo to Cloud協(xié)議,構(gòu)建通信接口、數(shù)據(jù)接口和指令接口,使得平臺(tái)能夠無(wú)縫對(duì)接機(jī)器人本體,賦能各種各樣的伙伴。
Genji:請(qǐng)問(wèn)四位對(duì)整個(gè)具身智能在未來(lái)發(fā)展趨勢(shì)有什么思考和洞見(jiàn)?
王博士:接著CloudRobo平臺(tái)來(lái)說(shuō),當(dāng)前具身智能發(fā)展尚處于初期階段,大家都是圍繞一些零散的點(diǎn)做探索,有的做一些模型網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn),有的探索不同傳感器的組合能夠帶來(lái)什么樣的效果。未來(lái),隨著具身智能數(shù)據(jù)的逐步增多,我相信整個(gè)技術(shù)路線會(huì)逐步走向收斂。到了這一階段,大家在基礎(chǔ)場(chǎng)景下的能力都相差無(wú)幾,更為關(guān)注的是一些難例場(chǎng)景下的挑戰(zhàn),如何解決一個(gè)又一個(gè)的難例場(chǎng)景,這就需要一整套高效的數(shù)據(jù)閉環(huán)能力來(lái)幫助模型實(shí)現(xiàn)快速迭代,快速適配特定的問(wèn)題和特定的場(chǎng)景。CloudRobo平臺(tái)也是基于這樣一個(gè)目的。我們構(gòu)建各種各樣的工作流,并且把這些工作流進(jìn)行有效連接,包括數(shù)據(jù)的自動(dòng)化標(biāo)注、有效數(shù)據(jù)的挖掘等,模型訓(xùn)練后可以進(jìn)行自動(dòng)化評(píng)估,從而幫助模型實(shí)現(xiàn)快速迭代,使得未來(lái)模型競(jìng)爭(zhēng)力越來(lái)越強(qiáng),也能夠?qū)崿F(xiàn)模型和應(yīng)用場(chǎng)景的正向閉環(huán)。
張博士:由于我接觸的客戶和實(shí)際應(yīng)用較多,所以在這里我稍微拆一拆周博士的臺(tái)。剛才提到的揀選和轉(zhuǎn)運(yùn)的工業(yè)部件案例,我在實(shí)驗(yàn)室里見(jiàn)過(guò)各種各樣五花八門的失敗,在我看來(lái),具身智能還處于很初期的發(fā)展階段,但它的未來(lái)一定是非常光明的,只是這個(gè)過(guò)程會(huì)是螺旋式上升,需要經(jīng)歷不斷的演進(jìn)。這里我特別想引用我喜歡的音樂(lè)劇《漢密爾頓》的歌詞:這個(gè)世界是如此的寬廣。具身世界如此寬廣,它容得下本體廠商,也容得下華為云這樣為本體廠商賦能的企業(yè),更容得下提供各類解決方案的集成商。我們希望所有人都能夠在CloudRobo平臺(tái),共同為具身智能行業(yè)發(fā)展做出自己的貢獻(xiàn)。
Genji:剛才張博有提到一個(gè)詞,叫做“千行百業(yè)”,最開(kāi)始B端找的是千行百業(yè),C端找的是千家萬(wàn)戶,所以是否將來(lái)會(huì)達(dá)到這樣一個(gè)時(shí)刻,這個(gè)時(shí)刻又是如何邁進(jìn)的?
周博士:拿千行百業(yè)來(lái)說(shuō),剛剛我們提到的工業(yè)場(chǎng)景、礦山特種場(chǎng)景,都是值得關(guān)注的方向。但這個(gè)方向里的區(qū)間特別大,比如說(shuō),相對(duì)結(jié)構(gòu)化的工業(yè)領(lǐng)域,未來(lái)一到兩年,就能夠陸續(xù)有落地成果展現(xiàn);而更加復(fù)雜的礦井環(huán)境,則需要3年,甚至更長(zhǎng)時(shí)間才有落地可能。與此同時(shí),像商超零售、酒店整理、餐廳后廚等商業(yè)服務(wù)領(lǐng)域,也會(huì)在未來(lái)的1-3年,陸續(xù)有落地成果被看到,但這些都是B端。你剛才還提到千家萬(wàn)戶,這就是一條C端的線,比如機(jī)器人進(jìn)入家庭陪伴,甚至養(yǎng)老。家庭陪伴這個(gè)會(huì)很快,行業(yè)里已經(jīng)有不少優(yōu)秀的公司正在朝這個(gè)方向做商業(yè)化探索。而真正意義上可以照顧老人的機(jī)器人,幾乎能算具身智能領(lǐng)域的圣杯問(wèn)題之一了,5年是一個(gè)非常樂(lè)觀的估計(jì),大概率需要更長(zhǎng)的時(shí)間。
馬博士:補(bǔ)充一點(diǎn),在To C端,真正走進(jìn)千家萬(wàn)戶之前,我認(rèn)為主要面臨兩個(gè)問(wèn)題,即安全與倫理。比如,機(jī)器人是否會(huì)傷人、如何建立機(jī)器人安全監(jiān)督機(jī)制,以及倫理,在機(jī)器人代替人類工作后,人的價(jià)值將體現(xiàn)在哪里,人類又應(yīng)該從事怎樣的工作,這些問(wèn)題是包括我們、我們的伙伴,以及每位具身行業(yè)的從事者,都需要持續(xù)思考的問(wèn)題。
Genji:關(guān)于未來(lái)的發(fā)展趨勢(shì),各位還有什么補(bǔ)充嗎?
周博士:關(guān)于CloudRobo平臺(tái)的愿景,因?yàn)槲锢硎澜绲母鞣N探索,很多情況下后果是不可承受的,所以我們通過(guò)在數(shù)字世界中,發(fā)揮強(qiáng)智能和大數(shù)據(jù)的優(yōu)勢(shì),先把問(wèn)題解決到90分,再遷移能力去機(jī)器人本體,在物理世界繼續(xù)調(diào)優(yōu)。這是我們對(duì)具身智能如何最終走進(jìn)千行百業(yè)、千家萬(wàn)戶的一點(diǎn)思考與策略。
王博士:CloudRobo平臺(tái)最上面一層是安全監(jiān)督,我們希望通過(guò)云端賦予強(qiáng)大的安全監(jiān)控,一方面有效制止機(jī)器人在實(shí)際的應(yīng)用中出現(xiàn)任何可能會(huì)損害周圍環(huán)境的行為,另一方面,希望在仿真環(huán)境中對(duì)可能會(huì)發(fā)生的事情做出一些預(yù)測(cè),達(dá)到提前干預(yù)的效果。
Genji:請(qǐng)各位博士分享一下對(duì)具身智能的未來(lái)有哪些比較好玩或比較有意思的展望。
馬博士:在我看來(lái),目前我們的用戶期待值還是非常高的。實(shí)際上在真正工作中會(huì)發(fā)現(xiàn),目前我們的機(jī)器人還處于非常初期的階段,對(duì)我們來(lái)說(shuō)它還是一個(gè)小嬰兒,我們要不斷的教它學(xué)習(xí)各種技能,至于未來(lái)它會(huì)做什么樣的事情,還需要通過(guò)我們的平臺(tái)、數(shù)據(jù)一起去構(gòu)建。我個(gè)人非常想要的是,機(jī)器人未來(lái)有一天可以代替我上班。
周博士:剛剛大家也提到這個(gè)行業(yè)還處于非常早期的階段,但從技術(shù)的角度出發(fā),積極的信號(hào)同樣存在。比如,雖然現(xiàn)在具身智能的技術(shù)投入百花齊放,但基本是沿著多階段VLA的路線在發(fā)展。已經(jīng)被實(shí)踐證明,復(fù)用大語(yǔ)言模型中非常成熟的訓(xùn)練鏈條是有效且遠(yuǎn)沒(méi)有觸達(dá)上限的。也走出了像π0.5這樣非常優(yōu)秀的具身模型,在垂直領(lǐng)域展現(xiàn)出優(yōu)秀的泛化性。這給出了一條能不斷延展具身智能體能力的路徑。今天,我們討論的所有話題,無(wú)論是數(shù)據(jù)、模型、本體,都會(huì)參考這條路徑的指引向前探索。
張博士:我個(gè)人來(lái)說(shuō),倒是希望機(jī)器人是更通用的形態(tài),不僅幫我們?nèi)ド习?,還能在家里幫我們做家務(wù),甚至等我老了以后,還可以幫我養(yǎng)老,這雖然是很遠(yuǎn)的愿景,但還是充滿期待的。
王博士:具身智能的前景非常光明。大家都說(shuō)AI是工業(yè)革命,一直停留在互聯(lián)網(wǎng)上或只帶來(lái)少量的生產(chǎn)力提升,并沒(méi)有促進(jìn)社會(huì)生產(chǎn)力突破性的發(fā)展,但具身智能就是這樣的技術(shù),能夠真正把AI運(yùn)用到提升社會(huì)生產(chǎn)效率等各個(gè)方面,會(huì)給人類社會(huì)帶來(lái)質(zhì)的發(fā)展。道路是曲折的,前景是光明的,所以我們要朝著這個(gè)目標(biāo)不斷努力。
Genji:最近,我剛讀了一本OpenAI研究員寫的書(shū),為什么偉大不可復(fù)制。當(dāng)初OpenAI發(fā)明出來(lái)時(shí),里面涉及到了一個(gè)基本問(wèn)題,最開(kāi)始在解決迷宮難題時(shí),起初讓線條把所有的路線都走出來(lái),最后找到一調(diào)最短線條,這件事情聽(tīng)起來(lái)特別像是急功近利探索人生或路線最優(yōu)解的過(guò)程,最后提到,為什么偉大不可被復(fù)制,就是這不是目的,而是探索過(guò)程,不預(yù)設(shè)非常強(qiáng)功力性的目的,就只是讓線條和點(diǎn)進(jìn)入迷宮瞎轉(zhuǎn)悠,這種松馳的機(jī)制反而能夠產(chǎn)生更多聰明的感覺(jué),或許它晃著晃著便能解決更為復(fù)雜的問(wèn)題。
周博士:您提到的這個(gè)觀點(diǎn)恰好印證了我們的一些觀察,在具身智能往前演進(jìn)過(guò)程中,需要哪些學(xué)習(xí)范式。我剛才提到的VLA,本質(zhì)上還是模仿學(xué)習(xí),也就是說(shuō),它的上線實(shí)際上是人類喂給它多少數(shù)據(jù),它就有望學(xué)到怎樣的能力。那機(jī)器人究竟要怎樣超越人?其實(shí)就不應(yīng)該給它設(shè)限,讓機(jī)器人通過(guò)自己的探索找到最適合自己的工作方式。這種情況下,我們依然希望發(fā)揮數(shù)字世界的優(yōu)勢(shì),提供多樣的交互式環(huán)境,讓機(jī)器人可以在里面隨機(jī)交互探索,并及時(shí)獲得反饋與獎(jiǎng)勵(lì),這種強(qiáng)化學(xué)習(xí)+VLA的方式是探索機(jī)器人真正超越人的一條路徑。
張博士:我見(jiàn)過(guò)周博士在實(shí)驗(yàn)里做的機(jī)器人,它沒(méi)用夾爪將想要的東西抓起來(lái),而是用吸盤。在仿真里進(jìn)行學(xué)習(xí)的時(shí)候,我們沒(méi)有設(shè)限,結(jié)果機(jī)器人的吸盤在手腕關(guān)節(jié)的位置進(jìn)行了360度以上的旋擰,而我們?nèi)说氖滞笠驗(yàn)樾D(zhuǎn)角度的受限,往往需要多次旋轉(zhuǎn),機(jī)器人卻可以連續(xù)旋擰、達(dá)到比人更高的效率。我當(dāng)時(shí)眼前一亮,原來(lái)這也可以?我想這就很好的回答了您剛才問(wèn)到的問(wèn)題,當(dāng)沒(méi)有設(shè)限的時(shí)候,機(jī)器人反而變得更加聰明。
馬博士:剛才說(shuō)的就是探索與利用,我們通過(guò)這樣的方法模仿學(xué)習(xí)后,再進(jìn)行強(qiáng)化學(xué)習(xí),讓它在環(huán)境中不斷的自主探索。目前,在工業(yè)場(chǎng)景中,它能夠非常好的提升成功率,包括離線場(chǎng)景,我們都采用了這樣的技術(shù)。
Genji:我比較好奇,機(jī)器人在各種電影、小說(shuō)里面,會(huì)與人類產(chǎn)生更強(qiáng)的交互,機(jī)器人可以為人帶來(lái)情感上的陪伴和依賴,也會(huì)和人類戰(zhàn)斗,所以各位覺(jué)得這種時(shí)刻是否會(huì)到來(lái)?什么時(shí)候機(jī)器人會(huì)像人一樣產(chǎn)生各種念頭,當(dāng)機(jī)器人足夠強(qiáng)大的時(shí)候,這個(gè)念頭是否會(huì)爆發(fā),從而產(chǎn)生倫理安全問(wèn)題?
王博士:剛才提到了強(qiáng)化學(xué)習(xí),隨著強(qiáng)化學(xué)習(xí)的發(fā)展,一定出現(xiàn)這樣的情況。模仿學(xué)習(xí)讓機(jī)器人只能從這些知識(shí)學(xué)習(xí)中抽象總結(jié)一些知識(shí),或者進(jìn)行歸納演繹推理。但在強(qiáng)化學(xué)習(xí)中,我們不會(huì)設(shè)置它什么步驟是正確的,什么是錯(cuò)誤的,只有一個(gè)模糊的獎(jiǎng)勵(lì)目標(biāo)。它將通過(guò)自己的探索,自主去發(fā)現(xiàn)什么是正確,什么是錯(cuò)誤。如此一來(lái),它便會(huì)產(chǎn)生一個(gè)更加涌現(xiàn)的情況,不是我們?nèi)怂茴A(yù)期的。我們所有的目標(biāo)都是在探索,就像在生活中,我們會(huì)自己給自己一些規(guī)定,機(jī)器人同樣。
張博士:還是需要有倫理邊界,就像我們?cè)既艘彩亲杂砂l(fā)展,但到了人類文明社會(huì)就開(kāi)始有邊界,如我們的法律、道德共識(shí)等,機(jī)器人說(shuō)不定也會(huì)有共識(shí),從最早的三定律,到后面演變出機(jī)器人法律,機(jī)器人監(jiān)獄等,雖然我只能設(shè)想,但我認(rèn)為強(qiáng)化學(xué)習(xí)過(guò)程中,為了讓機(jī)器人能夠在物理世界里與人和諧共處,還是應(yīng)該給它設(shè)置一些基本的道德和法律邊界。
Genji:引用周博士最開(kāi)始提到的一個(gè)詞匯回答這個(gè)問(wèn)題,就是科技向善。其實(shí)無(wú)論是機(jī)器人還是人,或是真實(shí)世界里出現(xiàn)的所有物體,我們都需要給它相對(duì)收斂的規(guī)則和邊界,就像法律是道德的底線一樣。在啟蒙運(yùn)動(dòng)時(shí),哲學(xué)家萊辛提到人生毫無(wú)意義,人探索的過(guò)程就是意義本身。我們看到人工智能、具身智能的發(fā)展,其實(shí)就是無(wú)邊界探索,但它本身就足夠有意義、有內(nèi)涵。
由數(shù)字化仿真、數(shù)據(jù)合成,以及模型等關(guān)鍵技術(shù)出發(fā),以“科技向善”為落點(diǎn),華為云正通過(guò)CloudRobo具身智能平臺(tái)為起點(diǎn),不斷探索具身智能在工業(yè)等更多場(chǎng)景下的應(yīng)用。展望未來(lái),以華為云為代表的科技企業(yè)將持續(xù)探索人工智能與機(jī)器人的結(jié)合,合力共識(shí)共建,為人類的長(zhǎng)遠(yuǎn)發(fā)展服務(wù)。