要聞

大模型熱潮第三年，“AI春晚”又換主角為什么是具身智能？

每日經(jīng)濟(jì)新聞 2025-06-06 21:19:20

6月6日，第七屆北京智源大會開幕，本次大會關(guān)鍵詞從“大語言模型”躍升為“具身智能”與“機(jī)器人2.0”。宇樹科技CEO王興興等成為大會焦點(diǎn)。面壁智能CEO李大海表示，大模型技術(shù)成熟推動產(chǎn)業(yè)關(guān)注重心轉(zhuǎn)移。智源研究院院長王仲遠(yuǎn)稱，人工智能正加速從數(shù)字世界走向物理世界。與會者還就機(jī)器人賽事價值、具身智能產(chǎn)業(yè)化關(guān)鍵、機(jī)器人形態(tài)及VLA模型等議題展開探討。

每經(jīng)記者｜可楊每經(jīng)編輯｜陳俊杰

早早就沒了位置，人墻圍了一層又一層，宇樹機(jī)器人、天工機(jī)器人一登場，就調(diào)動了全場氣氛。

6月6日，由北京智源人工智能研究院主辦的“AI春晚”——第七屆北京智源大會（以下簡稱智源大會）正式開幕。

大模型熱潮進(jìn)入第三年，智源大會的關(guān)鍵詞已經(jīng)從“大語言模型”躍升為“具身智能”與“機(jī)器人2.0”。

作為產(chǎn)業(yè)風(fēng)向標(biāo)，在智源大會上，OpenAI創(chuàng)始人山姆·奧特曼以及“深度學(xué)習(xí)之父”辛頓曾發(fā)表演講；月之暗面創(chuàng)始人楊植麟曾經(jīng)歷人墻圍堵，熱度遠(yuǎn)超如今首個沖向IPO的智譜AI；而今，大會上的“明星”是宇樹科技創(chuàng)始人、CEO（首席執(zhí)行官）王興興。

變化的背后，AI（人工智能）正加速邁入“干實(shí)事”的新階段：從機(jī)器人表演走向?qū)嶋H應(yīng)用，從模型訓(xùn)練走向產(chǎn)業(yè)閉環(huán)。物理世界的復(fù)雜性、數(shù)據(jù)采集的現(xiàn)實(shí)需求、人與機(jī)器的自然交互，正在共同推動具身智能成為AI發(fā)展的下一個技術(shù)高地。

具身智能會客廳對話現(xiàn)場主辦者供圖

“AI春晚”，主角又換了

結(jié)束開幕式上的“智源具身智能會客廳”圓桌對話后，宇樹科技CEO王興興在現(xiàn)場安保引導(dǎo)下離場，想要上前與其交流的觀眾被隔絕在人墻外。

這或許是吸取了去年的“教訓(xùn)”，彼時的明星公司是月之暗面，楊植麟在下場后幾度被人墻圍住無法脫身。

如果以2022年末ChatGPT的發(fā)布作為節(jié)點(diǎn)，三屆智源大會，不僅見證了大模型時代AI技術(shù)的跨越式發(fā)展，也折射出人工智能產(chǎn)業(yè)關(guān)注重心的變動軌跡。

2023年，AI領(lǐng)域風(fēng)頭無兩的是OpenAI所引領(lǐng)的生成式大語言模型熱潮，當(dāng)年大會的高光時刻是OpenAI的代表人物山姆·奧特曼（Sam Altman）與“深度學(xué)習(xí)之父”辛頓（Geoffrey Hinton）的亮相。

2024年，以月之暗面、百度、智譜AI為代表的國產(chǎn)大模型廠商迅速崛起，在語言模型與多模態(tài)模型領(lǐng)域競逐成“主角”，開發(fā)出Kimi的月之暗面?zhèn)涫茏放酢?/p>

2025年，具身智能集中搶鏡，機(jī)器人、跨模態(tài)系統(tǒng)、物理智能等成為主論壇的重要議題。變化背后，是技術(shù)路線的演進(jìn)和應(yīng)用價值的再認(rèn)識。

面壁智能CEO兼聯(lián)合創(chuàng)始人李大海在接受《每日經(jīng)濟(jì)新聞》記者采訪時表示，技術(shù)的發(fā)展是非線性的。大模型本質(zhì)上是一項基礎(chǔ)性技術(shù)，未來一定是非常重要的底層基礎(chǔ)設(shè)施。隨著這項技術(shù)逐步成熟，產(chǎn)業(yè)關(guān)注的重心自然也開始從底層模型向其之上的具體應(yīng)用轉(zhuǎn)移，這種關(guān)注點(diǎn)的遷移是合理且必然的。

同時，李大海認(rèn)為，大模型“奇點(diǎn)”正在到來，其身處其中有非常強(qiáng)烈的感受，當(dāng)前大模型在訓(xùn)練過程中，已經(jīng)能夠利用自身的特性，反哺訓(xùn)練過程，實(shí)現(xiàn)大模型訓(xùn)練的加速，形成“用大模型訓(xùn)練大模型”的良性循環(huán)。“整個技術(shù)的發(fā)展在加速，（所以）才有外面能看到的整個行業(yè)的變化越來越大（的情況）。”

“人工智能正加速從數(shù)字世界走向物理世界，這是我們對整個大的技術(shù)發(fā)展趨勢的判斷。”智源研究院院長王仲遠(yuǎn)受訪時表示。

從“秀肌肉”到“干實(shí)事”

在2024年的智源大會開幕式上，月之暗面、百川智能、智譜AI與面壁智能四家國產(chǎn)大模型公司曾罕見同臺，展開通往通用人工智能（AGI）之路的對話。而2025年，圓桌環(huán)節(jié)的對話主角，從大模型轉(zhuǎn)向了具身智能。

開年以來，具身智能成為人工智能領(lǐng)域最熱的關(guān)鍵詞，伴隨而來的，是形態(tài)各異的機(jī)器人頻繁亮相各種公眾賽事：從春節(jié)晚會上的舞蹈表演，到格斗競技場上的人形對抗賽；從物流分揀的真實(shí)場景模擬，到即將在北京舉辦的“世界人形機(jī)器人運(yùn)動會”。

眼下風(fēng)靡的機(jī)器人比賽，是驗(yàn)證技術(shù)的試驗(yàn)場，還是秀肌肉的“秀場”？

對此，王興興認(rèn)為，當(dāng)前機(jī)器人賽事的價值在于讓大眾“看到機(jī)器人已經(jīng)發(fā)展到什么階段了”。他坦言，盡管人形機(jī)器人還不能“真正進(jìn)入家庭干活”，但通過格斗、跳舞等全身動作訓(xùn)練，一方面可以展示當(dāng)前AI控制系統(tǒng)的水平，另一方面，跳舞和格斗，其實(shí)是機(jī)器人全身動作的一部分。“我們的目標(biāo)一直是希望通過AI技術(shù)讓機(jī)器人能做各種全身動作，來實(shí)現(xiàn)終極目標(biāo)，去真正解放人類生產(chǎn)力。”

王興興進(jìn)一步解釋道，這種展示不僅有助于訓(xùn)練和驗(yàn)證模型能力，也開始體現(xiàn)出一定的商業(yè)價值。今年上半年，人形機(jī)器人租賃市場就比較火爆，王興興認(rèn)為，這也是一種產(chǎn)業(yè)價值的體現(xiàn)。

北京人形機(jī)器人創(chuàng)新中心總經(jīng)理熊友軍也表示，接下來的“世界人形機(jī)器人運(yùn)動會”，不僅包括格斗等競技類項目，還將引入短跑、接力、足球、舞蹈等來自人類場景的形式。同時，賽事中還包含多個真實(shí)生活和工業(yè)場景，如工廠的物流搬運(yùn)、醫(yī)院的醫(yī)藥分揀、酒店的服務(wù)應(yīng)用等。

熊友軍表示，這些比賽場景來自具體的企業(yè)提出的真實(shí)場景需求，和機(jī)器人即將走入現(xiàn)實(shí)的生活密切相關(guān)。“這是一個很好的訓(xùn)練場，對提升機(jī)器的技術(shù)有很大幫助，也是潛在客戶了解和跟機(jī)器人企業(yè)溝通的橋梁。”

盡管表演與賽事火熱，但具身智能產(chǎn)業(yè)化真正的關(guān)鍵仍是“干活”能力的打造。對此，銀河通用創(chuàng)始人王鶴指出，當(dāng)前行業(yè)已經(jīng)有許多炫酷技能，但需要反思的是，如果在真實(shí)環(huán)境下無法保證成功率，這些技能的產(chǎn)業(yè)價值就非常有限。

王鶴介紹，銀河通用與智源研究院的聯(lián)合團(tuán)隊正在重點(diǎn)攻關(guān)“通用移動抓取”任務(wù)，即通過導(dǎo)航與抓取組合，讓機(jī)器人在貨架等實(shí)際工作場景中完成復(fù)雜動作。王鶴透露，銀河通用的機(jī)器人已經(jīng)在北京值守7家24小時無人藥店，由人形機(jī)器人完成取藥和對接騎手的任務(wù)。他進(jìn)一步強(qiáng)調(diào)，希望賽事和應(yīng)用場景能進(jìn)一步打通，用賽事去引領(lǐng)有價值的、可落地的技能。

人形機(jī)器人現(xiàn)場展示格斗主辦方供圖

人形還是非人形？

在AI模型“上天入地”的浪潮中，被稱為“AI+機(jī)器人”終極形態(tài)的具身智能，正成為產(chǎn)業(yè)界和學(xué)術(shù)界同時瞄準(zhǔn)的下一個技術(shù)制高點(diǎn)。

“其實(shí)我一直不堅持一定要做（成）人形（機(jī)器人）。”在談到人形機(jī)器人是否是具身智能唯一形態(tài)時，王興興表示，從工程實(shí)踐角度出發(fā)，宇樹科技早期做機(jī)器狗，轉(zhuǎn)向人形機(jī)器人屬于“順理成章”。在一些場景中，用輪式底盤替代腿部同樣非常實(shí)用。

“但為什么大家現(xiàn)在喜歡用人形，尤其上半身保留人的樣子？核心是因?yàn)楝F(xiàn)在AI大部分還是依賴人來做數(shù)據(jù)采集。”王興興解釋說，人形機(jī)器人上半身動作和人類一致，可以讓AI采集數(shù)據(jù)、訓(xùn)練模型都更加方便，“包括我們機(jī)器人跳舞或者做一些格斗和別的比賽，說實(shí)在的，如果你做成別的樣子就沒辦法做這個事情”。

不過王興興也明確指出，未來隨著AGI的誕生，機(jī)器人的形態(tài)將會“千奇百怪”，比現(xiàn)在要多非常多倍，甚至多100倍都有可能。但在當(dāng)前階段，人形形態(tài)仍在數(shù)據(jù)采集、模型訓(xùn)練和落地效率上具備“實(shí)用主義”的優(yōu)勢。

與王興興偏向技術(shù)現(xiàn)實(shí)主義的觀點(diǎn)不同，熊友軍更看重人形在未來市場中的地位。他認(rèn)為，雖然從技術(shù)上講，具身智能載體可以多種多樣，但“人形機(jī)器人是具身智能發(fā)展、研究的最佳載體”。他指出，未來具身智能的最大應(yīng)用場景不是工業(yè)，而是家庭和商用服務(wù)，“今天工廠場景只是‘開胃小菜’”。

熊友軍認(rèn)為，人形機(jī)器人更容易被人接受。它們會成為生活中的伙伴、朋友，甚至像現(xiàn)在很多年輕人所說的——可能是愛人。這種人機(jī)交互的自然程度是其他形態(tài)難以比擬的。他還補(bǔ)充道，人形機(jī)器人適配人類環(huán)境的成本更低，如果不是人形，就可能需要為機(jī)器人改造環(huán)境。這在實(shí)際部署中會帶來額外成本。熊友軍表示，長期來看，人形仍是具身智能最具發(fā)展?jié)摿Φ男螒B(tài)。

展區(qū)機(jī)器狗主辦方供圖

在形態(tài)問題的背后，具身智能的“智能”來源何處，是另一個爭議核心。自動駕駛中，VLA（視覺語言動作模型）已成為主流解決方案，但面對具身智能中復(fù)雜度更高的任務(wù)環(huán)境，VLA能否“泛化”仍待驗(yàn)證。

王鶴認(rèn)為，自動駕駛的經(jīng)驗(yàn)已初步證明了“端到端”方案有更好的擴(kuò)展性，不依賴無窮無盡的規(guī)則，而是通過數(shù)據(jù)去驅(qū)動模型。他表示，VLA的意義在于，通過視覺觀測和自然語言指令，直接輸出動作決策，中間不再需要其他環(huán)節(jié)。這種路徑可以讓模型更充分地吸收數(shù)據(jù)背后的知識，發(fā)揮出最大的性能，而不受制于模塊化方案。

不過，王鶴也直言，目前VLA是具身智能研究的熱點(diǎn)，只是針對VLA究竟要突破什么，行業(yè)同樣有不同觀點(diǎn)。比如，有人希望把人類能做的所有事情都整合到VLA中，形成一個基座模型。王鶴認(rèn)為這太著急了。他指出，人類認(rèn)知不是只有視覺和語言，還包括力覺、觸覺、嗅覺、味覺、溫覺、聽覺??“所以VLA只能是一個起點(diǎn)，要想真正做到人類級別的具身智能，只能不斷融合新的模態(tài)。”

王鶴認(rèn)為，目前VLA最適合的任務(wù)是移動、抓取和放置。這些以視覺為主，加上末端的觸覺或力覺傳感器即可執(zhí)行，這類任務(wù)在工業(yè)和服務(wù)場景中已經(jīng)足夠廣泛，如果能先將這類VLA模型做扎實(shí)，“將會是具身智能真正第一次高潮的到來”。

穹徹智能聯(lián)合創(chuàng)始?、上海交通?學(xué)教授、上海創(chuàng)智學(xué)院副院?盧策吾則補(bǔ)充，VLA模型“確實(shí)集合了機(jī)器人幾件要干的事”——Vision（視覺）理解世界，Language（語言）與人類溝通，Action（動作）改變世界。但他也指出VLA當(dāng)前存在很大的限制。具身智能面對的物理世界比無人駕駛復(fù)雜得多，無人車只需在兩個維度做決策，且場景相對固定，而通用具身智能的場景是開放且有接觸的，空間更大、不確定性更多。因此，要做到通用，就要壓縮它的“不確定性”，并不停地在兼容框架中增加更多額外信息，在端到端的模型里壓縮它的空間。

此外，他強(qiáng)調(diào)對物理世界理解能力的增強(qiáng)也是“壓縮任務(wù)空間”的關(guān)鍵。穹徹團(tuán)隊在其第二代“機(jī)器人大腦”中，加入了“數(shù)字基因”“仿真數(shù)據(jù)資產(chǎn)”等模塊，希望通過仿真產(chǎn)生大量數(shù)據(jù)，減少真實(shí)世界中訓(xùn)練對樣本量的依賴。盧策吾認(rèn)為，找到更聰明的方式理解世界，把它們?nèi)诤系絍LA里，才可能真正推動通用智能的拐點(diǎn)出現(xiàn)。

從人形機(jī)器人的路徑分歧，到VLA模型的能力邊界，在具身智能這條路上，數(shù)據(jù)仍是燃料，形態(tài)仍有博弈。但最終，理解世界并與之交互的能力，或許才是決定智能生命形態(tài)的關(guān)鍵點(diǎn)。

如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。