要聞

銀河通用創(chuàng)始人王鶴：做好VLA，將見(jiàn)證具身智能第一次真正高峰的到來(lái)

每日經(jīng)濟(jì)新聞 2025-06-06 23:25:27

6月6日，在“2025智源大會(huì)”上，銀河通用創(chuàng)始人兼CTO王鶴表示，具身智能的當(dāng)下目標(biāo)是推動(dòng)產(chǎn)業(yè)化。他指出，人形機(jī)器人需在一般性貨架24小時(shí)服務(wù)，才標(biāo)志具身智能真正服務(wù)人民。對(duì)于VLA（視覺(jué)-語(yǔ)言-動(dòng)作模型，Vision-Language-Action），王鶴認(rèn)為其意義在于端到端輸出動(dòng)作，規(guī)避模塊化方案問(wèn)題，最適合應(yīng)用在移動(dòng)、抓取和放置，VLA還只是一個(gè)起點(diǎn)。

每經(jīng)記者｜李宇彤每經(jīng)編輯｜馬子卿

“我覺(jué)得今天我們談具身智能，它有一個(gè)當(dāng)下的目標(biāo)，就是我們一定要推動(dòng)具身智能的產(chǎn)業(yè)化。”6月6日，在“2025智源大會(huì)”上，北京銀河通用機(jī)器人有限公司（以下簡(jiǎn)稱(chēng)“銀河通用”）的創(chuàng)始人兼CTO（首席技術(shù)官）王鶴在會(huì)上如是說(shuō)道。

而銀河通用的輪式雙臂機(jī)器人GALBOT G1也亮相現(xiàn)場(chǎng)。演示環(huán)節(jié)中，GALBOT G1在聽(tīng)到指令后，開(kāi)始準(zhǔn)確地從現(xiàn)場(chǎng)搭建的商品擺放密集的貨架上，抓取對(duì)應(yīng)的物品。

GALBOT G1正在抓取商品圖片來(lái)源：每經(jīng)記者李宇彤攝

2023年5月，銀河通用在北京海淀創(chuàng)立，公司專(zhuān)注研發(fā)人形機(jī)器人硬件和具身智能大模型。在過(guò)去一年多時(shí)間里就完成了超12億元融資，投資方既包括美團(tuán)戰(zhàn)投、北汽產(chǎn)投、商湯國(guó)香基金等戰(zhàn)略及產(chǎn)業(yè)投資方，也包括啟明創(chuàng)投、藍(lán)馳創(chuàng)投、IDG資本等明星機(jī)構(gòu)。

6月1日，銀河通用正式推出自主研發(fā)的產(chǎn)品級(jí)端到端導(dǎo)航大模型TrackVLA。這是一款具備純視覺(jué)環(huán)境感知、語(yǔ)言指令驅(qū)動(dòng)、可自主推理、具備零樣本（Zero-Shot）泛化能力的具身大模型。

在銀河通用發(fā)布的演示短片中，機(jī)器狗在大模型的加持下能夠在超市、商場(chǎng)以及兒童游樂(lè)區(qū)等人員和路況都較為復(fù)雜的場(chǎng)所穩(wěn)定地跟隨前進(jìn)中的母子，并且還可以幫助攜帶重物。

一定要推動(dòng)具身智能產(chǎn)業(yè)化，但也要反思能否滿(mǎn)足用戶(hù)的要求

今年以來(lái)，具身智能一直是社會(huì)關(guān)注的焦點(diǎn)之一。而在北京舉行的全球首場(chǎng)人形機(jī)器人半程馬拉松比賽，以及5月底才剛剛在杭州落幕的機(jī)器人格斗賽都再次刷新了大眾對(duì)于人形機(jī)器人的市場(chǎng)預(yù)期。

對(duì)于具身智能領(lǐng)域，通過(guò)觀(guān)眾喜聞樂(lè)見(jiàn)的比賽形式讓更多人看到人形機(jī)器人只是一方面，“如何落地”才是整個(gè)產(chǎn)業(yè)的“必答題”。

“我覺(jué)得今天我們談具身智能，它有一個(gè)當(dāng)下的目標(biāo)，就是我們一定要推動(dòng)具身智能的產(chǎn)業(yè)化。”王鶴在今日會(huì)上表示。他指出，雖然在具身智能領(lǐng)域看到了很多炫酷的技能，但是也一定要反思這樣的技能，是否能在新的環(huán)境、新的物品和用戶(hù)對(duì)成功率的高要求下實(shí)現(xiàn)。

銀河通用創(chuàng)始人兼CTO 王鶴圖片來(lái)源：每經(jīng)記者李宇彤攝

在王鶴看來(lái)，如果人形機(jī)器人能夠在一般性的貨架進(jìn)行24小時(shí)的服務(wù)，才能構(gòu)成具身智能真正走向產(chǎn)業(yè)化，真正服務(wù)人民，創(chuàng)造生產(chǎn)力的開(kāi)始。“這也是我一直談的，我們要推動(dòng)人形機(jī)器人生產(chǎn)力時(shí)刻的到來(lái)。”

目前，銀河通用的機(jī)器人GALBOT G1已經(jīng)在現(xiàn)實(shí)生活場(chǎng)景中落地。

據(jù)王鶴介紹，銀河通用的機(jī)器人已經(jīng)在北京開(kāi)了7家無(wú)人藥店。這些機(jī)器人可以24小時(shí)在無(wú)人藥店里撿藥，對(duì)接騎手。王鶴表示，在今年年底，銀河通用預(yù)計(jì)在北京、上海、深圳一共開(kāi)100家無(wú)人藥店。王鶴也表示，希望后續(xù)的賽事可以在一些操作級(jí)別上對(duì)接起來(lái)，用賽事去引領(lǐng)這些有價(jià)值的、可落地的技能形成，不斷地把生態(tài)下沉下來(lái)。

而今年8月15日至8月17日，人形機(jī)器人的下一場(chǎng)盛會(huì)——“世界人形機(jī)器人運(yùn)動(dòng)會(huì)”將在國(guó)家體育場(chǎng)和國(guó)家速滑館舉辦。

“VLA還只是一個(gè)起點(diǎn)”

此外，王鶴也針對(duì)近期具身智能領(lǐng)域的熱點(diǎn)——VLA（視覺(jué)-語(yǔ)言-動(dòng)作模型，Vision-Language-Action）給出了自己的觀(guān)點(diǎn)。在他看來(lái)，VLA的意義在于它可以直接視覺(jué)觀(guān)測(cè)，獲得位置信息，最終這個(gè)模型端到端的輸出動(dòng)作，不經(jīng)過(guò)任何的中間產(chǎn)物。

“所以從端到端的角度上來(lái)講，（VLA）能夠真正充分地吸收數(shù)據(jù)背后的知識(shí)，讓這些（知識(shí)）發(fā)揮出最大的性能，而不會(huì)受制于一些模塊化方案中間階段的一些錯(cuò)誤，（規(guī)避）要寫(xiě)無(wú)窮無(wú)盡的規(guī)則標(biāo)準(zhǔn)的這些問(wèn)題。”王鶴說(shuō)。

而對(duì)于VLA下一步的突破方向，王鶴表示，將人類(lèi)一切能做的事情都囊括進(jìn)來(lái)，形成一個(gè)基座模型還是為時(shí)過(guò)早。因?yàn)槿祟?lèi)除了視覺(jué)的輸入，還有大量的信息來(lái)自嗅覺(jué)、味覺(jué)等一系列的感官。VLA還只是一個(gè)起點(diǎn)，想做到人類(lèi)級(jí)別的具身智能，還需要不斷地融合新的模態(tài)。

而王鶴認(rèn)為當(dāng)前VLA現(xiàn)在最適合應(yīng)用的方向還是移動(dòng)、抓取和放置。“這幾個(gè)技能基本上靠視覺(jué)為主，末端再加一個(gè)觸覺(jué)和力學(xué)的傳感器就能夠很好地執(zhí)行。而且它面對(duì)的很多任務(wù)，在工業(yè)、商業(yè)、服務(wù)等方面都有非常廣泛的應(yīng)用。”在王鶴看來(lái)，如果把這樣的VLA先做好，將見(jiàn)證具身智能第一次真正高峰的到來(lái)。

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線(xiàn)：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。