要聞

對話未來出行 | 商湯絕影CEO王曉剛：汽車是人工智能最好的載體，以世界模型和仿真學(xué)習(xí)突破特斯拉式數(shù)據(jù)壁壘

每日經(jīng)濟新聞 2025-05-16 11:58:15

2025年，智能座艙正朝“家庭成員”方向進化，具備記憶與共情能力。商湯絕影CEO王曉剛認(rèn)為，激光雷達(dá)只是階段性選擇，未來將被替代。商湯絕影通過“世界模型+強化學(xué)習(xí)”技術(shù)組合，降低硬件依賴，確保系統(tǒng)安全。在與車企合作上，王曉剛提出“太極式共生”模式，強調(diào)數(shù)據(jù)與研發(fā)體系的深度耦合。展望未來，商湯絕影希望在汽車行業(yè)深耕，推動商湯AI平臺化發(fā)展。

每經(jīng)記者｜劉曦每經(jīng)實習(xí)編輯｜余婷婷

隨著3A游戲大作開始“上車”，寶馬等一眾外資品牌在2025上海車展憑借“巨幕影院”和3D投影技術(shù)重新定義座艙體驗，智能汽車競爭的焦點已從硬件參數(shù)轉(zhuǎn)向認(rèn)知能力，行業(yè)正處于“軟件定義汽車”向“認(rèn)知重塑出行”躍遷的臨界點。

“未來的智能座艙不是冰冷的機器，而是能‘察言觀色’的家庭成員。”商湯絕影CEO、商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家王曉剛在接受《每日經(jīng)濟新聞》記者(以下簡稱NBD）獨家采訪時，借此形容當(dāng)前智能座艙的發(fā)展方向。在他看來，智能座艙的進化分為三個階段：早期的“問答工具”、大模型賦能的“全能助手”，以及具備記憶與共情能力的“家庭成員”。

工信部數(shù)據(jù)顯示，2025年第一季度中國L2級輔助駕駛新車滲透率已達(dá)65%，但智能駕駛供應(yīng)商正面臨嚴(yán)峻挑戰(zhàn)：價格戰(zhàn)愈演愈烈，車企自研趨勢日益明顯，同時智能駕駛事故頻發(fā)引發(fā)公眾對激光雷達(dá)等傳感器的廣泛討論。在這一背景下，商湯絕影如何在沒有激光雷達(dá)的情況下保障安全性？規(guī)?；宪嚾绾螌崿F(xiàn)盈利？

對此，王曉剛認(rèn)為，車輛搭載激光雷達(dá)只是階段性的技術(shù)選擇，隨著模型算法的演進、數(shù)據(jù)迭代和整體安全性的提高，激光雷達(dá)是可以被替代的。商湯絕影選擇通過“世界模型+強化學(xué)習(xí)”的技術(shù)組合，突破現(xiàn)實數(shù)據(jù)不足的瓶頸，在降低硬件依賴的同時確保系統(tǒng)安全。

商湯絕影CEO王曉剛圖片來源：企業(yè)供圖

談及與主機廠的關(guān)系時，王曉剛用“太極”比喻新時代的合作模式。在車企紛紛加強自研的背景下，商湯絕影定位為AI（人工智能）基礎(chǔ)設(shè)施與云端服務(wù)提供商，與車企在數(shù)據(jù)和研發(fā)體系上深度耦合。王曉剛認(rèn)為，這種模式既保留車企的核心自研能力，也能發(fā)揮科技公司的技術(shù)優(yōu)勢。

現(xiàn)階段汽車是人工智能最好的載體

NBD：商湯絕影現(xiàn)在打出口號叫“專注于汽車行業(yè)的AI公司”。為什么這么說？目前在做的主要重點是什么？

王曉剛：商湯是1+X的戰(zhàn)略，1就是大模型，X就是各個行業(yè)的板塊，絕影是其中的X之一，聚焦汽車行業(yè)。今天我們說商湯絕影是“最專注在汽車行業(yè)的AI公司”，其實離不開商湯這個平臺型的公司。它在不同的階段其實是有不同的行業(yè)作為驅(qū)動力，今天這個時間點的話，智能汽車是人工智能發(fā)展最強勁的驅(qū)動力。

輔助駕駛從過去十幾年發(fā)展到今天，已經(jīng)到了大規(guī)模進行落地推廣的階段。另外，尤其是多模態(tài)大模型和世界模型，在汽車領(lǐng)域的作用和能力實際上是體現(xiàn)得最充分的。因為在汽車這個空間，有聲音、有圖像，還有激光雷達(dá)、車機的各種信號，各種傳感器是非常豐富的。相比其他行業(yè)，比如手機、互聯(lián)網(wǎng)輸入比較單一，而汽車是一個非常好的應(yīng)用場景，去體現(xiàn)多模態(tài)大模型人機交互的能力。

而且，今天很多智能汽車?yán)锩嬗玫降倪@些技術(shù)和未來智能機器人，也是大家一致看好的方向。這些技術(shù)是高度重合的，但是你看機器人數(shù)量（目前）是非常少的，（而）汽車進行大規(guī)模量產(chǎn)，（有）大量的數(shù)據(jù)回流。所以，我們今天聚焦智能汽車，實際上能夠產(chǎn)生巨大的用戶價值。另外，這些技術(shù)也是為將來人工智能向通用人工智能演進打下了非常好的基礎(chǔ)。

NBD：之前理想汽車CEO李想說過一句話，他認(rèn)為汽車是人工智能最好的載體。

王曉剛：對，至少是目前這個階段。時代還在發(fā)展，當(dāng)今這個階段它就是一個最好的載體。

NBD：商湯絕影提出智能座艙需要“叛逆”進化，這是否意味著它必須具備更強的主動交互能力？

王曉剛：我們其實對智能座艙有一個思考，它的發(fā)展有幾個階段：第一個階段是工具，就是早期你提問題它回答，完成一個特定的任務(wù)。進入大模型的第二階段后，智能座艙躍升至“助手階段”，不僅能理解復(fù)雜指令，還能跨場景協(xié)同完成任務(wù)。第三個階段就是家庭成員，它不僅能幫你做事，還有情感上的連接，就像家里的寵物。假如有一天寵物離開了，情感上大家是非常難以割舍的。

過去幾個月，我們的智能座艙開發(fā)了一系列新功能。我們的產(chǎn)品經(jīng)理經(jīng)常與它互動，慢慢就產(chǎn)生共情。這一階段的智能座艙，不僅加強了人跟車之間的粘性和依賴，實際上也是對于人機交互的一個革命性改變。

NBD：感覺這是一個大概念，可以擴展到不只是汽車，甚至汽車以外都是可以的。

王曉剛：確實，情感化交互的邏輯具備普適性，但不同載體的實現(xiàn)條件差異顯著。以手機為例，它本質(zhì)上是被動響應(yīng)的設(shè)備，用戶需要主動喚醒、輸入指令后設(shè)備才會提供服務(wù)，既無法持續(xù)感知用戶狀態(tài)，也難以建立深度陪伴感。相比之下，汽車是更理想的情感載體。

當(dāng)用戶進入車內(nèi)，座艙系統(tǒng)天然處于全時待命狀態(tài)，攝像頭、麥克風(fēng)、座椅傳感器等設(shè)備持續(xù)運行，能夠?qū)崟r捕捉乘客的表情、動作、聲音甚至生理信號（如疲勞度），從而構(gòu)建動態(tài)的情感反饋循環(huán)。這種“無感卻無處不在”的交互模式是手機等難以實現(xiàn)的。

端到端是“必贏之戰(zhàn)”，激光雷達(dá)屬于階段性需求

NBD：您曾提到“端到端是必贏之戰(zhàn)，沒有B計劃”。與華為、特斯拉等的端到端方案相比，商湯絕影在模型或訓(xùn)練方式上有哪些獨特壁壘？

王曉剛：端到端的技術(shù)路徑差異取決于數(shù)據(jù)規(guī)模與實現(xiàn)方式，一種是兩段式端到端，就是把感知與規(guī)控拆分為兩個獨立模塊，規(guī)控部分采用小模型替代傳統(tǒng)規(guī)則。這種模式適用于數(shù)據(jù)量有限的場景，但能力上限受數(shù)據(jù)規(guī)模制約。另一種就是以特斯拉為代表的一段式端到端，全系統(tǒng)整合為單一模型，依賴超大規(guī)模真實數(shù)據(jù)訓(xùn)練。特斯拉憑借700萬輛車的海量數(shù)據(jù)回流，目前是唯一能規(guī)?；瘧?yīng)用此模式的企業(yè)。國內(nèi)其他車廠都干不了，我們也干不了。

在這種情況下，商湯絕影的選擇是“世界模型+仿真強化學(xué)習(xí)”。我們通過構(gòu)建高精度虛擬環(huán)境，在仿真中生成海量駕駛場景（如極端路況、復(fù)雜交互），使自動駕駛系統(tǒng)在模擬世界中反復(fù)試錯、自我進化。這與AlphaGo（一款圍棋人工智能程序）的演進邏輯相似，早期AlphaGo依賴人類棋譜訓(xùn)練，而AlphaZero（一種通用強化學(xué)習(xí)算法）通過自我博弈生成新策略，最終超越人類水平。

不過，圍棋的棋盤規(guī)則固定，狀態(tài)變化可精準(zhǔn)預(yù)測；現(xiàn)實駕駛中，車輛下一時刻的狀態(tài)受無數(shù)變量影響，自動駕駛的難點在于物理世界狀態(tài)演進的復(fù)雜性。

NBD：依靠地圖不行嗎？地圖方案在未來是否仍然可行，還是已經(jīng)逐漸失去作用？

王曉剛：以往，業(yè)界普遍采用高精度地圖，后來逐漸向輕量化地圖轉(zhuǎn)變，如今正逐步降低對地圖的依賴性?；氐街邱{層面，地圖方案存在局限性，因為智能座艙感知環(huán)境主要依賴攝像頭。我們擁有11個攝像頭，能夠?qū)崟r捕捉車輛周圍的視頻信息。但真正的挑戰(zhàn)在于預(yù)測，基于當(dāng)前攝像頭捕獲的畫面狀態(tài)，如何準(zhǔn)確預(yù)測下一時刻攝像頭中出現(xiàn)的場景？這就需要世界模型的能力。

目前，我們的世界模型可以模擬未來的場景變化。例如，當(dāng)車輛行駛至施工路段需要避讓時，世界模型能夠模擬避讓過程中的各種可能性，包括模擬碰撞后的情形。

NBD：我們看到商湯絕影有方案是沒有激光雷達(dá)的，現(xiàn)在大家都在說安全冗余，會不會擔(dān)心（沒有激光雷達(dá)）這個事兒？模型如何在保證安全的前提下實現(xiàn)好用？

王曉剛：我覺得不加激光雷達(dá)屬于一個階段性的問題，可能現(xiàn)階段大家對（智駕）安全有顧慮，所以搭載激光雷達(dá)?，F(xiàn)在，在高速路段場景下，即使不搭載激光雷達(dá)車輛也能夠正常行駛；但在城區(qū)復(fù)雜場景中，行駛難度會有所增加。不過，加激光雷達(dá)也不能解決所有問題，因為它本身也會受各種條件和天氣干擾，激光雷達(dá)也會老化，信號也會出現(xiàn)各種各樣的問題。

從我們的角度來看，將來隨著模型算法的演進、數(shù)據(jù)迭代，整體安全性的提高，這個（激光雷達(dá)）是可以被替代掉的。提高智駕安全性其實有很多方式，模擬仿真就是一種。

圖片來源：企業(yè)供圖

過去，在復(fù)雜場景下，若自動駕駛出現(xiàn)失敗，由于場景不可重復(fù)，只能采集類似場景進行訓(xùn)練，但這種方法不能保證解決問題。而模擬仿真技術(shù)的出現(xiàn)，使得記錄失敗場景并對其進行重構(gòu)成為可能。在仿真環(huán)境中，（我們）可以反復(fù)測試直至成功，并生成類似場景以確保模型的泛化性。這使得自動駕駛的技術(shù)邊界更加明確，能夠清晰地知曉在何種場景下系統(tǒng)有效、何種場景下可能失效，從而提高安全性。

NBD：現(xiàn)在有的車企會配置兩套系統(tǒng)，一套搭載激光雷達(dá)，另一套采用端到端系統(tǒng)，兩套系統(tǒng)互相兜底。您覺得這是一個好的方式嗎？或者說這是一個過渡階段的解決方案嗎？

王曉剛：目前來說，這是一個合理的方式。主要是端到端系統(tǒng)存在不確定性，而規(guī)則具有確定性，當(dāng)遇到無法處理的情況時，系統(tǒng)會讓車輛停下來。端到端系統(tǒng)基于類人學(xué)習(xí)，其應(yīng)對未見過場景的能力有限，因此需要其他方式兜底。不過，隨著未來世界模型的出現(xiàn)和仿真技術(shù)的發(fā)展，當(dāng)能夠仿真出各種場景并明確技術(shù)邊界時，行業(yè)將更具確定性。知道系統(tǒng)在何種場景下有效或失效，大家有確定性就知道邊界在哪兒，可能就會減少對這種雙系統(tǒng)配置的依賴。

與車企合作模式：“太極式共生”

NBD：產(chǎn)品現(xiàn)在的上車情況是怎樣的？大概有多少個品牌在用？

王曉剛：目前，我們的產(chǎn)品已經(jīng)上車7款車型。在智能駕駛方面，今年3月份剛剛實現(xiàn)了首批地平線J6M方案的量產(chǎn)。接下來，今年我們還將推出價格更為親民的地平線J6E方案，并將在奇瑞品牌實現(xiàn)量產(chǎn)。此外，基于英偉達(dá)Thor平臺開發(fā)的系統(tǒng)，以及包括世界模型和強化學(xué)習(xí)等端到端技術(shù)，會應(yīng)用到東風(fēng)的量產(chǎn)車型中。

NBD：如今主機廠和供應(yīng)商的關(guān)系似乎與過去有所不同，尤其是許多科技公司也成為了主機廠的供應(yīng)商。如何看待新時代下我們與汽車主機廠的合作模式？商湯絕影是供應(yīng)商還是與主機廠的合作關(guān)系已經(jīng)發(fā)生了變化？

王曉剛：這里可以用“鴛鴦鍋”和“太極”來形象地描述兩種不同的合作模式。“鴛鴦鍋”中紅湯和白湯的界限非常清晰，合作的焦點往往集中在邊界上。在這種模式下，主機廠如果發(fā)展自研能力，目的可能是為了替代供應(yīng)商。而“太極”則體現(xiàn)了中國人獨特的智慧，雙方相互呼應(yīng)、相互依存。

在人工智能領(lǐng)域，主機廠需要具備一定的自研能力，以便更好地理解和把握技術(shù)，這不僅涉及自動駕駛，還包括智能座艙以及利用人工智能改造生產(chǎn)線和供應(yīng)鏈等眾多方面。然而，人工智能技術(shù)發(fā)展迅速且投入巨大，如果主機廠在這一領(lǐng)域獨自投入巨資建設(shè)超算中心等基礎(chǔ)設(shè)施，不僅成本高昂，而且在汽車價格不斷下降的市場環(huán)境下很難實現(xiàn)高性價比。

我們與主機廠的合作是一種內(nèi)外結(jié)合、緊密共生的關(guān)系。主機廠的自研團隊與我們的AI技術(shù)相互補充，缺一不可。主機廠需要保留一定的自研能力，而我們的AI技術(shù)則為其提供支持。沒有主機廠的數(shù)據(jù)支持，我們的AI技術(shù)難以發(fā)揮作用；而沒有我們的AI技術(shù)，主機廠也難以在這一領(lǐng)域?qū)崿F(xiàn)高效發(fā)展。簡單說，雙方就是一個非常緊密的共生關(guān)系。

NBD：過去主機廠多強調(diào)全棧自研，如今則更傾向于全?？煽?，且這種可控存在多種模式，比如通過股權(quán)合作將供應(yīng)商與自身綁定。商湯絕影是否會與主機廠開展此類股權(quán)合作呢？

王曉剛：股權(quán)合作只是其中一種形式，雖然能在特定時間節(jié)點保障資源投入，但主機廠當(dāng)下亟待解決的核心問題并非資源，而是雙方研發(fā)體系的對齊。這包括工具鏈、數(shù)據(jù)格式以及各種管線等方面的適配。若主機廠與供應(yīng)商的兩套體系無法對接，雙方的基礎(chǔ)設(shè)施與能力便難以實現(xiàn)協(xié)同。

在現(xiàn)實情況下，主機廠也不可能構(gòu)建多套研發(fā)體系，通常只會采用一套。因此，關(guān)鍵在于推動研發(fā)體系與基礎(chǔ)設(shè)施的企業(yè)應(yīng)用，這并非單純的股權(quán)投入所能解決。即便主機廠對多家車企進行投資，也不可能為其分別建立獨立的研發(fā)體系。

圖片來源：企業(yè)供圖

NBD：與車企合作肯定會涉及數(shù)據(jù)，您以前也強調(diào)過誰更接近數(shù)據(jù)，誰就占據(jù)主動權(quán)。那么，如何平衡數(shù)據(jù)隱私和訓(xùn)練的效率？

王曉剛：我們今天跟車企合作，車廠依然是數(shù)據(jù)的擁有者。關(guān)于隱私保護，所有車輛采集的數(shù)據(jù)都需要進行脫敏處理，例如去除人臉和車牌信息。此外，國家對此也有明確的規(guī)范和要求，商湯絕影自身也具備數(shù)據(jù)脫敏技術(shù)，能夠為車企提供數(shù)據(jù)脫敏服務(wù)。

自動駕駛研發(fā)重心轉(zhuǎn)向：從車載到云端

NBD：您之前提到智能駕駛距離盈利還有三年左右，隨著未來智能駕駛的大規(guī)模產(chǎn)業(yè)化，如何通過上車來降低成本并增強盈利能力呢？

王曉剛：首先它的量得起來，目前市場上的量產(chǎn)爆發(fā)是一個積極的趨勢。另外，為了推動行業(yè)發(fā)展，標(biāo)準(zhǔn)化和平臺化至關(guān)重要。我們今天看到這樣一個趨勢，當(dāng)前攝像頭配置逐漸趨于一致，車企在采集攝像頭數(shù)據(jù)時也盡量采用相同類型的攝像頭，并且盡可能復(fù)用調(diào)試工作，這樣可以避免額外的數(shù)據(jù)采集，提高效率實現(xiàn)平臺化。

NBD：如果在汽車行業(yè)，您覺得商湯絕影以后會成為自動駕駛的安卓還是蘋果的iOS？

王曉剛：首先我們要擁有自動駕駛的這些全量方案，可能后面會更多地提供云服務(wù)、大模型和基礎(chǔ)設(shè)施。自動駕駛未來的研發(fā)，在車端的研發(fā)會變得越來越輕，而在云端的基礎(chǔ)設(shè)施投入會越來越重，因為都被模型替代了。強化學(xué)習(xí)、世界模型都是在訓(xùn)練階段、在云端發(fā)生的，最后出來的端側(cè)的東西相對來說比較簡單。所以我們自己要提供云服務(wù)，給客戶這些基礎(chǔ)設(shè)施的支撐。

NBD：展望未來3年到5年，商湯絕影有什么規(guī)劃？您希望達(dá)到什么樣的目標(biāo)？

王曉剛：我覺得從三個層面來看，在通用人工智能高速發(fā)展的浪潮里，希望絕影始終能夠站在前列，給消費終端客戶帶來優(yōu)秀且新的體驗。從公司自身來說，未來3年到5年，（希望）能夠有更好地發(fā)展，進入下一個階段。商湯絕影希望通過3年至5年在汽車行業(yè)深耕，能夠極大地去推動商湯AI平臺化的發(fā)展。畢竟，商湯再先進的技術(shù)也需要找到合適的應(yīng)用和落地場景，以便獲取反饋，形成正向循環(huán)。

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

數(shù)據(jù) 模型人工智能特斯拉

上一篇文章

自強！助殘！全國200個集體260名個人受到表彰

返回每經(jīng)網(wǎng)首頁

下一篇文章

全力支持現(xiàn)代化產(chǎn)業(yè)體系建設(shè)！中國進出口銀行：1-4月投放制造業(yè)中長期貸款超1800億元

相關(guān)文章