【導(dǎo)讀】從IBM中國(guó)研究院院長(zhǎng),IEEE女工程師協(xié)會(huì)北京分會(huì)創(chuàng)始主席,再到如今的智源研究院副院長(zhǎng)兼總工程師,林詠華始終站在中國(guó)科技界的風(fēng)口浪尖。智源和林詠華如今關(guān)注的具身智能,如火如荼的背后離不開他們的努力。為了幫大家尋找到下一代具身智能的突破口,林詠華為我們指出了關(guān)鍵所在:數(shù)據(jù)、評(píng)測(cè)、系統(tǒng)軟件。而這三大要素,也是智源和林詠華為全球具身智能行業(yè)生態(tài),貢獻(xiàn)了關(guān)鍵性的中國(guó)力量。
有沒有發(fā)現(xiàn),今年機(jī)器人突然就雨后春筍般冒出來(lái)了。
從特斯拉機(jī)器人街頭賣爆米花,到國(guó)內(nèi)機(jī)器人運(yùn)動(dòng)會(huì),再到社交網(wǎng)絡(luò)上的機(jī)器人惡作劇。
具身智能,猛地一下就闖入了人類的生活!
你甚至可以在街頭看到有人遛「機(jī)器狗」,后邊還跟著一個(gè)穿衣服的機(jī)器人。
具身智能為何突然井噴式發(fā)展?
機(jī)器人很多年就有了,比如像波士頓動(dòng)力等,為何今年具身智能好像突然火了?
機(jī)器人技術(shù)的發(fā)展和這幾年大模型AI突飛猛進(jìn)的進(jìn)化有關(guān)系嗎?
具身智能也有像人類一樣的「大小腦」結(jié)構(gòu)嗎?
這些問題的答案,在新智元十周年慶典上,智源研究院副院長(zhǎng)兼總工程師林詠華為我們做出了系統(tǒng)性解讀。
林詠華以《從大模型到具身智能——基礎(chǔ)技術(shù)的新挑戰(zhàn)(數(shù)據(jù)、評(píng)測(cè)、計(jì)算)》為題,獻(xiàn)上了一場(chǎng)連接歷史與未來(lái)的思想盛宴。
科技界的女性力量
提起林詠華院長(zhǎng)就不得不提她與新智元?jiǎng)?chuàng)始人楊靜多年的友誼,她們也反映和代表了科技界的女性力量。
在2019年IEEE國(guó)際女工程師領(lǐng)導(dǎo)力峰會(huì)上,專家們一致呼吁:女性應(yīng)更多參與AI和STEM領(lǐng)域,建立女性主導(dǎo)的開發(fā)者社區(qū),推動(dòng)「科技向善」,讓未來(lái)智能世界更加多元與包容。
楊靜在會(huì)上表示:女性天生具有較強(qiáng)的愛心與同理心,有利于科技逐步聚焦于「善」,讓科技惠及更多的人。
林詠華女士曾是IBM中國(guó)研究院成立以來(lái)首位本土女性院長(zhǎng),亦是IEEE北京女性工程師委員會(huì)主席,長(zhǎng)期不懈努力推動(dòng)中國(guó)女性成為未來(lái)AI世界的奠基石。
加入智源研究院后,她一直耕耘在人工智能的系統(tǒng)技術(shù)、數(shù)據(jù)和評(píng)測(cè)研究,打造了從大模型創(chuàng)新到具身智能突破的創(chuàng)新基石。
全能選手
從大模型到具身智能,什么技術(shù)決定了他們的發(fā)展?
加入智源后,林詠華負(fù)責(zé)了人工智能系統(tǒng)、數(shù)據(jù)、評(píng)測(cè)三大方向的研究,她把這三大方向定位為整個(gè)大模型和具身智能的基礎(chǔ)技術(shù)。
現(xiàn)在的大模型訓(xùn)練,數(shù)據(jù)是關(guān)鍵,此前Meta不惜143億美金重金也要買下數(shù)據(jù)標(biāo)注公司Scale AI就是證明。
在數(shù)據(jù)上,智源研究院發(fā)布了全球最大的中英文高質(zhì)量數(shù)據(jù)集CCI 4.0,連同其余上百個(gè)智源開源的數(shù)據(jù)集一同,成為了國(guó)家級(jí)的高質(zhì)量中文訓(xùn)練數(shù)據(jù)的基石。
2025年5月6日,智源研究院在法國(guó)巴黎舉行的GOSIM全球開源創(chuàng)新論壇上發(fā)布大型開源文本數(shù)據(jù)集CCI 4.0
林詠華還透露,智源研究院現(xiàn)在剛完成新的一輪大模型評(píng)測(cè)。
并且,最重要的是智源的系統(tǒng)軟件計(jì)算部分,已經(jīng)支持了包括英偉達(dá)、寒武紀(jì)、華為等十多家芯片廠商的超過20款不同芯片。
智源可以說(shuō)是AI領(lǐng)域的全能選手。
這一年,新智元也見證了他們?cè)诨A(chǔ)模型、具身智能、視覺模型上的突飛猛進(jìn)。
比如單卡也能跑萬(wàn)幀的視覺模型Video-XL-2,速度、效果、長(zhǎng)度全拉滿。
智源的國(guó)產(chǎn)多模態(tài)圖像生成模型OmniGen2開源一周狂攬2000星,外網(wǎng)爆火。
還有今年7月剛剛開源的全球最強(qiáng)具身智能大腦RoboBrain 2.0全面超越GPT-4o。不僅問鼎評(píng)測(cè)基準(zhǔn)SOTA,還成功刷新跨本體多機(jī)協(xié)作技術(shù)范式!
RoboBrain 2.0-32B在BLINK-Spatial、RoboSpatial、RefSpatial-Bench、Where2Place、EgoPlan2和Multi-Robot-Plan等空間與時(shí)間推理基準(zhǔn)上均取得最佳表現(xiàn)
具身智能十年進(jìn)化和挑戰(zhàn)
林詠華首先回顧一下過去十年機(jī)器人的發(fā)展歷程。
十年間,大模型推動(dòng)具身智能快速發(fā)展,從傳統(tǒng)的控制算法,到Sim2Real模仿學(xué)習(xí)。
在Transformer架構(gòu)出現(xiàn)后,迎來(lái)了VLM模型,現(xiàn)在終于來(lái)到硬件與AI深度融合的VLA模型。
機(jī)器人也要分「大小腦」
林詠華提到,數(shù)據(jù)領(lǐng)域,尤其在2017年-2022年,那時(shí)候大模型還沒有發(fā)展起來(lái),當(dāng)時(shí)機(jī)器人領(lǐng)域的算法主要是強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)。
但是從去年到現(xiàn)在,幾個(gè)十萬(wàn)、百萬(wàn)具身智能訓(xùn)練數(shù)據(jù)集的出現(xiàn),驗(yàn)證了大模型進(jìn)入到具身智能。
當(dāng)前,受制于端到端訓(xùn)練的復(fù)雜性、模型的參數(shù)量和實(shí)時(shí)控制等要求,很難用一個(gè)大模型來(lái)端到端完成具身智能從高層的世界理解到末端快速控制和響應(yīng)。因此,智源提出大腦模型和小腦模型這種分層方式。
?機(jī)器人大腦:理解物理世界、理解人類意圖、人-機(jī)和機(jī)-機(jī)交互、推理決策等
?機(jī)器人小腦:拆解指令、觀察物理環(huán)境、調(diào)用工具及輸出硬件控制等
當(dāng)前業(yè)界開始形成共識(shí),并探索一種分工范式。科研機(jī)構(gòu)研發(fā)訓(xùn)練通用領(lǐng)域、或針對(duì)幾個(gè)領(lǐng)域的大腦模型和小腦模型,并開源出來(lái);行業(yè)企業(yè)通過對(duì)特定場(chǎng)景和機(jī)器人本體硬件進(jìn)行少量數(shù)據(jù)采集,基于通用小腦模型進(jìn)行后訓(xùn)練,獲得更高準(zhǔn)確率的具身模型。
當(dāng)前的大腦模型基本上是VLM語(yǔ)言視覺的多模態(tài)模型,大腦模型輸出的是一個(gè)「規(guī)劃」,而不是操控物理硬件的動(dòng)作指令和參數(shù)。所以大腦模型可以沿用在大模型里面的訓(xùn)練范式,包括各種VLM模型的訓(xùn)練數(shù)據(jù)集,目前在HuggingFace上面,百萬(wàn)條視頻、圖片數(shù)據(jù)集類型已經(jīng)挺多了。
可到了小腦模型(VLA:視覺語(yǔ)言動(dòng)作模型),問題出現(xiàn)了,這方面的高質(zhì)量、大規(guī)模數(shù)據(jù)十分匱乏。
林詠華說(shuō)在訓(xùn)練小腦模型的時(shí)候,需要的是針對(duì)給定的指令和當(dāng)下的環(huán)境信息(如攝像頭采集數(shù)據(jù)),本體執(zhí)行的一系列動(dòng)作序列,包括各個(gè)硬件部件(如機(jī)械臂、末端夾爪等)的執(zhí)行參數(shù)信息。
為什么真機(jī)數(shù)據(jù)對(duì)我們的小腦模型(VLA)很重要?
因?yàn)樗刂屏宋覀兊臋C(jī)器人,指導(dǎo)它收取到一條命令,例如抓取杯子,如何通過多步驟的控制機(jī)器人雙臂以及末端去抓取杯子。
林詠華說(shuō):到今年為止,HuggingFace上開源的百萬(wàn)級(jí)真機(jī)數(shù)據(jù)集也就兩個(gè)。更別說(shuō)靈巧手這類新型硬件的高質(zhì)量數(shù)據(jù),稀缺中的稀缺。
有兩篇常被提及的工作能說(shuō)明「泛化」的苗頭:
與字節(jié)的GR3。
論文地址:https://arxiv.org/pdf/2504.16054v1
論文地址:https://arxiv.org/pdf/2507.15493v1
二者思路都指向一點(diǎn):先有一個(gè)通用水平不錯(cuò)的小腦(VLA)基座,再用少量真機(jī)做后訓(xùn)練,這樣在新環(huán)境里還是能扛住一部分任務(wù)。
但光有這個(gè)還不足夠解決一切問題:要想泛化能力更強(qiáng)大,數(shù)據(jù)量、硬件覆蓋面、數(shù)據(jù)質(zhì)量三個(gè)指標(biāo)都得往上抬。
智源不只「要數(shù)據(jù)」,而是把「采-訓(xùn)-測(cè)」做成流水線:
?多源補(bǔ)齊:核心是真機(jī)遙操作,動(dòng)捕、純視頻的「間接數(shù)據(jù)」做補(bǔ)充。
?效率增倍:從今年3月起,隨著平臺(tái)工具鏈的迭代,單人單日的采集產(chǎn)能明顯抬升,成本下降,節(jié)奏加快。
評(píng)測(cè):從「比一次分?jǐn)?shù)」到「看全過程」,把難題曝光
第二個(gè)方面是評(píng)測(cè)。
做語(yǔ)言大模型時(shí),大家還能用VQA等相對(duì)成熟的方法,但具身評(píng)測(cè)要上真機(jī)、進(jìn)真實(shí)環(huán)境,難度是成倍往上疊的。
智源今年下了很大力氣搭建評(píng)測(cè)平臺(tái)和場(chǎng)景、設(shè)計(jì)過程指標(biāo)。
在世界人形機(jī)器人運(yùn)動(dòng)會(huì)的足球項(xiàng)目中,智源不是只看誰(shuí)贏了球,而是把「感知—定位—規(guī)劃—執(zhí)行—恢復(fù)」拆成一串更細(xì)顆粒度的指標(biāo),更精確地指出模型「掉鏈子」的環(huán)節(jié)。
當(dāng)前,各個(gè)團(tuán)隊(duì)的真機(jī)和真實(shí)環(huán)境的評(píng)測(cè)剛剛起步、尚未對(duì)齊,更無(wú)法統(tǒng)一。可以看到,今年上半年出來(lái)的一批VLA模型,幾乎都只拿去年的當(dāng)對(duì)照,在真機(jī)評(píng)測(cè)結(jié)果上是「各說(shuō)各話」。
健壯性是機(jī)器人的重要特性:長(zhǎng)鏈條任務(wù)中要穩(wěn),環(huán)境擾動(dòng)下也要穩(wěn)。那評(píng)測(cè)就不能只看一次漂亮的結(jié)果,而要看上百次、看在不同場(chǎng)景下能不能穩(wěn)穩(wěn)地做對(duì)。這恰恰需要過程指標(biāo),讓改進(jìn)有抓手。
在剛結(jié)束的世界人形機(jī)器人運(yùn)動(dòng)會(huì)里,智源在背后做了過程性評(píng)測(cè)的地基工程:不僅有最終比分,還有動(dòng)作分解的量化指標(biāo)與日志。
另一方面,智源在Hugging Face上提供了大腦模型的評(píng)測(cè)方法和結(jié)果,給業(yè)界分析了各種通用VLM模型與「大腦模型」所需要的物理世界感知理解能力的明顯差距。差距在哪里,下一步的方向就應(yīng)該在哪里。
系統(tǒng)軟件:用FlagOS統(tǒng)一「碎片化」現(xiàn)狀,跨芯、端云、低時(shí)延
第三件大事是系統(tǒng)軟件。
一句話概括:不只要訓(xùn)得起,更要跑得起、遷得快。
現(xiàn)實(shí)世界里,云端和端側(cè)用的芯片家族不同,國(guó)內(nèi)外生態(tài)又百花齊放。
如果每換一次芯片都要推倒重來(lái),具身智能永遠(yuǎn)跑不出規(guī)模效應(yīng)。這就是FlagOS要解決的問題:面向多種AI芯片的統(tǒng)一開源棧,將「編譯器-算子庫(kù)-框架-通信庫(kù)」一體打通,既統(tǒng)一抽象、又兼容差異,實(shí)現(xiàn)跨芯遷移與端到端優(yōu)化。
智能的可復(fù)制性決定了邊際成本。
統(tǒng)一棧就是把「一次適配、多處可用」變成現(xiàn)實(shí),把研發(fā)精力從無(wú)休止的「環(huán)境折騰」里解放到算法與任務(wù)上。
為此,智源研究院做了很多卓有成效的工作:
?跨芯遷移速度:大腦模型可以在一天內(nèi)遷到一款與Orin pin-to-pin兼容的國(guó)產(chǎn)模組上,速度與指標(biāo)都在線,這在過去幾乎不可想象。
?開源可取用:在HuggingFace與魔搭上,基于FlagOS的模型列表已經(jīng)涵蓋英偉達(dá)、華為、寒武紀(jì)、乃至ARM等多種版本。像RoboBrain這樣的具身大腦模型,能找到「開箱即用」的跨芯包。
?端云協(xié)同:模型在云上訓(xùn)、端上跑,跨芯部署與時(shí)延控制協(xié)同考慮,形成閉環(huán)。
從「大腦/小腦」到「產(chǎn)業(yè)落地三問」,把路線圖講明白
林詠華明確了一點(diǎn):把一切都交給一個(gè)大模型端到端包辦并不現(xiàn)實(shí)。
行業(yè)初步共識(shí)是分層范式:大腦模型負(fù)責(zé)理解與規(guī)劃,小腦模型(VLA)負(fù)責(zé)把計(jì)劃翻譯成可執(zhí)行的動(dòng)作控制信號(hào)。
在這個(gè)范式下,研究機(jī)構(gòu)更可能開源通用性更高的大腦/小腦基座,垂直行業(yè)基于這些基座做小樣本后訓(xùn)練,落到具體場(chǎng)景。
智源的三件基礎(chǔ)工作(數(shù)據(jù)-評(píng)測(cè)-系統(tǒng)軟件)恰好卡在這個(gè)范式的關(guān)鍵節(jié)點(diǎn)。再加上電池與功耗這些工程制約,光模型強(qiáng)大還不夠,因?yàn)檫@是一個(gè)系統(tǒng)。
談落地前,下面這三條是關(guān)鍵:
?夠聰明(復(fù)雜環(huán)境下連續(xù)任務(wù)穩(wěn)定完成);
?夠劃算(效率與成本能打平、長(zhǎng)期運(yùn)行可控);
?能做人做不了或不愿做的事(危險(xiǎn)、枯燥、極端)。
滿足其中至少一條,才有望規(guī)模化進(jìn)入行業(yè)與家庭。
安全:產(chǎn)業(yè)落地的重要門檻
林詠華在演講中也提醒了我們:不少人都看過「機(jī)器人發(fā)瘋」的視頻。
一旦失控,你拔不了電源線(供電是電池)、也拽不掉網(wǎng)線(通信走Wi?Fi/5G)。
這和工業(yè)機(jī)械臂旁邊有個(gè)物理急停按鈕完全不是一個(gè)難度等級(jí)。
具身的「危險(xiǎn)邊界」天然比純軟件更近現(xiàn)實(shí)世界一大步。
沒有一套被產(chǎn)業(yè)驗(yàn)證的多級(jí)兜底,難談「進(jìn)千家萬(wàn)戶」。
某種意義上,可控性是走向ASI的「入場(chǎng)券」。
越強(qiáng)的智能,越要可解釋、可約束、可急停,這也是給未來(lái)多留條退路。
數(shù)據(jù)-評(píng)測(cè)-系統(tǒng)軟件,是具身智能突破口
當(dāng)下,大模型進(jìn)入具身逐步成為共識(shí),但必須分層(大腦/小腦),且需要更強(qiáng)的VLA通用基座+更廣硬件覆蓋+更高質(zhì)量真機(jī)數(shù)據(jù)。
智源的路徑正是順著這條線往前推進(jìn),把「分層范式」所需的「數(shù)據(jù)-評(píng)測(cè)-系統(tǒng)軟件」三環(huán)補(bǔ)全。
還有一個(gè)行業(yè)現(xiàn)實(shí):仿真仍在探索階段,能替代一部分,但很難替代「與世界的真實(shí)接觸」。
越是抓握、摩擦、形變、重量這些細(xì)節(jié),越不能指望仿真一步到位。
所以,接下來(lái)更像一場(chǎng)「耐力賽」:
把「真實(shí)世界的不確定性」不斷拉進(jìn)訓(xùn)練與評(píng)測(cè)閉環(huán),把失敗樣本與極端工況當(dāng)寶貝一樣收集,然后再靠系統(tǒng)軟件把結(jié)果搬到端上穩(wěn)穩(wěn)地跑。
大腦模型已發(fā)布,小腦模型還在不斷探索和進(jìn)步的路上;
采集效率提升、過程評(píng)測(cè)成形、跨芯生態(tài)鋪開——這幾件事串起來(lái),就構(gòu)成了智源的「具身底座」。