導讀:具身智能作為人工智能領域的前沿方向,正從技術驗證邁向實際應用,并深度融入各類實體場景,展現出廣闊的產業革新潛力。當前,全球主要國家均已將具身智能納入科技發展戰略,推動相關技術突破與產業化落地。具身智能不僅是技術發展的必然趨勢,更是推動社會智能化轉型的重要力量。隨著應用場景的不斷拓展和產業生態的完善,它將在全球范圍內掀起新一輪科技革命,為經濟高質量發展注入強勁動能。
本篇將分享中國工程院院士于海斌、中國工程院院士,中國圖象圖形學學會理事長王耀南、中國科學院院士張鈸對于“具身智能”的見解。
2025具身智能與智能機器人技術演進、
挑戰與未來趨勢研判
人工智能(AI)自1956年達特茅斯會議正式提出以來,經歷了數次技術浪潮與寒冬。于海斌院士指出,AI的發展可分為四個階段:符號邏輯推理階段(1950s-1980s):以知識表達和專家系統為核心,但受限于知識獲取的困難,最終因實用性不足進入第一次寒冬。 神經網絡連接階段(1980s-2000s):辛頓(Geoffrey Hinton)等人提出反向傳播算法,推動神經網絡發展,但受限于算力和數據,應用場景有限。 深度學習階段(2010s至今):以卷積神經網絡(CNN)和斯坦福大學李飛飛團隊構建的ImageNet數據庫為標志,AI在圖像識別等領域實現突破,識別率從60%提升至超越人類水平。具身智能(Embodied AI)階段(2020s起):AI從純數據驅動轉向與物理世界交互,強調智能體通過身體、環境與任務的協同實現認知與行為進化。
圖靈早在計算機理論初期即提出兩種智能路徑——“離身智能”(如ChatGPT依賴純數據推理)與“具身智能”(需與物理設備結合)。然而,具身智能因技術復雜度高長期滯后,直到機器人學、神經科學和心理學的交叉融合為其提供了新思路。
環境交互與智能發育的必然性:以一項科學實驗來印證環境交互與智能發育呈現正相關性,該實驗反饋了智能的成長依賴與環境的動態互動作用。 來自麻省理工學院兩位研究人員,把兩只小貓放進了一個圓桶內,兩只小貓都在圓筒內部繞圈運動。第一只小貓是白己走的;第二只小貓則被放在與柱體中心軸相連的小盒子里。兩只小貓看到的東西完全相同。結果顯示只有靠自己身體運動的小貓發育出了正常的視力。這進一步印證了“心靈手巧”的逆向邏輯——肢體動作的靈活性(如操作工具)會反向促進認知能力的提升。
具身智能三位一體的智能框架:具身智能強調“大腦-身體-環境”三位一體。其中大腦負責高層決策與意圖理解(如大語言模型),身體通過傳感器與執行器實現物理交互(如機械臂、仿生關節),環境提供動態反饋與訓練場景(如仿真平臺、真實物理空間)。三者協同構成閉環,使智能體能夠通過試錯學習適應復雜任務。
從“感知智能”到“行動智能”的跨越:傳統AI擅長靜態感知(如圖像識別),但缺乏對物理世界的動態響應能力。波士頓動力(Boston Dynamics)的Atlas機器人通過深度學習與強化學習結合,實現了翻越障礙、適應地形變化等復雜動作,標志著具身智能在運動控制領域的突破。
數字人:中國通用人工智能研究院開發的“數字人通通”模擬人類從嬰兒期開始的成長過程,通過與虛擬環境的交互(如聽覺、觸覺反饋)實現認知進化。這一嘗試為研究人類智能發育提供了新范式,但也引發倫理爭議——若機器人通過環境交互自主進化,人類是否可能失去控制? ?
機械臂與大語言模型的融合:谷歌RT-X平臺將大語言模型(LLM)與機器人操作結合,使機械臂能夠理解自然語言指令(如“整理房間”),并自主分解任務步驟(識別雜物、分類歸置)。這一技術已在疊衣服、精細裝配等場景中展現潛力,但其泛化能力仍受限于物理規則與數據多樣性。
人形機器人的爭議與前景:馬斯克力推的Optimus人形機器人引發兩極評價。支持者認為人形是通用化的終極形態,可適配人類環境(如樓梯、工具),而質疑者指出其成本高昂、技術冗余(如多關節驅動難題)。
人形機器人的核心價值在于“本體硬件”與“智能算法”的協同突破。例如,開源算法(如波士頓動力的運動控制模型)大幅降低了本體研發門檻,而黃仁勛(英偉達CEO)布局的具身智能訓練平臺,或將推動行業標準化。
智能駕駛與低空經濟:盡管全無人駕駛面臨地面環境的極端復雜性(如突發行人、不規則道路),但網聯汽車的輔助駕駛(如車道保持、自動泊車)和低空經濟(無人機物流、巡檢)已成為更可行的商業化方向。
在機器人技術路徑未來發展趨勢探討方面,于海斌院士表示未來人形機器人肢體部分有很大的提升空間,如基于高能量密度的仿生驅動肢體。仿照人類心臟的高效供能機制,研發微型液壓驅動與仿生肌肉,如德國費斯托的氣動機械臂就是一個很好的參考方向,該機械臂核心優勢在于其高精度控制與仿生設計的融合,擁有12個自由度,動作柔性且穩定,部分型號搭載AI技術實現自我學習優化,電磁閥壽命超3000萬次,具備良好的性能和耐用性。
此外,生物融合也是未來機器人發展趨勢。未來,我們可以通過培養生物細胞構建具有感知與驅動能力的“類器官”產品,盡管其生存環境要求苛刻,但為軟體機器人提供了新思路。
小腦主要作用在于提升人形機器人的運動協調能力,運動控制依賴海量物理數據,而真實環境訓練成本過高。目前國內已經有相對成熟的平臺進行機器人的模擬訓練,如國家地方共建人形機器人創新中心開發的,異構人形機器人訓練場通過“虛擬-現實”遷移學習(Sim2Real),使機器人能在低成本場景中預訓練動作(如行走、跳躍),再遷移至真實環境微調。
大腦提供決策模型與機器人的認知能力,目前多模態感知技術是主要方案,該方案融合視覺、觸覺、力覺傳感器,提升環境理解的全面性。在具體案例方面,北京大學電子學院程翔教授團隊提出的“機器聯覺”系統,通過智能融合通信與多模態感知信息,有效提升了機器人在復雜環境中的感知、決策與通信能力。
如何解決大模型“災難性遺忘”問題,實現機器人的終身學習方式。愛丁堡大學提出的增量強化學習框架是一個很好的解決“災難性遺忘”的解決方案。它能夠在保持已有知識的基礎上,通過逐步增量式地更新策略,快速適應新環境或新任務,從而顯著提升機器人在動態變化環境中的學習效率和性能表現,無需從頭開始重新訓練整個模型。
未來十年,具身智能的算法與訓練平臺將快速發展,而硬件(如高精度傳感器、仿生關節)受限于材料與工藝,進步速度相對緩慢。企業需優先布局軟件生態(如仿真平臺、數據鏈),而非盲目投入硬件研發。
此外具身智能缺乏統一理論體系(如認知科學的世界模型),但場景驅動的工程化應用(如倉儲機器人、醫療外骨骼)將率先落地。國家需推動跨機構協作,解決數據確權與模型共享難題。
在通用終端的終極形態方面,人形機器人未必是唯一答案,具身智能可能通過“一腦多機”模式賦能多樣化設備(如工業機床、家用電器)。例如,同一AI核心可同時調度無人機群與地面機器人,實現任務協同。
在倫理與安全方面,若具身智能體通過環境交互自主進化,可能超出人類預設的邊界。行業需提前建立倫理規范(如行為約束算法、人機權責界定),避免技術失控風險。
具身智能正在讓AI從“虛擬大腦”向“物理實體”迭代,在技術演化的道路上,需要更加關注技術創新的有效性與產業化的可落地性。正如于海斌院士所言:“藍海的意義在于未知,而未知需要勇氣與智慧并存。”對產業從業者而言,打破學科壁壘、深化理論突破,聚焦場景剛需、參與生態共建或將成為搶占先機的關鍵。
中國工程院院士于海斌在沈陽“創新聚沈·向陽而行”大會上的分享實錄
我們正處于智能化時代,從機械化時代的工業1.0,到電氣化時代的工業2.0,再到信息化的工業3.0,現在我們正邁向工業4.0智能化的時代。在這個時代背景下,工業機器人、服務機器人和特種機器人發揮著越來越重要的作用。智能機器人已廣泛應用于工業制造、國防安全、智能服務和智慧農業等各個行業,呈現出同步發展的趨勢,并具有廣闊的應用前景。
在過去的幾十年里,工業機器人發揮了重要作用。而為了解決服務機器人的問題,人類與我們共同走向了人形機器人的研發之路。
那么,為什么要發展人形機器人?人形機器人主要模仿人的形態、運動和功能,可以與人進行交流。它不僅模仿了人的外形、外觀和行為,還是一種通用的智能機器人,是國際公認的人工智能、高端制造新材料等尖端技術的集成者,也是科技競爭的制高點和未來的新賽道。
我們預判人形機器人將成為繼個人計算機、手機和智能汽車之后新一代智能終端,可能形成萬億級市場。因此,我們關注產業化路徑,提出了人形機器人發展的主要動力來自于需求牽引和整機帶動。應用場景,如智慧農業、醫療、家庭服務等,是推動人形機器人發展的關鍵。整機研發是主攻方向,軟件和硬件必須協同,以培育一個完整的生態,進而帶動產業鏈、創新鏈和人才鏈的發展轉型升級。
在關鍵技術突破方面,我們將人形機器人的發展劃分為大腦、小腦和肢體三個方面。大腦主要解決復雜環境感知決策、人機交互以及提升機器人的學習適應能力。小腦,即過去的控制系統,主要負責運動建模、復雜控制以及各種形態的控制。而肢體方面則是整機和部件的共同發展。
未來,人形機器人開發工具要形成大產業,必須具備大模型訓練數據標注軟件和應用軟件。這樣我們可以將機電一體化考慮在內,形成人形機器人的發展路線。
我們2020年提出的人形機器人架構是一個云網端架構的系統,大腦負責多模態模型建模、強化學習、地圖創建和數據訓練。數據訓練端作為云端大腦,訓練完成后,通過網絡高速互聯互通進入人形機器人機構本體。機構本體的小腦則重點管理表情計算、視覺控制、感知信息等各種驅動手和關節的控制,形成一體的小腦控制。
環境感知:人形機器人的環境感知部分主要涉及各種傳感器的研發,包括內部傳感器、慣導傳感器、立位傳感器、皮膚傳感器、外部傳感器、視覺傳感器、激光雷達傳感器以及聲學傳感器等。
執行器:執行器部分涉及驅動電機和靈巧手等執行機構。研發動力部件、驅動減速器等關鍵零部件對于人形機器人的發展至關重要。
小腦開發:小腦負責機器人的運動控制,從傳統的模型驅動轉向數據驅動。通過強化學習,機器人小腦變得更加靈活,加速了控制器的開發。
大腦開發:大腦負責感知、控制、傳感和控制一體,涉及高級決策核心。通過多模態模型建模、強化學習、地圖創建和數據訓練,大腦能夠管理和協調機器人的各種功能。
近年來,人形機器人發展迅速。通過感知、傳動、算一體的端到端大模型學習和訓練大腦,人形機器人得到了更多的活力。大模型使人形機器人可以解決復雜規劃問題,具備情感、精準執行能力和理解人的意圖等優勢。此外,具身智能的發展也加速了人形機器人的多模態交互和學習能力。
經過研判,今年人形機器人規模發展非常迅速,但仍處于艱苦的爬坡過坎階段。從市值分析,目前中國在人形機器人產值尚未達到預期。從分布角度來看,國內人形機器人的地域分布相對集中,主要集中在沿海發達地區,包括重慶中部地區和南部地區。我們更多地需要通過形成產業生態鏈、創新鏈和上下游聯動,以推動人形機器人的大發展,形成真正的新三板。
回顧過去,我們團隊在1985年就開始研發機器人,主要采用模型驅動,如神經網絡模型驅動的機器人智能控制。然而,開發周期緩慢,需要完成多個程序。為了改善控制能力,我們設計了模糊神經網絡控制系統作為輔助修正學習。現在,我們需要融入新技術,如深度強化學習和大模型驅動,以加速人形機器人的開發周期。
那么,AI大模型如何賦能人形機器人開發?將AI大模型賦能到人形機器人,需要注意幾個方面。首先,通過這個模型提升人形機器人的自然語言交互,使機器人能夠與人進行自然語言的交互理解。其次,需要識別復雜場景視覺感知。第三,需要對動作和規劃進行精準把控。最后,需要進行自主學習提升來完成任務。
人形機器人與其他機器人的最大不同,在于它需要具備情感計算和表達能力。大模型為機器人注入了新的活力,使人形機器人具備了情感表達和分析能力。
未來,人形機器人行業還有很多工作需要完成。我們應該聯合企業、政府、高校和研究所,共同梳理和發力,讓人形機器人真正走向生活、智能制造和國防等領域。
首先,我們需要打破訓練數據大模型之下的壁壘,充分利用他人的優勢進行開發。其次,我們可以采用小模型進行分布式開發。最后,我們需要探討如何高效地應對大模型的多模態企業特征、提升端到端控制的通用性和訓練效率、保障模型的泛化能力和可解釋性等問題。
為了實現這些目標,我們需要研究人工智能大模型,推動人形機械一體化發展。我們需要設立一個開源數字底座,涵蓋計算智能、感知智能、認知智能、決策智能、行為智能以及真正的具身智能。這個底座應該具備感知、認知、思考、分析、判斷、推理和交互功能,以推動人形機器人具備智能自主操控性。
此外,未來的人形機器人還需要具備情商和智商兼備的特點。數字人與機器人的有機結合將是未來的發展趨勢。數字人已經在各個領域廣泛應用并形成產業化,我相信實體人形機器人也將與數字人一樣在數字空間和實際中發揮作用。為了實現這一目標,我們需要取得突破,在數字人具備群智兼備的基礎上,還需要解決腦認知驅動的情感激勵、多模態前置大模型融合的解釋建議以及個性化情感的表征與動態等科學問題。
總之,通用人形機器人的發展需要多學科交叉協同創新,突破運動、操作、智能三大專業技術。我們應該攜手共進,無論是企業、高校還是科研院所,都應該共同努力推進人形機器人的發展。讓我們攜手艱苦攻關,實現通用人形機器人的夢想!
中國工程院院士、中國圖象圖形學學會理事長王耀南在2024機器人和智能制造技術與標準創新發展(杭州)大會上的報告實錄
具身智能是指一種思想或者理論。它強調認知受智能體的感知與動作的影響,主張智能或智能行為來自智能體身體與周圍環境的交互,而不僅僅是大腦的功能。這種思想與建立在笛卡爾身心二元論基礎上的離身智能不同,后者沒有考慮大腦與身體之間的聯系。具身智能理論對認知科學、心理學、人類學、藝術等都產生了深刻的影響,由此誕生了具身認知、具身心理學等分支學科。當前,具身智能理論深入到大眾關注的人工智能、機器人技術等領域,并產生重大影響。
早期人工智能研究者認為,機器可以通過對符號的操作實現對人類思考(理性行為)的模擬,即讓機器像人類那樣思考,無需考慮身體和環境。他們把人工智能定義為模擬人類的智能行為,除了模擬思考之外,還包括感知、動作,以及情感與靈感等。由于他們認為思考和身體、環境是分離的,因此在模擬這些行為時,是各自獨立進行,沒有考慮行為之間的相互聯系。人工智能的另一學派內在主義,主張人工智能應該模擬人類大腦的工作原理,我們通常稱之為類腦計算。這個學派也沒有考慮思考、感知與身體的關系。因此傳統人工智能中的兩大學派都屬于離身智能。
具身智能則認為人類的智能行為不僅依賴大腦的思考,還需要通過與物理環境的交互來進行學習和決策,最后通過感知將執行的結果反饋到大腦,形成閉環,構成一個智能體,這樣才能真正實現模擬人類智能行為的目標。具身智能這種思想的提出,與傳統人工智能不同,將推動人工智能向更高的水平——通用人工智能發展。
人工智能的發展歷史,經歷過三個階段。第一代人工智能提出以知識與經驗為基礎的推理模型,通過這一模型來模擬人類的思考。這一模型具有可解釋性與可理解性的優點,但由于知識表示與獲取的困難,該模型在應用和產業化上受到很大限制。第二代人工智能提出數據驅動的模型,通過基于大數據的機器學習,實現對人類感性和情感行為的模擬。由于模型的圖像、語音等輸入數據來自客觀世界,因此具有很大的應用潛力,但由于模型本身存在不安全、不可靠、不可信(不可解釋)、不可控和不易推廣等缺陷,因此應用范圍有限。雖然科學家在這期間也進行過模擬人類動作,比如手的操作與腳的步行等研究,但沒有將這些研究與思考、感知等其他方面聯系起來。總之,這兩代人工智能都有很大的局限性,而且只針對特定領域、利用特定模型去解決特定任務。
2020 年大語言模型的出現,把人工智能推向新的發展階段——第三代人工智能。大語言模型具有強大的語言生成能力,使機器能夠在開放領域下實現與人類的自由交互,這表明機器已經完全掌握了人類的語言。此事意義重大。正如哲學家維特根斯坦所言:“我的語言界限,就是我的世界界限。”機器一旦掌握了人類的語言,也就在某種程度上理解了人類的世界。大語言模型向通用人工智能邁出了關鍵一步。
盡管人工智能在語言生成上取得成功,在許多其他任務上還不能實現領域的通用性。比如醫療診斷,目前我們還沒有開發出適用于各種疾病的計算機醫療診斷系統。另外,大語言模型只會說(生成語言),不會干(行動)。還有大量的任務,特別是復雜的任務,人工智能目前還無法完成。我們離真正的通用人工智能仍有一定距離,其原因就在于,傳統人工智能對人類(大腦)的思考、感知與動作等方面的模擬是相互分開的,而且與環境隔離。具身智能則強調物理身體、環境感知與反饋的重要性,并通過它們實現與外部世界的交互。這正好彌補了傳統人工智能的不足,使機器通過與環境的反復交互,逐漸學習適應環境并優化其決策和行動,不斷迭代,完成更多、更復雜的任務,這就是新的學習范式——強化學習。由此可見,具身智能將使人工智能在更廣泛的環境下,完成更多的任務,向通用人工智能邁進。
機器人的研究遠在人工智能誕生之前。 1954 年,科學家發明數字控制可編程的機械臂,為現代工業機器人打下基礎,也預示著現代機器人的真正誕生。 在人工智能的發展過程中,雖然也將模仿人類動作納入研究范圍,但由于當時研究的重點是思考與感知,動作(身體)并沒有受到很大關注。 后來,機器人研究慢慢形成一個新領域——機器人學,與人工智能中的動作研究同時存在。 機器人學研究的范圍更寬,也更多關注技術、實際應用和產業化。 1986 年,移動機器人的先驅羅德尼·布魯克斯提出了行為主義機器人學的主張,他認為傳統的符號主義人工智能過于依賴復雜的推理系統,忽視了身體與環境的互動對智能行為的關鍵性貢獻。 可以說,這是在機器人領域首次提出具身智能思想。
其一是推動機器人技術從單一感知(如視覺或觸覺)向多模態感知發展。 自動駕駛汽車需要在各種氣候條件和復雜環境下行駛,全天候的環境感知極為重要。目前除了利用單一的攝像機之外,人們更多地考慮多傳感器融合,即除攝像機之外,還要綜合利用激光掃描儀、雷達、聲吶、衛星定位等不同傳感器,以保證感知的可靠性。同樣,對機械手來講,也需要利用觸覺、力覺、力矩覺等多傳感器的融合,以便在復雜環境下實現復雜操作,比如,裝配、搶險救災、排雷等。
其二是推動機器人技術更加關注軟件與硬件的高度整合。 為了適應不同工作任務的需求,我們需要設計不同類型的機器人,如為家庭服務的人形機器人,擁有靈巧雙手的裝配機器人,擁有特殊功效的仿生機器人等。不同類型的機器人需要不同的控制技術,也會導致不同的學習和感知方式,這反過來又影響機器人形態的設計。這些都屬于機器人軟硬件協同的問題。
其三,具身智能中的智能體概念對機器人技術也將產生重要影響。 根據智能體這一概念,機器人將思考、感知和動作連為一體,既可以在數字世界中也可以在物理世界中完成任務,利用數字世界又可以對物理世界進行仿真,這些對推動機器人的發展意義重大。比如,無人車的實驗如果在物理世界中進行,就要受到氣候條件、突發事件等諸多因素限制,利用仿真模擬則會大大提高效率,節省時間與費用。利用智能體理論,我們可以讓機器人相互之間進行博弈,實現機器的自我進化(迭代),使機器人的性能不斷提高。
中國科學院院士、清華大學教授張鈸在《人民日報》發表的文章