數據短缺，具身智能遭遇“成長的煩惱”

2026-05-14 10:04:41: 來源：科技日報　
分享到：

【深瞳工作室出品】

采寫：本報記者管晶晶張佳星

策劃：劉恕李坤

讓機器人開一顆核桃，它像磕雞蛋一樣把核桃砸向桌面；從冰箱里拿瓶礦泉水，機器人耗時10分鐘才完成；讓機器人疊衣服，它煞有介事不斷瞄準、糾偏，最后還是揉成一團……

在成為“舞蹈演員”和“長跑健將”之后，機器人被要求做更多“務實”工作，卻帶來了很多令人哭笑不得的翻車場景。

“機器人要做到實用，必須面對豐富的物理世界，這需要大量的具身智能數據來學習訓練。”復旦大學長聘特聘教授、飛捷科思智能科技（上海）有限公司創(chuàng)始人張立華告訴科技日報記者，“據不完全統(tǒng)計，全球范圍內研發(fā)端對高質量數據的需求量約為120萬小時，而全行業(yè)每月數據產出量僅為25萬—30萬小時。高質量具身智能數據稀缺已成為具身智能機器人發(fā)展的關鍵瓶頸之一。”

2026年被業(yè)界稱為具身智能數據元年，具身智能機器人行業(yè)從算法驅動轉向數據驅動，高質量數據正成為行業(yè)競逐的基礎性戰(zhàn)略資源。

現有數據嚴重不足

近年來，人工智能大語言模型靠互聯網上的海量文本數據學會了生成語言，發(fā)展突飛猛進。基于同樣的邏輯，具身智能機器人需要依靠海量的人類動作數據，才能學會在真實世界里干活。

“用手撿起干木耳”這個對人來說輕而易舉的動作，機器人需要調動物體材質辨識、空間姿態(tài)匹配等多個技能?！芭_上一分鐘”穩(wěn)定可靠的執(zhí)行，需要臺下億萬真實、高質量的人類動作數據作為支撐。

然而，機器人不像孩子一樣“有樣學樣”。它們的學習數據集里，需要位置的坐標、力矩的量化、觸覺反饋的標注等。因此，互聯網上海量的文本、視頻因缺乏動作數據并不能直接“喂”給機器人。

“大語言模型使用的文本數據或影音數據，本質上都是‘觀察者視角’的靜態(tài)數據，但具身智能需要‘交互者視角’的數據。一個符合要求的抓取動作數據，不僅要包含視覺信息，還應包含實時的力反饋、觸覺感知以及電機扭矩的連續(xù)變化。”張立華向科技日報記者介紹說，目前互聯網上幾乎不存在現成的、能夠直接映射到機器人感知與控制鏈路上的“多模態(tài)指令—動作”數據集，“我們面臨的不是數據的優(yōu)化，而是從零開始的原始積累”。

“完成一個高質量模型的訓練，至少需要一千萬小時量級的數據?！本〇|云產品經理蔡晨表示，當前市場上成熟的具身智能數據集只有幾十萬小時，遠遠不能支撐行業(yè)訓練出高質量、通用的具身大模型。

在大語言模型領域，Token（詞元）是通用的；但在具身智能領域，數據具有極強的硬件依賴性。由于機器人構型的限制，數據難以在不同機器人之間復用，這種“交流”困境，使得目前采集的數據極其碎片化，難以形成規(guī)模效應。

“舉個例子，同樣是機器人，身高1.2米和1.8米體態(tài)差異顯著，即便抓取同等高度的物體，機械臂的運動行程也完全不同，因此1.2米機器人的有效數據很難直接遷移到1.8米機型上。”蔡晨告訴科技日報記者，無法讓一份數據發(fā)揮十份的效能，也是具身智能數據短缺的一個重要因素。

與此同時，機器人模型的飛速發(fā)展亦使得數據短缺愈發(fā)明顯。

具身智能機器人通常被劃分為“大腦”“小腦”與“本體”三個核心組成部分，機器人“大腦”的核心是具身智能大模型。機器人處理的任務越復雜精細，具身智能大模型的結構就越復雜、參數規(guī)模也越大。模型參數好比機器人的知識記憶單元，參數數量越多，機器人的學習能力和智能程度就越高。

“現在機器人的模型參數規(guī)模已從幾百萬提升到幾億量級，數據短板問題日漸突出?！鄙虾Ｐ聲r達電氣股份有限公司具身智能高級研究員叢正告訴科技日報記者，以前幾百萬參數的模型，拿較少的數據就能訓練達標?，F在幾億參數的復雜模型，需要極大的數據量才能保障模型訓練達標、實操穩(wěn)定。

存在“不可能三角”

一只黑色的機械手穩(wěn)穩(wěn)夾住奶瓶，采集員操作另一只機械手舀入適量奶粉，不遠處一個假娃娃正嗷嗷待哺……這不是沉浸式劇本館里的角色扮演，而是北京人形機器人創(chuàng)新中心數據基地中，工作人員正在進行的數據采集工作。

“數據基地是機器人的‘知識生產者’。我們采用真機遙操作方式，按照采集、清洗、脫敏、檢查、標注、質檢等系列規(guī)范流程生產高質量數據?！北本┤诵螜C器人創(chuàng)新中心數據運營負責人孔超告訴科技日報記者，該基地日產能達600小時，已積累4萬小時高質量具身智能數據，合格率穩(wěn)定在95%以上。

目前，相較于通過爬蟲程序大規(guī)模獲取的互聯網文本，高質量具身數據的獲取手段極其繁瑣且成本高昂。

中國科學院自動化研究所副研究員、北京中科慧靈機器人技術有限公司具身操作中心負責人周明才告訴科技日報記者，不同于大語言模型處理離散的Token，具身智能機器人需要連續(xù)的關節(jié)力矩、末端位姿和觸覺反饋，這種毫秒級的精細操作數據依賴高精度的物理交互獲得，因此采集門檻極高。

當前，具身智能數據的采集方式主要包括四類：真機遙操作、動作捕捉采集、人類行為視頻和仿真合成數據。

真機遙操作，即人佩戴外骨骼設備或操控機器人進行“手把手”教學。這種方式物理交互強、數據質量高，但成本高、效率低，且會受到機器人本體和場景的限制。

除了“手把手”教學，也可以在人身上穿戴很多傳感器，進行動作捕捉采集。這種采集方式在成本上低于真機遙操作，便于規(guī)?；杉驗槿梭w和機器人構型存在差異，需要進行人機動作重定向處理。

人類行為視頻，是在人們干活時拍攝視頻，解析每個動作在空間的具體位置，供機器人學習。這種方式采集成本低、規(guī)模大，但缺乏位姿、觸覺、力矩等精確標注，機器人難以學會精細動作。

出于成本考量，仿真合成數據也是當前具身智能數據的一大類別。仿真合成數據有點像打電子游戲，在一個虛擬環(huán)境里完成各種動作。這種采集方式可控可擴展，可覆蓋各種危險場景，但存在仿真與現實的真實性鴻溝?！坝捎谖锢硪婧茈y100%還原真實世界的物體形變、摩擦力及細微物理特性，仿真數據往往存在偏差，直接遷移到機器人上時會出現‘水土不服’?！敝苊鞑盘寡?。

在孔超看來，當前具身智能數據存在一個“不可能三角”，即高質量、大規(guī)模、低成本三大要素無法同時兼得。

張立華對此表示認同：“‘不可能三角’確實是當前行業(yè)的核心矛盾。真機遙操作數據質量高，但面對需要數億級樣本才能實現泛化的大模型，一對一的采集方式無異于杯水車薪。普通視頻、低保真仿真或粗標注數據等低成本數據，規(guī)模容易做大，但往往缺乏物理屬性、動作可執(zhí)行性和可遷移性，直接用于訓練很容易造成模型‘看起來會、做起來不穩(wěn)’?！?/p>

具身智能的數據稀缺，不是單純的“量少”，而是能夠支撐復雜物理推演的高質量、多模態(tài)、可對齊的數據極度匱乏?！斑@種短缺本質上是技術演進的必然階段，誰能率先在數據自動化采集、異構數據歸一化以及Sim-to-Real（仿真到真實）的高效遷移上取得突破，誰就將掌握下半場競爭的主動權。”張立華說。

多元數據融合互補

在江蘇宿遷，京東機器人數據采集中心正源源不斷地接收和分析來自快遞分揀員、超市理貨員的工作視頻數據?！八麄兇髟陬^上的第一視角采集終端，可以精準標注手指的位置、彎曲度等信息?！辈坛拷榻B，京東計劃2年內完成1000萬小時的視頻數據采集，包括物流、零售、家庭等多場景。

隨著硬件成本的下探和人形機器人進入小規(guī)模試產，業(yè)界越來越意識到，單純靠堆人力去“教”機器人是不可持續(xù)的，行業(yè)共識正在從“單點采集”走向“多源融合”。

京東云通過數據的全鏈路處理，能夠“一站式”實現人類行為視頻、仿真合成與真機操作三類數據的價值轉化與泛化擴增，從而整體提升訓練效率。據蔡晨介紹，終端采集到的人類行為視頻數據匯入AI數據湖平臺后，依托PB級處理能力可自動完成清洗、對齊、轉換及預標注，成為高質量訓練數據的重要組成部分；構建仿真模型，批量生成高逼真度的仿真合成數據；同時，操控機器人完成任務獲取的真機操作數據，也會回流至平臺。

隨著模型能力和視頻識別提取能力的增強，第一視角的人類行為視頻數據被大量用于機器人預訓練。

“用大量視頻可以訓練機器人跳舞演出，但要實現工廠里的實際操作，還是會用真機遙操作的真實數據。因為機器人的手在空間中的真實位置和精細動作，用視頻是訓練不出來的?！眳舱M一步解釋道，比如擰螺絲，是一個相對精細的動作。不是每個螺絲都能正對著螺絲孔，可能會偏左或偏右，人擰的時候會知道傾斜一點用力，但讓機器人完成這件事就需要用大量的真機遙操作數據去訓練。這就是機器人的泛化能力。

“目前行業(yè)主流采用的是混合訓練策略。企業(yè)不再單一依賴某一種數據源，而是將多種來源的數據按特定比例融合。這種組合既保證了動作的精準度，又兼顧了場景的泛化能力，是目前破解數據難題的最有效手段?！敝苊鞑耪f。

張立華也表示，單一技術路線很難同時滿足規(guī)模、成本、精度和泛化要求，行業(yè)正在形成“人類視頻注入通用物理常識、仿真合成覆蓋長尾邊界、輕量化采集擴充真實交互、高精度遙操作適配垂直場景微調”的融合路徑。

孔超給記者舉了個例子?！靶『⒂幸欢ㄕJ知能力開始學東西時，你不用教得很具體，給他看大量東西，他自己也能慢慢認識不少。然后，再進行一些具體的糾偏，他就能做得很好?！?/p>

對于具身智能機器人企業(yè)而言，多元數據融合互補確實是當前最有效的路徑。業(yè)內不少企業(yè)都采用從海量視頻數據到高價值真機遙操作數據的遞進式訓練路徑，先用低成本、大規(guī)模的視頻數據打底，讓機器人了解要干什么，再用高保真仿真模型生成大量可控數據，幫助機器人熟悉各種場景、泛化拓展，最后用高價值、小體量的真機遙操作數據進行糾偏和校準，讓機器人完成精細動作。這樣，高成本的真機遙操作數據無需承擔全部訓練任務，而是成為驗證模型能力、修正偏差的關鍵錨點。

亟待統(tǒng)一標準規(guī)范流程

由于具身智能產業(yè)的發(fā)展高度依賴數據驅動，近年來，數據采集賽道吸引一眾企業(yè)競相入場、各顯神通：有的研發(fā)升級采集設備，有的持續(xù)迭代物理仿真模型，還有的加大重資產投入，布局多構型真機遙操作采集……

高質量數據從來不是簡單采集就可以形成的，而是需要一整套規(guī)范的流程作為保障?？萍既請笥浾咦咴L的多個企業(yè)都構建了自有的數據采集體系，然而不同企業(yè)和機構的數據存儲格式、元數據形態(tài)、標注顆粒度都有差異，企業(yè)間的數據流通幾乎成為奢望，一座座“數據孤島”由此形成。在各自為戰(zhàn)的模式下，大量資源被重復投入到相似的數據采集與技術研發(fā)中，造成嚴重浪費。

“當前行業(yè)最緊迫的需求不是單純增加采集設備或者增加仿真場景，而是建立一套貫穿‘采集、生成、標注、清洗、訓練、評測、反饋’各環(huán)節(jié)的行業(yè)通用數據標準?！睆埩⑷A表示，統(tǒng)一具身智能數據標準的難點在于，它不是靜態(tài)數據，必須與任務、機器人本體、物理環(huán)境和模型能力緊密耦合。沒有統(tǒng)一的數據格式、物理屬性標簽、任務定義和質量評價標準，不同企業(yè)之間的數據很難流通共享。

機器人技術路線的分散是另一大障礙。不同構型的機器人在自由度、連桿長度、傳感器分布和減速器的精度上各不相同，導致采集的數據很難遷移利用。

僅北京人形機器人創(chuàng)新中心數據基地，就采購了7個品牌120臺不同構型的機器人開展真機遙操作數據采集，只為適配不同機器人企業(yè)的不同數據要求。

“跨本體的數據如何復用，也是個問題?！笨壮M一步解釋道，現在機器人種類繁多，本體形態(tài)差異顯著，結構設計也多種多樣，比如靈巧手設計從兩指到五指不等。為一種機器人采集的數據，難以用于別的機器人，采集的數據難以共享不利于行業(yè)發(fā)展?！斑@不是數據采集行業(yè)的問題，而是機器人行業(yè)百花齊放的結果。如果要提高具身智能數據的流通性，機器人本身的構型標準也要相對統(tǒng)一?！?/p>

除了統(tǒng)一數據標準之外，張立華認為還需要提高具身數據的高保真物理表達能力。“機器人最終要在真實世界工作，數據必須反映真實世界的接觸、力學、材質和因果關系。此外，數據評測也很重要，行業(yè)不能只看數據規(guī)模，而要看數據是否真正提升了模型在真實任務中的成功率、穩(wěn)健性和安全性?！?/p>

編輯：韓夢晨

av国产japan在线播放|av人人干|黄网站国产|日韩日韩日韩日韩日韩日韩日韩,先锋资源在线播放,嗯嗯啊啊网站,尤物一区