零次方機(jī)器人啟動全模態(tài)數(shù)據(jù)采集中心，破解具身智能“卡脖子”難題

2025年6月24日 10:45 CCTIME飛象網(wǎng)

6月，國內(nèi)首家實(shí)現(xiàn)專項場景超長序列多任務(wù)連貫操作機(jī)器人公司——零次方行業(yè)創(chuàng)新再突破，正式發(fā)布“全模態(tài)”具身數(shù)據(jù)全鏈路解決方案。方案旨在解決具身智能模型訓(xùn)練普遍存在的“數(shù)據(jù)模態(tài)缺失、數(shù)據(jù)采集流程繁瑣、任務(wù)數(shù)據(jù)管理繁雜、模型訓(xùn)練推理部署門檻高”等難題，涵蓋了：“全模態(tài)”數(shù)據(jù)采集設(shè)備、數(shù)據(jù)采集與管理平臺、模型訓(xùn)練、模型推理方案。

解決方案圖示

面向未來3-5年具身數(shù)據(jù)需求設(shè)計

技術(shù)路線上：當(dāng)前具身智能模型的發(fā)展仍處于發(fā)展期，各研究團(tuán)隊的技術(shù)路線逐漸向更豐富的模態(tài)探索：

• 視覺-關(guān)節(jié)融合方案（如ACT、Diffusion Policy、DP3等）：通過聯(lián)合嵌入視覺信息與機(jī)器人本體感知，利用本體數(shù)據(jù)補(bǔ)償視覺觀測歧義性，提升動作泛化能力，但因缺乏力學(xué)反饋，在物理交互密集型任務(wù)中適應(yīng)性不足。

• 語義-視覺-關(guān)節(jié)融合方案（如Pi0、GROOT等）：引入語義信息（如語言指令/場景描述）增強(qiáng)環(huán)境與長序列任務(wù)的理解，結(jié)合視覺與關(guān)節(jié)狀態(tài)實(shí)現(xiàn)多模態(tài)決策，提升復(fù)雜任務(wù)泛化性。

• 視覺-關(guān)節(jié)-力聯(lián)合建模（如RDP等）引入力/觸覺反饋構(gòu)建物理表征，提升泛精密操作的魯棒性；

• 更為齊全的模態(tài)架構(gòu)正成為新趨勢，通過跨模態(tài)對齊實(shí)現(xiàn)環(huán)境-物理-語義的協(xié)同推理。

在此背景下，零次方機(jī)器人數(shù)據(jù)采集中心的全模態(tài)數(shù)據(jù)架構(gòu)具備雙重核心優(yōu)勢：

1. 維度兼容性：全模態(tài)數(shù)據(jù)高維數(shù)據(jù)可自然降維生成任意子模態(tài)數(shù)據(jù)集（如剝離力觸覺獲得純視覺-關(guān)節(jié)數(shù)據(jù)），兼容現(xiàn)存所有算法范式的訓(xùn)練需求；

2. 價值持續(xù)性：預(yù)設(shè)傳感器冗余通道，集成工具標(biāo)注對齊多模態(tài)數(shù)據(jù)流，為正在演進(jìn)的VLA、跨模態(tài)對齊、物理因果推理、世界模型等等未來3-5年可能涌現(xiàn)的具身模型提供燃料。

這種前瞻性設(shè)計能兼容當(dāng)下技術(shù)生態(tài)、支撐長期算法進(jìn)化的“高維數(shù)據(jù)基座”。此外，零次方的“全模態(tài)”數(shù)據(jù)采集人形機(jī)器人 ZERITH-H1，完美兼顧零次方機(jī)器人數(shù)據(jù)采集中心的全模態(tài)數(shù)據(jù)架構(gòu)設(shè)計，實(shí)現(xiàn)全模態(tài)數(shù)據(jù)采集與落地。

“全模態(tài)”數(shù)采人形機(jī)器人 ZERITH-H1

ZERITH-H1采用高度擬人化的上肢結(jié)構(gòu)設(shè)計，其關(guān)節(jié)自由度布局嚴(yán)格參照人體工學(xué)，并顯著擴(kuò)展了關(guān)節(jié)活動范圍。特別設(shè)計的升降柱式構(gòu)造有效抬升機(jī)身，大幅消除腿部空間占用，最終實(shí)現(xiàn)超越成年男性的靈活操作空間。

高維度“全模態(tài)”傳感器設(shè)計：為應(yīng)對具身智能模型訓(xùn)練普遍存在的“數(shù)據(jù)模態(tài)缺失”問題，零次方機(jī)器人在Zerith-H1設(shè)計階段即整合了各種模態(tài)的傳感器，可實(shí)現(xiàn)對二維視覺信息、三維空間信息、關(guān)節(jié)信息、力觸覺信息、聲音信息的“完整”模態(tài)信息采集。

集成觸覺感知，抓取豆腐等易碎物

特別的是，針對于力觸覺感知部分，ZERITH-H1搭載了觸覺夾爪，集成了高分辨率視觸覺傳感器，實(shí)現(xiàn)對抓取力觸覺的精準(zhǔn)感知。零次方在視觸覺傳感器方面技術(shù)積累深厚，源于清華AI&Robot實(shí)驗室。實(shí)驗室曾提出過超越人類觸覺感知水平的超光譜視觸覺傳感方案，相關(guān)視觸覺成果多次獲ICRA、IROS Best Paper Finalists、多次在T-RO、Soft Robotics、T-MECH上發(fā)表相關(guān)研究。

低延遲、高動態(tài)響應(yīng)的遙操系統(tǒng)：為了進(jìn)一步滿足實(shí)時同步操作的需求，零次方將機(jī)器人與采集者通訊延遲無限推進(jìn)至零延遲，實(shí)現(xiàn)“孿生式”映射同步感知；同時整體設(shè)備連續(xù)運(yùn)行時間超過4小時，滿足長時間不間斷的數(shù)據(jù)采集需求。

VR遙操演示

VR APP：快速構(gòu)建物理世界與虛擬世界交互渠道：基于主流vr設(shè)備自研ZERITH-VR APP，實(shí)現(xiàn)遙操作設(shè)備與機(jī)器人本體、具身數(shù)據(jù)管理平臺超低數(shù)據(jù)傳輸延時。同時通過“一鍵式”設(shè)備連接、“引導(dǎo)式”數(shù)據(jù)采集工作流，幫助用戶快速掌握復(fù)雜任務(wù)數(shù)據(jù)采集能力，確保數(shù)據(jù)收集質(zhì)量、提升數(shù)據(jù)采集效率。

ZERITH-VR APP界面

具身數(shù)據(jù)采集管理平臺：將采集的多元化數(shù)據(jù)，轉(zhuǎn)為即用型訓(xùn)練燃料

針對數(shù)據(jù)采集任務(wù)多樣、采集流程繁雜、數(shù)據(jù)管理及可視化等需求，零次方機(jī)器人數(shù)據(jù)采集中心的自研具身數(shù)據(jù)管理平臺用于數(shù)據(jù)全流程管理，依托自身開發(fā)模型的經(jīng)歷，通過數(shù)萬次的數(shù)據(jù)采集與測試，不斷測試數(shù)據(jù)管理平臺易用性，現(xiàn)正式對外推出具有：對具身任務(wù)數(shù)據(jù)分類、清洗、標(biāo)注、檢索等模塊化高易用性的具身數(shù)據(jù)采集管理平臺。

集成高效訓(xùn)練與部署工具鏈：讓訓(xùn)練與場景落地更迅捷、更簡易化。

同時，為讓用戶可快速、便捷式將數(shù)據(jù)集應(yīng)用于模型訓(xùn)練，零次方機(jī)器人數(shù)據(jù)采集中心的數(shù)據(jù)平臺設(shè)計兼容主流開源算法框架的標(biāo)準(zhǔn)化接口（如ACT、Diffusion Policy、DP3等）；數(shù)據(jù)接口兼容對基座模型（Pi0、GROOT、ZERITH-V0等）的后訓(xùn)練（LORA、Full tuning、RL等），提供符合許可證要求的快速訓(xùn)練接入能力。

在模型訓(xùn)練過程，零次方機(jī)器人數(shù)據(jù)采集中心深度集成AI訓(xùn)練工具Swanlab，實(shí)現(xiàn)對模型訓(xùn)練的全過程記錄、實(shí)時監(jiān)控、數(shù)據(jù)可視化與批量實(shí)驗分析，幫助用戶科學(xué)調(diào)參、管理歷史訓(xùn)練實(shí)驗數(shù)據(jù)，高效迭代自己的具身智能模型。

訓(xùn)練過程可視化監(jiān)控與記錄

在模型推理上，機(jī)器人最高可選500TOPS算力主機(jī)，集成易用部署的框架，優(yōu)化推理效果，實(shí)現(xiàn)絲滑動作執(zhí)行，真實(shí)可見的在場景中的落地效果。

編輯：T01

零次方機(jī)器人啟動全模態(tài)數(shù)據(jù)采集中心，破解具身智能“卡脖子”難題

零次方機(jī)器人啟動全模態(tài)數(shù)據(jù)采集中心，破解具身智能“卡脖子”難題