近日,空間理解模型SpatialLM發(fā)布首份技術(shù)報(bào)告,該模型來自于空間智能公司群核科技。 據(jù)悉,該模型于今年3月正式開源,并在開源后迅速與DeepSeek-V3、Qwen2.5-Omni一起登上全球最大的開源社區(qū)HuggingFace全球趨勢榜前三。

圖說:來自杭州的三個(gè)大模型共同登榜HuggingFace全球趨勢榜前三
作為一款將大語言模型擴(kuò)展到3D空間理解任務(wù)中的模型,SpatialLM能從3D點(diǎn)云輸入生成結(jié)構(gòu)化的空間場景描述,這一過程突破了大語言模型對物理世界幾何與空間關(guān)系的理解局限,讓機(jī)器具備空間認(rèn)知與推理能力,為具身智能等相關(guān)領(lǐng)域提供空間理解基礎(chǔ)訓(xùn)練框架。
在開源后經(jīng)過廣泛的實(shí)際驗(yàn)證,本次技術(shù)報(bào)告聚焦SpatialLM 1.1升級版本,其不僅包含了詳細(xì)的消融實(shí)驗(yàn)與訓(xùn)練配方,還在點(diǎn)云編碼方式、分辨率、用戶指定識別類目等維度上實(shí)現(xiàn)優(yōu)化。多項(xiàng)基準(zhǔn)測試數(shù)據(jù)顯示:該模型在任務(wù)數(shù)據(jù)集微調(diào)后,在空間布局識別、3D物體檢測任務(wù)中,均達(dá)到了相比與最新專業(yè)模型持平或更優(yōu)的效果。

圖說:SpatialLM1.1 在戶型、物體檢測任務(wù)中與SOTA方法的跑分對比
本次報(bào)告重點(diǎn)圍繞算法框架和訓(xùn)練數(shù)據(jù)兩方面展開。在算法架構(gòu)層面,SpatialLM將大語言模型(LLMs)擴(kuò)展到3D空間理解任務(wù)中,特別在結(jié)構(gòu)化室內(nèi)建模領(lǐng)域?qū)崿F(xiàn)了重要突破。這一技術(shù)路線打破了傳統(tǒng)任務(wù)專屬架構(gòu)(task-specific architecture)的限制,創(chuàng)新性地采用可編輯的文本形式表達(dá)場景結(jié)構(gòu)。這一創(chuàng)新設(shè)計(jì)具有雙重技術(shù)優(yōu)勢:一方面發(fā)揮了群核科技強(qiáng)大數(shù)據(jù)集能力,通過持續(xù)訓(xùn)練不斷優(yōu)化空間識別精度;另一方面通過接入大語言模型,系統(tǒng)可直接接收并理解自然語言指令,使空間理解模型從簡單任務(wù)執(zhí)行工具轉(zhuǎn)變?yōu)槟軌蛘嬲斫庥脩粢鈭D的智能系統(tǒng),從而推進(jìn)了LLMs在空間理解和推理方向的能力邊界。

圖說:SpatialLM1.1 模型的網(wǎng)絡(luò)結(jié)構(gòu)
同時(shí),SpatialLM構(gòu)建了一個(gè)全新的包含3D結(jié)構(gòu)化信息的合成點(diǎn)云數(shù)據(jù)集,打破了真實(shí)數(shù)據(jù)稀缺且難以標(biāo)注的局限。該數(shù)據(jù)集包含超1.2萬場景、5.4萬個(gè)房間的結(jié)構(gòu)化室內(nèi)點(diǎn)云數(shù)據(jù),其規(guī)模遠(yuǎn)超ScanNet(僅包含1,513個(gè)場景)等現(xiàn)有數(shù)據(jù)集。所有數(shù)據(jù)均源自真實(shí)項(xiàng)目的專業(yè)設(shè)計(jì)模型,經(jīng)嚴(yán)格篩選與解析后形成符合真實(shí)世界統(tǒng)計(jì)分布的虛擬環(huán)境,相較程序化生成的ProcTHOR等數(shù)據(jù)集具有更高真實(shí)性。據(jù)了解,三維可交互數(shù)據(jù)是群核科技在空間智能領(lǐng)域的重要優(yōu)勢,該模型訓(xùn)練數(shù)據(jù)大多來自于群核空間智能平臺SpatialVerse。早在2018年,群核科技就面向全球發(fā)布了名為InteriorNet的深度學(xué)習(xí)數(shù)據(jù)集,其包含了共計(jì)約1億3千萬空間數(shù)據(jù),這是當(dāng)時(shí)全球最大的室內(nèi)場景認(rèn)知深度學(xué)習(xí)數(shù)據(jù)集。

圖說:SpatialLM1.1 數(shù)據(jù)集與目前開源數(shù)據(jù)的對比
據(jù)悉,自SpatialLM 空間理解模型開源以來,在全球開發(fā)者社區(qū)持續(xù)引發(fā)討論,開發(fā)者普遍認(rèn)為,該模型標(biāo)志著大語言模型從"理解文字"到"認(rèn)知空間"的跨越,推動(dòng)3D空間理解落地應(yīng)用,為AI探索物理世界開辟了新路徑。其中,來自香港科技大學(xué)計(jì)算機(jī)科學(xué)與工程系譚平教授作為研究合作方指出:"SpatialLM創(chuàng)新性地將大語言模型應(yīng)用于3D空間理解,在布局估計(jì)和物體檢測等任務(wù)上取得了顯著成果。這項(xiàng)突破對AR/VR和具身智能等領(lǐng)域的發(fā)展具有重要價(jià)值。"