首頁|必讀|視頻|專訪|運(yùn)營|制造|監(jiān)管|芯片|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|大數(shù)據(jù)|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展

首頁 >> 移動(dòng)互聯(lián)網(wǎng) >> 正文

群核科技SpatialLM技術(shù)解析：基于LLM的3D結(jié)構(gòu)化建模新范式

2025年6月24日 09:30 CCTIME飛象網(wǎng)

近日,空間理解模型SpatialLM發(fā)布首份技術(shù)報(bào)告,該模型來自于空間智能公司群核科技。據(jù)悉,該模型于今年3月正式開源,并在開源后迅速與DeepSeek-V3、Qwen2.5-Omni一起登上全球最大的開源社區(qū)HuggingFace全球趨勢榜前三。

圖說:來自杭州的三個(gè)大模型共同登榜HuggingFace全球趨勢榜前三

作為一款將大語言模型擴(kuò)展到3D空間理解任務(wù)中的模型,SpatialLM能從3D點(diǎn)云輸入生成結(jié)構(gòu)化的空間場景描述,這一過程突破了大語言模型對物理世界幾何與空間關(guān)系的理解局限,讓機(jī)器具備空間認(rèn)知與推理能力,為具身智能等相關(guān)領(lǐng)域提供空間理解基礎(chǔ)訓(xùn)練框架。

在開源后經(jīng)過廣泛的實(shí)際驗(yàn)證,本次技術(shù)報(bào)告聚焦SpatialLM 1.1升級版本,其不僅包含了詳細(xì)的消融實(shí)驗(yàn)與訓(xùn)練配方,還在點(diǎn)云編碼方式、分辨率、用戶指定識別類目等維度上實(shí)現(xiàn)優(yōu)化。多項(xiàng)基準(zhǔn)測試數(shù)據(jù)顯示:該模型在任務(wù)數(shù)據(jù)集微調(diào)后,在空間布局識別、3D物體檢測任務(wù)中,均達(dá)到了相比與最新專業(yè)模型持平或更優(yōu)的效果。

圖說:SpatialLM1.1 在戶型、物體檢測任務(wù)中與SOTA方法的跑分對比

本次報(bào)告重點(diǎn)圍繞算法框架和訓(xùn)練數(shù)據(jù)兩方面展開。在算法架構(gòu)層面,SpatialLM將大語言模型(LLMs)擴(kuò)展到3D空間理解任務(wù)中,特別在結(jié)構(gòu)化室內(nèi)建模領(lǐng)域?qū)崿F(xiàn)了重要突破。這一技術(shù)路線打破了傳統(tǒng)任務(wù)專屬架構(gòu)(task-specific architecture)的限制,創(chuàng)新性地采用可編輯的文本形式表達(dá)場景結(jié)構(gòu)。這一創(chuàng)新設(shè)計(jì)具有雙重技術(shù)優(yōu)勢:一方面發(fā)揮了群核科技強(qiáng)大數(shù)據(jù)集能力,通過持續(xù)訓(xùn)練不斷優(yōu)化空間識別精度;另一方面通過接入大語言模型,系統(tǒng)可直接接收并理解自然語言指令,使空間理解模型從簡單任務(wù)執(zhí)行工具轉(zhuǎn)變?yōu)槟軌蛘嬲斫庥脩粢鈭D的智能系統(tǒng),從而推進(jìn)了LLMs在空間理解和推理方向的能力邊界。

圖說:SpatialLM1.1 模型的網(wǎng)絡(luò)結(jié)構(gòu)

同時(shí),SpatialLM構(gòu)建了一個(gè)全新的包含3D結(jié)構(gòu)化信息的合成點(diǎn)云數(shù)據(jù)集,打破了真實(shí)數(shù)據(jù)稀缺且難以標(biāo)注的局限。該數(shù)據(jù)集包含超1.2萬場景、5.4萬個(gè)房間的結(jié)構(gòu)化室內(nèi)點(diǎn)云數(shù)據(jù),其規(guī)模遠(yuǎn)超ScanNet(僅包含1,513個(gè)場景)等現(xiàn)有數(shù)據(jù)集。所有數(shù)據(jù)均源自真實(shí)項(xiàng)目的專業(yè)設(shè)計(jì)模型,經(jīng)嚴(yán)格篩選與解析后形成符合真實(shí)世界統(tǒng)計(jì)分布的虛擬環(huán)境,相較程序化生成的ProcTHOR等數(shù)據(jù)集具有更高真實(shí)性。據(jù)了解,三維可交互數(shù)據(jù)是群核科技在空間智能領(lǐng)域的重要優(yōu)勢,該模型訓(xùn)練數(shù)據(jù)大多來自于群核空間智能平臺SpatialVerse。早在2018年,群核科技就面向全球發(fā)布了名為InteriorNet的深度學(xué)習(xí)數(shù)據(jù)集,其包含了共計(jì)約1億3千萬空間數(shù)據(jù),這是當(dāng)時(shí)全球最大的室內(nèi)場景認(rèn)知深度學(xué)習(xí)數(shù)據(jù)集。

圖說:SpatialLM1.1 數(shù)據(jù)集與目前開源數(shù)據(jù)的對比

據(jù)悉,自SpatialLM 空間理解模型開源以來,在全球開發(fā)者社區(qū)持續(xù)引發(fā)討論,開發(fā)者普遍認(rèn)為,該模型標(biāo)志著大語言模型從"理解文字"到"認(rèn)知空間"的跨越,推動(dòng)3D空間理解落地應(yīng)用,為AI探索物理世界開辟了新路徑。其中,來自香港科技大學(xué)計(jì)算機(jī)科學(xué)與工程系譚平教授作為研究合作方指出:"SpatialLM創(chuàng)新性地將大語言模型應(yīng)用于3D空間理解,在布局估計(jì)和物體檢測等任務(wù)上取得了顯著成果。這項(xiàng)突破對AR/VR和具身智能等領(lǐng)域的發(fā)展具有重要價(jià)值。"

編輯：T01

飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容，凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有，未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像，違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載，請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源：XXXX”的作品，均轉(zhuǎn)載自其它媒體，在于傳播更多行業(yè)信息，并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題，請?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系，我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777，郵件后綴為cctime.com，冒充本站員工以任何其他聯(lián)系方式，進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為，均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。

推薦新聞

·中國eSIM進(jìn)入快車道，紫光同芯讓“智慧時(shí)刻在線”	·工信部等六部門開展2025年度智能工廠梯度培育行動(dòng)
·6G標(biāo)準(zhǔn)化啟航，智能超表面技術(shù)需產(chǎn)業(yè)協(xié)同破局	·阿里云推出自動(dòng)駕駛模型訓(xùn)練推理加速框架，訓(xùn)練時(shí)間可..
·對標(biāo)Cursor！百度文心快碼AI IDE上線，宣布首創(chuàng)設(shè)計(jì)稿..	·英國擬建立國家數(shù)據(jù)圖書館對AI治理的啟示
·中國電信AI+網(wǎng)絡(luò)能力發(fā)布大會(huì)召開全球首個(gè)網(wǎng)絡(luò)大模型..	·2025 WBBA云網(wǎng)寬帶發(fā)展大會(huì) \| 更智能的基礎(chǔ)設(shè)施：AI與..
·工信部2025年度國家科學(xué)技術(shù)獎(jiǎng)提名公示：頻譜、全光網(wǎng)..	·爆發(fā)前夜的智能體，落在中國算力的舒適區(qū)
·向“智”！中國機(jī)器人“跑”起來	·萬兆光網(wǎng)落地家庭與園區(qū)商業(yè)化提速 5G-A與AI融合步入“..
·累計(jì)處置違規(guī)AI產(chǎn)品3500余款中央網(wǎng)信辦整治AI技術(shù)濫用	·羅永浩：燒了很多錢，證實(shí)十年內(nèi)AR眼鏡都不太可能商業(yè)..