首頁|必讀|視頻|專訪|運(yùn)營|制造|監(jiān)管|芯片|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|大數(shù)據(jù)|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁 >> 移動(dòng)互聯(lián)網(wǎng) >> 正文

群核科技SpatialLM技術(shù)解析:基于LLM的3D結(jié)構(gòu)化建模新范式

2025年6月24日 09:30  CCTIME飛象網(wǎng)  

近日,空間理解模型SpatialLM發(fā)布首份技術(shù)報(bào)告,該模型來自于空間智能公司群核科技。 據(jù)悉,該模型于今年3月正式開源,并在開源后迅速與DeepSeek-V3、Qwen2.5-Omni一起登上全球最大的開源社區(qū)HuggingFace全球趨勢榜前三。

圖說:來自杭州的三個(gè)大模型共同登榜HuggingFace全球趨勢榜前三

作為一款將大語言模型擴(kuò)展到3D空間理解任務(wù)中的模型,SpatialLM能從3D點(diǎn)云輸入生成結(jié)構(gòu)化的空間場景描述,這一過程突破了大語言模型對物理世界幾何與空間關(guān)系的理解局限,讓機(jī)器具備空間認(rèn)知與推理能力,為具身智能等相關(guān)領(lǐng)域提供空間理解基礎(chǔ)訓(xùn)練框架。

在開源后經(jīng)過廣泛的實(shí)際驗(yàn)證,本次技術(shù)報(bào)告聚焦SpatialLM 1.1升級版本,其不僅包含了詳細(xì)的消融實(shí)驗(yàn)與訓(xùn)練配方,還在點(diǎn)云編碼方式、分辨率、用戶指定識別類目等維度上實(shí)現(xiàn)優(yōu)化。多項(xiàng)基準(zhǔn)測試數(shù)據(jù)顯示:該模型在任務(wù)數(shù)據(jù)集微調(diào)后,在空間布局識別、3D物體檢測任務(wù)中,均達(dá)到了相比與最新專業(yè)模型持平或更優(yōu)的效果。

圖說:SpatialLM1.1 在戶型、物體檢測任務(wù)中與SOTA方法的跑分對比

本次報(bào)告重點(diǎn)圍繞算法框架和訓(xùn)練數(shù)據(jù)兩方面展開。在算法架構(gòu)層面,SpatialLM將大語言模型(LLMs)擴(kuò)展到3D空間理解任務(wù)中,特別在結(jié)構(gòu)化室內(nèi)建模領(lǐng)域?qū)崿F(xiàn)了重要突破。這一技術(shù)路線打破了傳統(tǒng)任務(wù)專屬架構(gòu)(task-specific architecture)的限制,創(chuàng)新性地采用可編輯的文本形式表達(dá)場景結(jié)構(gòu)。這一創(chuàng)新設(shè)計(jì)具有雙重技術(shù)優(yōu)勢:一方面發(fā)揮了群核科技強(qiáng)大數(shù)據(jù)集能力,通過持續(xù)訓(xùn)練不斷優(yōu)化空間識別精度;另一方面通過接入大語言模型,系統(tǒng)可直接接收并理解自然語言指令,使空間理解模型從簡單任務(wù)執(zhí)行工具轉(zhuǎn)變?yōu)槟軌蛘嬲斫庥脩粢鈭D的智能系統(tǒng),從而推進(jìn)了LLMs在空間理解和推理方向的能力邊界。

圖說:SpatialLM1.1 模型的網(wǎng)絡(luò)結(jié)構(gòu)

同時(shí),SpatialLM構(gòu)建了一個(gè)全新的包含3D結(jié)構(gòu)化信息的合成點(diǎn)云數(shù)據(jù)集,打破了真實(shí)數(shù)據(jù)稀缺且難以標(biāo)注的局限。該數(shù)據(jù)集包含超1.2萬場景、5.4萬個(gè)房間的結(jié)構(gòu)化室內(nèi)點(diǎn)云數(shù)據(jù),其規(guī)模遠(yuǎn)超ScanNet(僅包含1,513個(gè)場景)等現(xiàn)有數(shù)據(jù)集。所有數(shù)據(jù)均源自真實(shí)項(xiàng)目的專業(yè)設(shè)計(jì)模型,經(jīng)嚴(yán)格篩選與解析后形成符合真實(shí)世界統(tǒng)計(jì)分布的虛擬環(huán)境,相較程序化生成的ProcTHOR等數(shù)據(jù)集具有更高真實(shí)性。據(jù)了解,三維可交互數(shù)據(jù)是群核科技在空間智能領(lǐng)域的重要優(yōu)勢,該模型訓(xùn)練數(shù)據(jù)大多來自于群核空間智能平臺SpatialVerse。早在2018年,群核科技就面向全球發(fā)布了名為InteriorNet的深度學(xué)習(xí)數(shù)據(jù)集,其包含了共計(jì)約1億3千萬空間數(shù)據(jù),這是當(dāng)時(shí)全球最大的室內(nèi)場景認(rèn)知深度學(xué)習(xí)數(shù)據(jù)集。

圖說:SpatialLM1.1 數(shù)據(jù)集與目前開源數(shù)據(jù)的對比

據(jù)悉,自SpatialLM 空間理解模型開源以來,在全球開發(fā)者社區(qū)持續(xù)引發(fā)討論,開發(fā)者普遍認(rèn)為,該模型標(biāo)志著大語言模型從"理解文字"到"認(rèn)知空間"的跨越,推動(dòng)3D空間理解落地應(yīng)用,為AI探索物理世界開辟了新路徑。其中,來自香港科技大學(xué)計(jì)算機(jī)科學(xué)與工程系譚平教授作為研究合作方指出:"SpatialLM創(chuàng)新性地將大語言模型應(yīng)用于3D空間理解,在布局估計(jì)和物體檢測等任務(wù)上取得了顯著成果。這項(xiàng)突破對AR/VR和具身智能等領(lǐng)域的發(fā)展具有重要價(jià)值。"

編 輯:T01
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
推薦新聞              
 
人物
韋樂平:大模型時(shí)代將開啟新一波“光進(jìn)銅退”
精彩視頻
2025MWC上海丨中興通訊副總裁熊杰就AI萬兆全光園區(qū)話題進(jìn)行交流
2025MWC上海|中國信科:全棧算力創(chuàng)新應(yīng)用 為AI時(shí)代構(gòu)筑數(shù)智基石
2025MWC上海丨智能加速度 中興通訊展臺直擊
2025MWC上海|京信通信:AI賦能5G-A 重構(gòu)連接的價(jià)值
精彩專題
2025 MWC 上海
2025工業(yè)互聯(lián)網(wǎng)大會(huì)
2025世界電信和信息社會(huì)日大會(huì)
第八屆數(shù)字中國建設(shè)峰會(huì)
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像