必讀視頻專題飛象趣談光通信人工智能低空經濟5G手機智能汽車智慧城市會展特約記者

單卡RTX 4090可運行 、96 FPS,Soul App開源實時數字人生成模型SoulX-FlashHead

2026年2月24日 13:38CCTIME飛象網

在實時數字人賽道,開發(fā)者們曾長期面臨一個困擾:追求高畫質就需要具備昂貴的 H800 集群,追求低成本就得忍受“面癱”和畫面崩壞。

為解決這一問題,繼開源 14B 的實時數字人生成模型SoulX-FlashTalk 之后,近日,Soul App AI團隊(Soul AI Lab)推出了SoulX-FlashHead。這款1.3B參數的輕量化模型,能夠在單張消費級顯卡( RTX 4090 )上跑出96FPS的工業(yè)級速度,同時實現高質量畫質,為行業(yè)提供新的實時數字人方案。

目前,SoulX-FlashHead 的權重與代碼已全面開放:

論文:https://www.arxiv.org/pdf/2602.07449

項目:https://soul-ailab.github.io/soulx-flashhead/

代碼:https://github.com/Soul-AILab/SoulX-FlashHead

模型:https://huggingface.co/Soul-AILab/SoulX-FlashHead-1_3B

數據集:https://huggingface.co/datasets/Soul-AILab/VividHead

SoulX-FlashHead核心亮點:

不僅是實時,更是“算力自由”

在消費級顯卡上,SoulX-FlashHead 的表現:

·Lite版本(高速率):單卡4090推理幀率可達96FPS,僅需6.4G顯存,最高支持3路并發(fā),讓實時數字人模型真正走到了消費級終端上。

·Pro版本(高畫質):單卡5090推理幀率16.8FPS,雙卡可實時(25fps+),FID(視覺質量指標)和Lip-sync(唇形一致指標)在benchmark上達到了SOTA,甚至超過了更大參數量的模型,解決了“小模型沒好畫質”的行業(yè)痛點。

原理介紹

如何讓 1.3B 模型“以小博大”?SoulX-FlashHead創(chuàng)新引入了:

訓練“先知”:雙向蒸餾機制 (Oracle-Guided Distillation)

長視頻生成的“身份漂移”一直是行業(yè)痛點。SoulX-FlashHead引入了“上帝視角”教師模型,利用 Ground Truth 作為先知錨點進行強約束。

效果: 像給模型裝了校準器,無論視頻多長,人物特征始終穩(wěn)定。

8秒記憶:時序音頻上下文緩存 (TACC)

流式生成中,音頻切片太短會導致口型抖動。

創(chuàng)新: 強制模型緩存 8秒 歷史音頻特征,補償上下文缺失。

體驗: 解決“嘴瓢”和“對不上號”問題,開播即進入理想狀態(tài)。

高質量數據底座:自研 VividHead 數據集

從 10,000+ 小時素材中精煉出 782 小時高質量音畫數據:

嚴苛篩選: 經過切分、DWpose 關鍵點、唇形一致分數過濾等多個處理步驟,為模型提供了最純凈的“養(yǎng)料”。

客觀表現

在 HDTF 與 VFHQ 兩大權威數據集的實測中,SoulX-FlashHead 展現了出色的表現:

畫質新標桿:在高清視頻(HDTF)評測中,Pro 版本以 8.31 (FID) 和 103.14 (FVD) 的成績刷新紀錄,視覺細膩度超過 一些“大參數”模型。

口型精準捕捉:面對野外復雜場景(VFHQ),憑借獨創(chuàng)的“時序音頻上下文緩存”策略,其 Sync-C 得分高達 5.60,大幅領先此前相關工作,解決對不上口型的尷尬。

速度“快”:僅憑 1.3B 的輕量化體量,Lite 版本在單張 RTX 4090 上跑出了 96 FPS 的吞吐量。這不僅是實時基準(25 FPS)的 近4倍,推理效率更是行業(yè)同類主流模型的 100倍以上。

應用場景:

“人人可用”的數字人技術

今年1月,Soul AI Lab開源了實時數字人生成模型SoulX-FlashTalk,能夠實現0.87s亞秒級超低延時、32FPS高幀率,并支持超長視頻穩(wěn)定生成。

對比SoulX-FlashTalk,SoulX-FlashHead的價值在于,將高保真技術進一步從“算力機房”解放到了“個人工作站”,讓更廣泛的場景應用成為可能:

·7x24h矩陣直播:個人主播用一臺游戲 PC,即可搭建高保真電商直播間。

·游戲NPC引擎:1.3B 體積極易集成,NPC 毫秒級響應,且不搶占核心渲染資源。

·AI一對一外教:支持 15 種語言,實時將音頻轉化為生動的教學畫面。

編 輯:T01
飛象網版權及免責聲明:
1.本網刊載內容,凡注明來源為“飛象網”和“飛象原創(chuàng)”皆屬飛象網版權所有,未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題,請在相關作品刊發(fā)之日起30日內與本網聯系,我們將第一時間予以處理。
本站聯系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯系方式,進行的“內容核實”、“商務聯系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
推薦閱讀

精彩視頻

精彩專題

關于我們廣告報價聯系我們隱私聲明本站地圖

CCTIME飛象網 CopyRight © 2007-2025 By CCTIME.COM

京ICP備08004280號-1 電信與信息服務業(yè)務經營許可證080234號 京公網安備110105000771號

公司名稱: 北京飛象互動文化傳媒有限公司

未經書面許可,禁止轉載、摘編、復制、鏡像