必讀視頻專題飛象趣談光通信人工智能低空經(jīng)濟5G手機智能汽車智慧城市會展特約記者

Soul App發(fā)布開源模型SoulX-LiveAct:高魯棒實時交互數(shù)字人,雙卡低成本流式生成

2026年3月18日 15:21CCTIME飛象網(wǎng)

近日,Soul App AI團隊(Soul AI Lab)發(fā)布開源模型SoulX-LiveAct。作為新的實時數(shù)字人生成方案,SoulX-LiveAct通過 Neighbor Forcing(同擴散步對齊的自回歸條件傳播)與 ConvKV Memory(KV 記憶壓縮),讓 AR diffusion 從“能流式”走向“可真正長時穩(wěn)定地實時流式”。

現(xiàn)階段,伴隨著AI技術(shù)在數(shù)字人直播、視頻播客、實時互動等場景快速普及,行業(yè)應(yīng)用層對模型的實際需求正在從“能生成”走向“能長期穩(wěn)定生成”。但在真實落地場景里,數(shù)字人生成一直面臨一個難題:視頻生成一旦拉長到分鐘甚至小時級,畫面穩(wěn)定性與一致性會明顯下降——常見問題包括身份漂移、細節(jié)丟失、畫面閃爍,以及實時推理成本隨時長上升等。

如何讓數(shù)字人視頻在流式實時推理下做到小時級甚至無限長度、同時保持身份一致/細節(jié)穩(wěn)定/口型精準?

此次開源的SoulX-LiveAct能夠在 2 張 H100/H200 條件下,達到 20 FPS 的實時流式推理能力,且支持輸入圖像、音頻和指令驅(qū)動,生成表情生動、情緒可控、擁有豐富全身動作的實時數(shù)字人視頻。通過不斷開源不同技術(shù)路線的模型,Soul AI團隊為開源社區(qū)及行業(yè)提供了差異化的實時數(shù)字人方案,覆蓋各種硬件條件、不同應(yīng)用落地的開發(fā)者實際需求。

·Project Page: https://soul-ailab.github.io/soulx-liveact/

·Technical Report: https://arxiv.org/abs/2603.11746

·Source Code: https://github.com/Soul-AILab/SoulX-LiveAct

·Hugging Face: https://huggingface.co/Soul-AILab/LiveAct

SoulX-LiveAct 三大亮點

1) 恒定顯存:真正支持無限時長生成

過去的 AR diffusion 往往依賴 KV cache 記憶歷史信息,但緩存會隨視頻長度線性增長——視頻一長,不是爆顯存,就是不得不丟歷史,穩(wěn)定性隨之崩掉。SoulX-LiveAct 從“條件傳播方式”和“歷史記憶管理”兩個層面解決了這一瓶頸,創(chuàng)新機制使系統(tǒng)既能“帶得動”長時歷史,又不會因緩存膨脹而拖慢推理,從而在機制上具備小時級甚至更長時長的持續(xù)生成能力。

2) 實時吞吐:2 張 H100/H200 即可 20 FPS 流式推理

在 512×512 分辨率下,SoulX-LiveAct 僅需 2 張 H100/H200 即可達到 20 FPS 的實時流式推理能力,端到端延遲約 0.94s。同時,單幀計算成本降低到 27.2 TFLOPs / frame,在追求實時的條件下顯著減輕算力壓力,為線上部署提供更現(xiàn)實的成本方案。

3) 長時一致:身份穩(wěn)定 + 細節(jié)不“掉件”

長視頻最容易“翻車”的不是第一分鐘,而是第十分鐘、第三十分鐘:常見現(xiàn)象包括臉漂、發(fā)型/衣紋漂移、飾品忽隱忽現(xiàn),甚至口型逐步失配。在報告的長時對比中,基線方法普遍出現(xiàn)不同程度的身份漂移與細節(jié)不穩(wěn)定;而 SoulX-LiveAct 能在更長時間窗口內(nèi)保持身份一致性與關(guān)鍵細節(jié)持續(xù)穩(wěn)定(如配飾與衣物紋理不“掉件”)。

原理介紹:

SoulX-LiveAct 面向小時級實時數(shù)字人動畫的流式生成,整體采用 AR Diffusion(自回歸擴散)范式,并圍繞“長時一致 + 恒定顯存”構(gòu)建兩條核心機制:Neighbor Forcing 與 ConvKV Memory。

·AR Diffusion 主干:按 chunk/幀塊自回歸生成,每個 chunk 內(nèi)采用擴散建模細節(jié),chunk 間通過條件上下文承接運動與身份信息,實現(xiàn)流式推理閉環(huán)。

·Neighbor Forcing(鄰近強制):在自回歸鏈上,不傳播“不同擴散步”的狀態(tài),而是傳播 同擴散步 ttt 下的相鄰幀 latent 作為條件,使上下文與當前預(yù)測處于同一噪聲語義空間(step-aligned),顯著降低訓(xùn)練/推理中的分布不一致。

·ConvKV Memory(卷積式 KV 記憶):將歷史 attention KV 記憶從“線性增長的 cache”改為“短期精確 + 長期壓縮”的組合:

近期 KV 保留高精度窗口(保證局部一致與細節(jié)穩(wěn)定)

遠期 KV 通過輕量 1D conv 按固定壓縮比滾動壓縮(例如報告示例 λ=5),把歷史信息壓縮進固定長度表示,從而實現(xiàn)常量顯存推理。

·RoPE Reset(位置對齊):配合 ConvKV Memory 的“壓縮+滑動窗口”,通過 RoPE reset 做位置編碼對齊,避免長序列位置漂移,強化長時穩(wěn)定。

LiveAct 推理時序 + Memory 結(jié)構(gòu)示意圖

SoulX-LiveAct 的訓(xùn)練目標不是只追求視頻質(zhì)量,而是顯式對齊流式推理的長時誤差傳播,使模型在“越長越不穩(wěn)”的場景下仍能保持身份與細節(jié)穩(wěn)定。

·Neighbor Forcing 對齊訓(xùn)練分布:訓(xùn)練時強制模型在同擴散步語境下接收來自“相鄰幀”的條件 latent,減少 AR 鏈中跨步噪聲空間不一致帶來的優(yōu)化震蕩,使模型更好學(xué)到穩(wěn)定的時序承接規(guī)則。

·長時一致性導(dǎo)向的自回歸訓(xùn)練構(gòu)造:訓(xùn)練樣本按 chunk 方式組織,顯式覆蓋“連續(xù) chunk 合成 → 誤差累積 → 再糾正”的過程,讓模型在訓(xùn)練期就暴露并學(xué)習(xí)處理長時漂移問題,而不是僅在短 clip 上擬合。

·Memory-Aware 訓(xùn)練(與推理一致):訓(xùn)練階段引入與推理一致的 ConvKV Memory 使用方式(短期窗口 + 長期壓縮),讓模型學(xué)會在“被壓縮的歷史記憶”條件下保持身份與細節(jié)一致性,避免訓(xùn)練/推理不一致導(dǎo)致的掉點。

SoulX-LiveAct 的加速思路強調(diào)“延遲穩(wěn)定”而不是“越跑越慢”:核心是把長時上下文從可變 cache 變成可控 memory,從而讓實時流式推理不隨時長惡化。

·恒定顯存(Constant-Memory Inference):ConvKV Memory 把歷史 KV 從線性增長變?yōu)楣潭A(yù)算,推理顯存隨視頻時長保持恒定,這是小時級在線生成的必要條件。

·穩(wěn)定延遲(Stable Latency):短期窗口 KV 保證局部質(zhì)量,長期壓縮 KV 保證全局一致;兩者組合使每個 chunk 的計算與通信成本保持穩(wěn)定,不會因為視頻越長而拖慢。

·端到端實時能力:在 512×512 下,系統(tǒng)可在 2×H100/H200 條件下實現(xiàn) 20 FPS 的流式推理,并給出約 0.94s 的端到端延遲與 27.2 TFLOPs/frame 的成本口徑。

綜合表現(xiàn)領(lǐng)先

真正的“長時穩(wěn)定+實時可用”

通過在 HDTF(面部口型與真實感)與 EMTD(包含全身動作)兩類基準上的定量對比,SoulX-LiveAct 展示了其在 口型同步、動畫質(zhì)量與實時效率上的綜合領(lǐng)先:在 HDTF 上,SoulX-LiveAct 取得 9.40 的 Sync-C 與 6.76 的 Sync-D,同時在分布相似性指標上達到 10.05 FID / 69.43 FVD,并在 VBench 上獲得 97.6 的 Temporal Quality 與 63.0 的 Image Quality,VBench-2.0 的 Human Fidelity 達到 99.9,體現(xiàn)出更穩(wěn)定的時序質(zhì)量與更強的人體與身份一致性;在 EMTD 上,SoulX-LiveAct 依然保持最優(yōu)同步表現(xiàn)(8.61 Sync-C / 7.29 Sync-D),并在 VBench 上達到 97.3 Temporal Quality / 65.7 Image Quality,Human Fidelity 達到 98.9,證明其對全身動作與復(fù)雜表情/動作場景的魯棒性。

依托模型表現(xiàn),SoulX-LiveAct 將能夠在“長期在線”數(shù)字人直播間、AI教育、智慧柜員、知識付費、播客錄制、開放世界互動等方向快速落地,例如,在線開放世界的NPC互動中,要求“說得像、動得像、一直像”,SoulX-LiveAct 在全身數(shù)據(jù)集 EMTD 上的同步與質(zhì)量指標領(lǐng)先,并支持實時流式推理,適合在數(shù)字空間里實現(xiàn)長時間在線的、具備情緒動作表達的角色交互。

今年,在實時數(shù)字人生成方向,Soul AI 團隊已陸續(xù)開源了SoulX-FlashTalk、SoulX-FlashHead,前者是首個能夠?qū)崿F(xiàn)0.87s亞秒級超低延時、32fps高幀率,并支持超長視頻穩(wěn)定生成的14B數(shù)字人模型;后者是1.3B輕量化模型,可實現(xiàn)在單張消費級顯卡( RTX 4090 )上跑出96FPS的工業(yè)級速度。

除了實時數(shù)字人生成方向的SoulX-FlashTalk、SoulX-FlashHead、SoulX-LiveAct ,現(xiàn)階段,Soul AI團隊還開源了播客語音合成模型SoulX-Podcast、歌聲合成模型 SoulX-Singer、全雙工語音對話控制模塊SoulX-Duplug,綜合來看,團隊圍繞“實時交互”這一核心領(lǐng)域,在多模態(tài)方向不斷夯實技術(shù)基建,同時通過工程化部署方案將技術(shù)推向可真正工業(yè)級應(yīng)用階段。

而堅持開源方向,Soul不僅完成了自身AI基礎(chǔ)設(shè)施的持續(xù)升級,還通過攜手全球開發(fā)者,持續(xù)拓展“AI+”的新落地場景,共同推動AI應(yīng)用生態(tài)的建設(shè)。

編 輯:T01
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請在相關(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
推薦閱讀
  • 2026十大科技趨勢

    2026 十大科技趨勢,定義新一年的每一次突破。祝大家馬年大吉,馬到成功!初八啟新程,萬事皆順遂!

    [詳細]

精彩視頻

精彩專題

關(guān)于我們廣告報價聯(lián)系我們隱私聲明本站地圖

CCTIME飛象網(wǎng) CopyRight © 2007-2026 By CCTIME.COM

京ICP備08004280號-1 電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號

公司名稱: 北京飛象互動文化傳媒有限公司

未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像