必讀視頻專題飛象趣談光通信人工智能低空經(jīng)濟(jì)5G手機(jī)智能汽車智慧城市會展特約記者

入選 SOSP 2025!趨境科技 KTransformers 突破異構(gòu)計(jì)算瓶頸,大模型推理成本大降

2025年11月21日 16:54CCTIME飛象網(wǎng)

趨境科技與清華共同開源的高性能異構(gòu)推理框架 KTransformers,其論文《KTransformers: Unleashing the Full Potential of CPU/GPU Hybrid Inference for MoE Models》成功入選 “計(jì)算機(jī)系統(tǒng)領(lǐng)域奧斯卡” SOSP 2025。作為計(jì)算機(jī)系統(tǒng)領(lǐng)域最具影響力的國際頂會之一,SOSP 見證了無數(shù)里程碑式技術(shù)成果的首次亮相,從虛擬化到分布式文件系統(tǒng),此次 KTransformers 的入選,標(biāo)志著其異構(gòu)計(jì)算技術(shù)得到全球頂尖學(xué)術(shù)與工業(yè)界的認(rèn)可。

KTransformers 專注于高效利用底層 GPU、CPU、內(nèi)存等多樣化算力,讓大模型在更低算力、更靈活的硬件架構(gòu)上高效運(yùn)行。在大模型推理中,趨境科技提出了一條不同以往的道路:一套面向 CPU+GPU 異構(gòu)架構(gòu)的 MoE 推理系統(tǒng)方案,讓原本只能依賴昂貴多卡 GPU 的大模型,能在 CPU 參與的硬件環(huán)境中實(shí)現(xiàn)接近同等性能的推理體驗(yàn)。技術(shù)層面上,它通過一系列系統(tǒng)級創(chuàng)新,讓 GPU 負(fù)責(zé)注意力和主干網(wǎng)絡(luò)的高并行計(jì)算,CPU 則承擔(dān)稀疏專家模塊的推理任務(wù),實(shí)現(xiàn)了高效的 CPU+GPU 協(xié)同執(zhí)行。

11 月 6 日月之暗面發(fā)布 Kimi-K2-Thinking 模型后,KTransformers 已完成對該模型的全面適配,支持用戶在單卡環(huán)境下完成推理任務(wù),2 卡環(huán)境下完成 LoRA 微調(diào)任務(wù),大幅降低部署與定制化門檻。同時(shí),趨境科技也已完成了該模型在昇騰 NPU 上的全面適配,提供了完善的全國產(chǎn)化推理解決方案。

10 月,KTransformers 與主流推理框架 SGLang 的合作,雙方架構(gòu)合入同一分支,在 Kimi-K2-1TB 的模型推理任務(wù)中,用戶僅需簡單安裝 SGLang 與 KTransformers CPU 內(nèi)核,下載官方模型及量化權(quán)重,即可通過一條命令啟動服務(wù);同時(shí)僅使用單張消費(fèi)級 GPU+CPU。此次合作融合了 GPU+CPU 異構(gòu)推理創(chuàng)新模式與全 GPU 的傳統(tǒng)推理模式,雙方聯(lián)合推動大模型推理向更高性能、更低成本的方向演進(jìn),同時(shí)推動大模型推理架構(gòu)變得更加完善,將邁向更廣泛的產(chǎn)業(yè)落地。

針對模型微調(diào),KTransformers 與 LLaMA-Factory 深度集成,支持用戶使用 LoRA 等輕量級微調(diào)方法,在極少量 GPU 資源下完成模型定制。傳統(tǒng)上,LoRA 微調(diào)千億模型成本高達(dá)數(shù)百萬,趨境科技提供的異構(gòu)微調(diào)能力將資源需求降低到單個(gè)消費(fèi)級 GPU(如 RTX 4090)起,這使得高校、中小型實(shí)驗(yàn)室、初創(chuàng)公司甚至個(gè)人開發(fā)者都有機(jī)會參與進(jìn)來。該微調(diào)方案在較小規(guī)模的 MoE 模型(DeepSeek-14B)上面也展現(xiàn)了超過傳統(tǒng)方案 1.8 倍的吞吐、顯存占用降低 82%,成為消費(fèi)級顯卡上微調(diào)超大參數(shù) MoE 模型的唯一可行方案。

如今的 KTransformers 已成為一個(gè)被開發(fā)者、廠商與開源社區(qū)廣泛復(fù)用的共建式底層框架。全球頭部開源模型方,如 Qwen、Kimi、智譜 AI 等多個(gè)主流大模型,都在模型發(fā)布首日就推薦 KTransformers 作為推理引擎支持;其工程實(shí)踐與兼容性也被多家一體機(jī)產(chǎn)品線采納。趨境科技始終是異構(gòu)路線的核心推動者,已與多個(gè)國產(chǎn) CPU、GPU 硬件平臺合作,共同推進(jìn)全國產(chǎn)高性價(jià)比方案;為數(shù)十家行業(yè)開發(fā)伙伴提供算力底座,逐步實(shí)現(xiàn)算力普惠。未來,趨境希望讓 AI 能力不再專屬于少數(shù)企業(yè),讓大模型真正為業(yè)務(wù)所用。

編 輯:T01
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
推薦閱讀

精彩視頻

精彩專題

關(guān)于我們廣告報(bào)價(jià)聯(lián)系我們隱私聲明本站地圖

CCTIME飛象網(wǎng) CopyRight © 2007-2025 By CCTIME.COM

京ICP備08004280號-1 電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號

公司名稱: 北京飛象互動文化傳媒有限公司

未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像