首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|芯片|物聯(lián)網(wǎng)|量子|低空經(jīng)濟|智能汽車|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|大數(shù)據(jù)|報告|智慧城市|移動互聯(lián)網(wǎng)|會展

首頁 >> 終端 >> 正文

蘋果另辟蹊徑：利用“歸一化流”技術(shù)打造 AI 生圖模型

2025年6月24日 09:07 IT之家作者：漾仔

業(yè)界通常使用擴散模型或自回歸模型來研發(fā) AI 生圖模型，蘋果公司近期發(fā)布的論文顯示該公司正在選擇一條被“遺忘”的歸一化流（Normalizing Flows）技術(shù)路線研發(fā)相應(yīng)模型。

據(jù)介紹，這一“歸一化流”技術(shù)是一種通過學(xué)習(xí)數(shù)學(xué)變換的方式，將真實世界的數(shù)據(jù)（如圖像）轉(zhuǎn)換成結(jié)構(gòu)化噪聲，并再將噪聲還原為圖像樣本的生成模型。其最大優(yōu)勢是能夠精確計算生成圖像的概率，這是擴散模型無法做到的。這一特性使得歸一化流在對概率要求較高的任務(wù)中具有獨特吸引力。不過此類模型并不常見，原因在于其研發(fā)成本更高，同時早期采用相應(yīng)技術(shù)生成的模型往往相對模糊、缺乏細節(jié)。

參考蘋果公司《Normalizing Flows are Capable Generative Models》論文，其推出一種名為 TarFlow（Transformer AutoRegressive Flow）的新型歸一化流技術(shù)模型，該模型的核心思路是將一張待生成的大圖拆成“小區(qū)塊”，再以相應(yīng)區(qū)塊為單位進行生成一系列像素值，每一塊圖像像素值的生成都依賴于前面已生成的部分，繼而形成完整的圖像，因此能夠有效避免圖像被壓縮為固定詞匯表時產(chǎn)生的質(zhì)量損失與表現(xiàn)僵化的問題。

當(dāng)然，TarFlow 在生成高分辨率圖像方面仍存在局限，這就引出了第二篇研究《STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis》。

參考這篇論文，蘋果在 TarFlow 的基礎(chǔ)上進一步提出了增強版本：STARFlow（Scalable Transformer AutoRegressive Flow）。

該模型最大的改進在于，它不再直接在像素層面生成圖像，而是在“潛空間”（latent space）中工作，首先生成圖像的壓縮表示，再通過解碼器進行放大還原。因此模型可無須再預(yù)測數(shù)百萬個像素值，而是先處理圖像的大體結(jié)構(gòu)，細節(jié)部分留給解碼器進行補充，從而在不損失質(zhì)量的前提下提升生成效率。

此外，STARFlow 還改進了對文本提示的處理方式。它不再內(nèi)建專用文本編碼器，而是支持調(diào)用現(xiàn)有語言模型（例如谷歌推出的小語言模型 Gemma，理論上可以直接在設(shè)備上運行）來處理用戶的語言指令。這樣一來，模型的圖像生成部分可以專注于圖像細節(jié)的生成與優(yōu)化。

編輯：章芳

飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容，凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有，未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像，違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載，請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源：XXXX”的作品，均轉(zhuǎn)載自其它媒體，在于傳播更多行業(yè)信息，并不代表本網(wǎng)贊同其觀點和對其真實性負責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題，請在相關(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系，我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777，郵件后綴為cctime.com，冒充本站員工以任何其他聯(lián)系方式，進行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為，均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。

推薦新聞

·工信部等六部門開展2025年度智能工廠梯度培育行動	·6G標(biāo)準(zhǔn)化啟航，智能超表面技術(shù)需產(chǎn)業(yè)協(xié)同破局
·阿里云推出自動駕駛模型訓(xùn)練推理加速框架，訓(xùn)練時間可..	·對標(biāo)Cursor！百度文心快碼AI IDE上線，宣布首創(chuàng)設(shè)計稿..
·英國擬建立國家數(shù)據(jù)圖書館對AI治理的啟示	·中國電信AI+網(wǎng)絡(luò)能力發(fā)布大會召開全球首個網(wǎng)絡(luò)大模型..
·2025 WBBA云網(wǎng)寬帶發(fā)展大會 \| 更智能的基礎(chǔ)設(shè)施：AI與..	·工信部2025年度國家科學(xué)技術(shù)獎提名公示：頻譜、全光網(wǎng)..
·爆發(fā)前夜的智能體，落在中國算力的舒適區(qū)	·向“智”！中國機器人“跑”起來
·萬兆光網(wǎng)落地家庭與園區(qū)商業(yè)化提速 5G-A與AI融合步入“..	·累計處置違規(guī)AI產(chǎn)品3500余款中央網(wǎng)信辦整治AI技術(shù)濫用
·羅永浩：燒了很多錢，證實十年內(nèi)AR眼鏡都不太可能商業(yè)..	·HarmonyOS 6 開發(fā)者Beta正式啟動：無處不在的AI體驗