業(yè)界通常使用擴(kuò)散模型或自回歸模型來研發(fā) AI 生圖模型,蘋果公司近期發(fā)布的論文顯示該公司正在選擇一條被“遺忘”的歸一化流(Normalizing Flows)技術(shù)路線研發(fā)相應(yīng)模型。
據(jù)介紹,這一“歸一化流”技術(shù)是一種通過學(xué)習(xí)數(shù)學(xué)變換的方式,將真實(shí)世界的數(shù)據(jù)(如圖像)轉(zhuǎn)換成結(jié)構(gòu)化噪聲,并再將噪聲還原為圖像樣本的生成模型。其最大優(yōu)勢是能夠精確計算生成圖像的概率,這是擴(kuò)散模型無法做到的。這一特性使得歸一化流在對概率要求較高的任務(wù)中具有獨(dú)特吸引力。不過此類模型并不常見,原因在于其研發(fā)成本更高,同時早期采用相應(yīng)技術(shù)生成的模型往往相對模糊、缺乏細(xì)節(jié)。
參考蘋果公司《Normalizing Flows are Capable Generative Models》論文,其推出一種名為 TarFlow(Transformer AutoRegressive Flow)的新型歸一化流技術(shù)模型,該模型的核心思路是將一張待生成的大圖拆成“小區(qū)塊”,再以相應(yīng)區(qū)塊為單位進(jìn)行生成一系列像素值,每一塊圖像像素值的生成都依賴于前面已生成的部分,繼而形成完整的圖像,因此能夠有效避免圖像被壓縮為固定詞匯表時產(chǎn)生的質(zhì)量損失與表現(xiàn)僵化的問題。

當(dāng)然,TarFlow 在生成高分辨率圖像方面仍存在局限,這就引出了第二篇研究《STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis》。
參考這篇論文,蘋果在 TarFlow 的基礎(chǔ)上進(jìn)一步提出了增強(qiáng)版本:STARFlow(Scalable Transformer AutoRegressive Flow)。
該模型最大的改進(jìn)在于,它不再直接在像素層面生成圖像,而是在“潛空間”(latent space)中工作,首先生成圖像的壓縮表示,再通過解碼器進(jìn)行放大還原。因此模型可無須再預(yù)測數(shù)百萬個像素值,而是先處理圖像的大體結(jié)構(gòu),細(xì)節(jié)部分留給解碼器進(jìn)行補(bǔ)充,從而在不損失質(zhì)量的前提下提升生成效率。

此外,STARFlow 還改進(jìn)了對文本提示的處理方式。它不再內(nèi)建專用文本編碼器,而是支持調(diào)用現(xiàn)有語言模型(例如谷歌推出的小語言模型 Gemma,理論上可以直接在設(shè)備上運(yùn)行)來處理用戶的語言指令。這樣一來,模型的圖像生成部分可以專注于圖像細(xì)節(jié)的生成與優(yōu)化。