本發明屬于計算機圖形學技術和人工智能,涉及一種基于多尺度自回歸模型的三維模型生成技術,能夠實現無條件或給定草圖、圖片、文本等多種輸入條件,生成高質量、多樣化的三維形狀。
背景技術:
1、三維形狀生成的任務目標是通過深度學習等先進技術自動創建或補全復雜的三維幾何結構。特別是在當前個性化定制與智能制造蓬勃發展的背景下,這項技術的應用不僅限于傳統領域,更將在定制化產品開發、數字孿生乃至元宇宙內容生成中扮演重要角色。近年來,由于擴散模型(diffusion?models)的突破性進展,三維內容生成技術得到了快速發展。與此同時,自回歸模型(autoregressivemodels)因其在自然語言處理、二維圖像生成及多模態理解等領域的卓越表現而成為通用人工智能領域的核心技術之一。然而,在三維形狀生成方面,現有的自回歸模型性能仍落后于擴散模型。因此,探索如何利用自回歸模型高效地生成三維形狀成為了本研究的重點。
2、傳統的自回歸模型在處理三維生成任務時面臨著兩個主要挑戰:一方面,由于三維形狀缺乏天然的順序結構,采用現有方法按照三維掃描序構建一維序列的方式會破壞形狀的層次化特征與空間局部性,導致模型收斂速度慢且生成質量受限;另一方面,高分辨率三維形狀需要數萬個token來描述細節,直接使用標準transformer架構會導致計算復雜度呈平方級增長,造成訓練與推理過程中的資源消耗急劇增加。盡管有研究嘗試通過直接生成三維網格或采用低分辨率token方案來降低計算負載,但這些方法在幾何細節表達能力和生成分辨率上存在顯著瓶頸,難以滿足高質量三維模型生成的需求,無法構建多模態的三維形狀生成通用模型,在工業設計、虛擬現實、數字孿生等領域的應用受到限制。
技術實現思路
1、為了克服上述現有技術存在的不足,本發明提出了基于多尺度自回歸模型的三維形狀生成模型方法及系統,使用三維形狀數據集進行模型訓練,能夠實現高質量、多樣性、多模態的形狀生成,提升三維形狀建模生成的效率和質量。
2、為方便說明,本發明約定以下術語定義:
3、token:注意力機制處理的最小單位。
4、vqvae:向量量化變分自動編碼器(vector?quantized?variationalautoencoder),文獻(van?den?oord,?aaron,?and?oriol?vinyals.?"neural?discreterepresentation?learning."?advances?in?neural?informationprocessing?systems?30(2017).)提出的一種用于將輸入數據壓縮轉化為離散化token的模型架構。
5、bsq:二元球面量化(binary?spherical?quantization),文獻(zhao,?yue,yuanjunxiong,?and?philipp?kr?henbühl.?"image?and?video?tokenization?withbinary?spherical?quantization."?arxiv?preprint?arxiv:2406.07548?(2024).)提出的一種將vqvae的特征向量離散成二元token的方法。
6、transformer:文獻(vaswani,?a.?"attention?is?all?you?need."?advances?inneural?information?processing?systems?(2017).)提出的基于注意力機制的模型架構。文獻(wang,?peng-shuai.?"octformer:octree-based?transformers?for?3d?pointclouds."?acm?transactions?on?graphics?(tog)?42.4?(2023):?1-11.)設計了面向八叉樹的更高效率的transformer結構。
7、本發明的核心是提出了一種以八叉樹結構為核心的多尺度三維序列化形狀表達。八叉樹通過遞歸分裂機制自然地表達三維形狀的多尺度層次特征,其z型曲線排序策略有效保留空間局部性,為自回歸預測提供理想的序列化基礎。相較于直接預測三維坐標的方法,本方法將三維形狀生成任務分解為八叉樹節點分裂狀態與二元向量量化的二元序列,借鑒思維鏈(chain-of-thought)的漸進推理范式,顯著提升模型收斂速度與生成質量。在計算效率方面,本發明通過改進的窗口注意力機制將時間復雜度降至線性級別,并結合了層次感知掩碼的并行token生成策略,提升了訓練速度。
8、本發明提供的技術方案如下:
9、本發明提出的方法構建了一個基于八叉樹的二元向量量化變分自動編碼器vqvae(二元向量量化的vqvae),根據三維形狀是否在八叉樹節點中構建八叉樹,用于將輸入的三維形狀壓縮成二元序列;和一個基于窗口注意力機制的高效自回歸模型,用于根據輸入條件生成三維形狀。本發明方法的步驟包括:第一步,根據輸入的三維形狀構建八叉樹;第二步,構建基于八叉樹的vqvae,使用vqvae將上一步得到的八叉樹的深層葉節點壓縮至淺層,得到淺層葉節點上的特征向量,然后使用二元向量量化公式將該連續的特征向量離散為二元編碼(即二元特征向量);第三步,構建基于窗口注意力機制的高效自回歸模型;將八叉樹分裂狀態序列和上一步得到的二元特征向量進行拼接,構建成輸入三維形狀的二元序列,使用構建的二元序列按照深度學習訓練模式,訓練基于窗口注意力機制的高效自回歸模型;第四步,使用訓練完成的基于窗口注意力機制的高效自回歸模型和基于八叉樹的二元向量量化變分自動編碼器生成三維形狀。
10、首先,本發明設計了一種二元vqvae,將三維形狀編碼成多尺度的二元序列。然后,本發明訓練了一個基于窗口注意力機制的高效自回歸模型,以自回歸的方式預測前一步得到的序列。模型中使用了層次感知的掩碼,保持了八叉樹的層次依賴機制。為了提升模型的效率和效果,本發明還引入了窗口注意力機制、多token并行預測策略和三維位置編碼。最后,本發明能夠根據輸入的多種條件,由整體到細節逐級生成出三維形狀,并且在效率和質量上超越了現有其他方法。
11、第一部分,建立基于八叉樹的多尺度二元序列化三維形狀表達,將三維形狀生成任務分解為八叉樹節點分裂狀態與二元量化編碼的二元序列。
12、本發明提出了基于八叉樹的多尺度二元序列化三維形狀表達,由八叉樹節點分裂狀態及vqvae生成的二元token拼接而成。給定一個輸入的三維形狀,首先將其構建為八叉樹,通過八叉樹節點分裂狀態得到連續的特征向量,建成包含多尺度幾何信息的二元序列。八叉樹的前3層級強制填充為滿體素網格,從第4層開始,八叉樹遞歸地在非空的體素處細分,在空的體素處不做操作,直至指定的最大層數即最大深度d。八叉樹節點分裂狀態用表示,其中為八叉樹節點的編號,0和1分別表示該節點不分裂和分裂。將第d層的節點分裂狀態按照z型曲線排列成序列,各層的節點分裂狀態按深度遞增順序串接得到序列,最終構建成包含多尺度幾何信息的二元序列。該二元序列可逆向重建原始八叉樹結構,完整保留三維形狀的幾何特征。
13、為補充八叉樹的細節表達能力,本發明創新性地引入基于八叉樹的vqvae架構,用于對符號距離場(sdf)及幾何細節進行高效編碼與重建。該模型采用非對稱的編-解碼器設計,目的是增強解碼器的重建能力。編碼器使用了基于八叉樹的稀疏卷積神經網絡(o-cnn),能夠將輸入的八叉樹壓縮2層,并將細節信息表示為葉節點上的特征向量。隨后編碼器使用二元球面量化(bsq)技術將特征向量轉換為二元token。解碼器采用對偶八叉樹圖卷積網絡架構,將二元token解碼為局部符號距離場sdf,通過多級單位分解法(mpu)整合為全局sdf,實現高精度表面重建。本發明使用了符號距離場sdf重建的損失函數:
14、
15、其中,和為預測和真實sdf值,為系數,是采樣的點云集,是點云的數量。模型訓練過程中綜合運用向量量化損失、sdf重建損失及八叉樹分裂損失,確保幾何細節的精確還原與結構完整性。
16、本發明使用的二元量化編碼損失如下,其中是熵函數,為輸入的連續特征向量,為二元量化后的離散特征向量:
17、
18、本發明還使用了八叉樹劈分損失,用于監督vqvae預測的八叉樹結構,其中為第i個八叉樹節點預測的劈分狀態,為對應的真實值:
19、
20、訓練本發明提出的基于八叉樹的二元向量量化變分自動編碼器的整體損失函數如下,其中為sdf重建損失,為二元量化編碼損失,為八叉樹劈分損失:
21、
22、量化生成的二元token按z型曲線順序序列化后,與八叉樹的二元分裂序列組合形成最終的序列化八叉樹三維表達。該表示形式具備多重優勢:所有數據元素均為二元token,極大簡化自回歸模型的預測過程;通過多層級八叉樹結構實現三維形狀多尺度特征的有機融合;z型排序機制有效保留空間局部性特征,相比傳統的掃描排序顯著提升自回歸預測效率。該表示方法為三維形狀的生成、編輯及壓縮等應用提供了高效的底層數據支撐。
23、第二部分,基于窗口注意力機制的高效自回歸模型。該模型使用了基于八叉樹結構的高效transformer模型和層次感知的掩碼機制,并根據三維數據的特點,設計了三維旋轉位置編碼和多token預測策略以提高生成質量和效率。
24、首先,本發明使用了面向三維八叉樹結構的高效transformer架構。為解決傳統自回歸模型處理長序列時計算復雜度高的問題,本發明采用基于八叉樹的窗口注意力機制(octformer),將基于八叉樹序列化的二元向量量化token序列劃分為固定尺寸的注意力窗口進行局部自注意力計算,并通過交替使用膨脹注意力與移位窗口注意力模塊,實現跨窗口的token交互。該設計突破現有技術對token的窗口大小限制,允許不同窗口的token進行全局交互,在保持計算效率的同時,有效捕捉三維形狀的局部幾何特征與全局結構。
25、其次,本發明提出三維旋轉位置編碼(rope3d)與可學習的層次嵌入向量相結合的位置信息編碼方法。針對傳統transformer架構的三維位置敏感性缺失問題,本發明將二維旋轉位置編碼擴展至三維空間,通過三維空間坐標的旋轉矩陣運算建立token的空間位置關系。同時,為區分不同八叉樹深度層級的語義信息,引入可學習的嵌入向量對八叉樹層次特征進行編碼。該復合編碼機制使模型能夠精確識別token在三維空間中的空間坐標與所屬層級深度,為自回歸預測提供關鍵位置先驗信息。
26、進一步地,本發明開發了層次約束的多token并行生成策略。針對傳統自回歸模型逐token預測效率低下的問題,本發明采用掩碼自回歸模型(mar)框架實現多token并行預測。本發明設計了一種具有層次感知能力的掩碼機制,在不改變八叉樹層次依賴關系的前提下,對同深度層級的token進行局部打亂與掩碼處理。具體而言,在序列生成過程中,按深度層級從淺至深順序預測,同一八叉樹層內允許token按照隨機順序并行生成,同時確保深層token的預測能夠得到已生成的淺層token信息。該策略通過動態控制信息流動路徑,既維持了八叉樹結構的層次生成邏輯,又將生成速度提升數倍。
27、在具體實現過程中,模型從八叉樹第3層開始逐層生成節點分裂信號得到八叉樹結構,直至最大深度d層,在該層生成表征幾何細節的量化二元token。上述步驟生成的八叉樹和二元token輸入訓練好的基于八叉樹的二元向量量化vqvae重建三維形狀。該多尺度生成機制通過分層解碼策略,實現三維形狀從基礎體素結構到精細表面特征的漸進式合成。實驗表明,本發明的自回歸模型在保持生成質量的前提下,相比傳統方法將序列生成速度提升69倍以上,且對復雜幾何結構的建模能力顯著增強。
28、本發明還實現了一種基于多尺度自回歸模型的三維模型生成系統,包括基于八叉樹二元向量量化的三維形狀表達模塊、基于窗口注意力機制的高效自回歸模型構建模塊;其中:
29、基于八叉樹二元向量量化的三維形狀表達模塊用于從輸入的三維形狀到二元向量量化的token序列的編碼和解碼;基于窗口注意力機制的高效自回歸模型構建模塊用于自回歸地生成二元向量量化的token序列。
30、與現有技術相比,本發明的有益效果:
31、本發明提供一種基于多尺度自回歸模型的三維模型生成方法及系統,設計一種以八叉樹結構為核心的多尺度三維序列化形狀表達。相較于直接預測三維坐標的傳統方案,本方法將生成任務分解為節點分裂狀態與二元量化編碼的二元序列,基于思維鏈(chain-of-thought)的漸進推理范式,顯著提升模型收斂速度與生成質量。在計算效率方面,本發明通過改進的窗口注意力機制將時間復雜度降至線性級別,并結合了層次感知掩碼的并行token生成策略。相較于基線方法,本發明的訓練速度提升13倍,生成效率提高69倍,且在生成質量與場景規模支持度上超越現有擴散模型。本發明構建多模態通用模型,在工業設計、虛擬現實、數字孿生等領域具有廣闊應用前景。