本發明涉及計算機,更具體地說,涉及一種基于邊緣混合專家大模型的可靠推理調度方法。
背景技術:
1、近年來,大語言模型(llms)在自然語言處理、多模態交互等領域取得了顯著進展。混合專家(moe)作為一種創新的模型架構,實現了兼顧模型能力擴展與計算效率提升的重要突破。其稀疏激活和并行計算的工作特性也使得邊緣賦能的分布式llm部署成為可能,相較于集中式的云端部署,邊緣計算能夠顯著降低服務延遲并提高用戶數據隱私性。然而,llms對計算資源的需求極高,通常依賴于云邊協作或聯合邊緣計算來實現多節點間的協作推理。但這種分布式部署容易受到設備異構性和節點故障等不確定因素的影響,導致節點負載不均和推理效率降低,同時邊緣設備受限于自身的安全防護能力,易遭受外部環境干擾與惡意攻擊,導致推理可靠度降低。
2、模型量化技術能夠在降低模型資源占用的同時提升推理效率,便于llms在邊緣設備上的輕量化部署,但會一定程度上影響推理準確率;模型分片的策略優化技術能夠實現資源友好的靜態大模型分布式部署,但無法應對實際推理環境下面臨的節點負載不均與惡意攻擊問題。
技術實現思路
1、為解決現有模型量化技術以及模型分片的策略優化技術存在的推理準確率低、無法應對實際推理環境下的節點負載不均與惡意攻擊問題,本發明提供一種基于邊緣混合專家大模型的可靠推理調度方法。本發明利用異常檢測算法計算節點可靠度,并利用深度強化學習實現推理效率和可靠性最優的專家激活,進而提高推理準確率,以解決實際推理環境下的節點負載不均與惡意攻擊問題。
2、本發明為解決技術問題所采用的技術方案如下:
3、本發明提供的一種基于邊緣混合專家大模型的可靠推理調度方法,包括以下步驟:
4、步驟s1:分布式邊緣部署moe大模型到邊緣網絡;
5、步驟s2:進行惡意節點行為建模,模擬分布式協作推理,分別生成自編碼器輸入向量空間集合v與推理任務狀態集合s;
6、步驟s3:進行異常節點檢測神經網絡訓練,得到各邊緣節點的計算可靠度;
7、步驟s4:進行深度強化學習神經網絡訓練得到專家選擇策略;
8、步驟s5:基于訓練的深度強化學習神經網絡進行邊緣moe大模型的可靠推理調度。
9、進一步的,步驟s1的具體實現流程如下:
10、s1.1:根據moe塊將moe大模型劃分為n層,每層部署到一組設備上;
11、所述moe塊包括:moe層、殘差連接層、歸一化層、自注意力層和門控網絡;所述moe層包括多個專家網絡,每個moe層均包含e個專家,e為大于1的整數;所述殘差連接層、歸一化層、自注意力層組成自注意力機制,門控網絡組成門控機制,用于實現專家路由選擇;
12、s1.2:部署在相同設備組所屬邊緣節點的專家網絡構成一個moe層全集,其余層結構則在同組邊緣節點間共享。
13、進一步的,步驟s2的具體實現流程如下:
14、s2.1:向分布式邊緣部署的moe大模型上傳批量推理任務;推理任務表示一次從第一層moe塊到第n層moe塊的端對端推理;
15、s2.2:為每個推理任務進行一次top-2專家路由,路由給部署在第一層設備的專家網絡;
16、s2.3:推理任務在相應設備邊緣節點的專家網絡處進行排隊,等待與專家網絡計算;
17、s2.4:根據惡意節點行為建模,參與本層推理任務的各個惡意節點進行惡意行為;
18、s2.5:計算推理任務的推理時間,在推理進度最慢的邊緣節點專家網絡處合并各被路由的專家的推理結果,并進行后續計算;
19、s2.6:計算本層任務推理時間,返回步驟s2.2,進行下一層推理,直至推理任務結束。
20、進一步的,步驟s2.4的具體實現流程如下:
21、s2.4.1:節點下線,表現形式為節點無計算結果,且推理任務無限期等待應答;
22、s2.4.2:能量-延遲攻擊,表現形式為節點推理時間過長;
23、s2.4.3:不誠實計算,表現形式為降低推理結果可信度c;
24、s2.4.4:各惡意節點僅參與一類惡意行為:節點若下線,則不參與后續推理;節點若參與能量-延遲攻擊或不誠實計算,則在每輪推理時根據概率進行惡意行為。
25、進一步的,步驟s2.5的具體實現流程如下:
26、s2.5.1:計算專家網絡進行一次推理任務所需的浮點計算量:
27、dcomp=4m·mh+2mh·m+η·mh+mh;
28、式中,m表示令牌的嵌入維度,mh表示神經網絡隱藏層維度,η表示激活函數計算所需的flops即每秒浮點運算次數;
29、s2.5.2:計算節點間數據傳輸數據量dtran=ζ·m;式中,ζ表示神經網絡權重的量化精度;
30、s2.5.3:當推理過程未發生惡意行為時,一次推理任務在相鄰層間的推理時間為:
31、
32、式中,i與j分別表示被路由的專家,bi表示專家i所在節點設備的通信帶寬,fi表示專家i所在節點設備的flops,bj表示專家j所在節點設備的通信帶寬,fj表示專家j所在節點設備的flops,qi表示專家i所在節點設備gpu的排隊任務量,qj表示專家j所在節點設備gpu的排隊任務量,ti表示專家i完成當前推理任務需要的時間,tj表示專家j完成當前推理任務需要的時間,表示各設備除專家網絡計算外的后續計算時間,如果ti大于等于tj,則若ti小于tj,則表示專家i所在節點設備除專家網絡計算外的后續計算時間,表示專家j所在節點設備除專家網絡計算外的后續計算時間,表示為
33、if?ti≥tj,else
34、更進一步的,當本層推理任務涉及有惡意行為時,對于節點下線,表現為t=+∞;
35、對于能量-延遲攻擊,表現為:
36、
37、式中,qi表示專家i所在的專家網絡的排隊任務量,qj表示專家j所在的專家網絡的排隊任務量;
38、對于不誠實計算,在推理時間上沒有顯著表現,但會使得推理結果可信度由c=1降低為c=0。
39、進一步的,步驟s3的具體實現流程如下:
40、s3.1:初始化樣本池d1;初始化壓縮網絡w(θe,θd),θe和θd均表示壓縮網絡;初始化估計網絡θm表示估計網絡參數;初始化各節點的可靠度為p=[p1,p2,…,pg,…,pg]=[1,1,…,1,…,1];
41、s3.2:將步驟s2構造的輸入向量空間集合v存儲到樣本池d1;隨機從樣本池d1中取出i個輸入向量樣本xi∈v;
42、s3.3:向壓縮網絡批量輸入隨機抽取的i個輸入向量樣本,得到第i個輸入向量經壓縮后的低維空間特征信息zci∈zc與壓縮重建后的高維向量xi′,進而得到重構誤差
43、s3.4:向估計網絡輸入i個長度為2的構造向量z=[z1,z2,…,zi,...,zi]s.t.zi=(zci,zri),i∈[1,i],所述估計網絡具體采用高斯混合模型gmm,其包含的高斯簇個數為k=3,得到經由softmax層的估計網絡輸出:分別表示節點所屬為各高斯簇的概率;
44、s3.5:根據上述概率估計高斯混合模型gmm各類高斯簇的權重值、均值向量與協方差矩陣:
45、
46、式中,表示高斯簇的權重值,表示高斯簇的均值向量,=表示高斯簇的協方差矩陣,表示第i個數據點屬于高斯簇的概率;
47、s3.6:計算各個輸入向量的樣本能量:
48、
49、式中,表示高斯簇協方差矩陣的逆矩陣;
50、s3.7:基于目標函數更新網絡參數;
51、s3.8:基于訓練的dagmm網絡計算節點可靠度。
52、更進一步的,步驟s3.7的具體實現流程如下:
53、s3.7.1:計算dagmm的目標函數:
54、
55、式中,e(zi)+表示輸入向量的樣本能量,表示協方差矩陣相關的正則化項,λ1與λ2分別表示第二項樣本能量與第三項正則項的權重因子;
56、s3.7.2:通過隨機梯度下降分別更新神經網絡參數θe、θd與θm;
57、s3.7.3:返回步驟s3.2進行下一輪參數更新,直至訓練結束。
58、進一步的,步驟s3.8的具體實現流程如下:
59、s3.8.1:向訓練后的dagmm網絡輸入向量樣本x∈v,得到所有向量樣本的能量e;
60、s3.8.2:選取能量e中取值大小占百分比為70%的能量值,作為異常判斷閾值threshold;
61、s3.8.3:當步驟s2中構造的向量樣本能量大于異常判斷閾值threshold,即ei>threshold,s.t.xi∈v,此時樣本被判定為異常,更新樣本所屬對應節點可靠度為:pg←pg+0.3,g∈[1,g];反之則判定為正常更新樣本,更新所屬對應節點可靠度為:pg←pg+1,g∈[1,g];
62、s3.8.4:各節點最終的計算可靠度為:式中,kg表示所屬節點的向量樣本總個數。
63、進一步的,步驟s4的具體實現流程如下:
64、s4.1:初始化樣本池d2;初始化動作-價值函數的q神經網絡q(θ);初始化目標動作-價值函數的神經網絡兩類神經網絡初始化權重參數相等,即
65、s4.2:將步驟s2構造的推理任務狀態集合s存儲到樣本池d2;隨機從樣本池d2中取出j個樣本(sj,aj,rj,sj+1),sj與sj+1分別表示樣本的當前狀態與下一狀態,aj表示動作,rj表示獎勵;
66、s4.3:計算樣本中每一個當前狀態的目標值:通過執行動作aj后的獎勵rj來更新q值作為目標值yj:如果下一狀態為吸收態,則yj=rj,否則:
67、
68、式中,a′表示下一狀態執行的動作;
69、s4.4:基于目標值計算目標函數,通過sgd更新參數θ;
70、s4.5:每c次迭代后更新神經網絡參數使c為大于1的整數。
71、更進一步的,步驟s4.4的具體實現流程如下:
72、s4.4.1:基于目標值yj計算目標函數l(θ)=e[(yj-q(sj,aj;θ))2];
73、s4.4.2:計算參數θ關于目標函數的梯度:
74、
75、s4.4.3:使用sgd更新參數θ。
76、本發明的有益效果是:
77、本發明在分布式邊緣網絡下進行研究,通過模擬moe大模型的協作推理過程驗證方案在場景中的可行性與使用性。使用異常檢測算法dagmm,動態生成并調整邊緣節點的可靠度取值,進而使用深度強化學習算法ddqn獲取推理效率及可靠度最優的專家激活決策。在實驗中驗證了本發明在不同節點可靠度場景下,與傳統top-2激活和貪心策略在推理效率與結果可靠度上的優化有效性。本發明利用分布式邊緣部署的服務質量與隱私保護優勢,根據大模型門控函數對專家網絡的原始路由結果,結合實際動態部署環境下的節點可靠度與實時負載,有效地優化推理過程,從而提高分布式邊緣部署下moe大模型的協作推理效率和可靠性。