麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

無模型強化學習算法的分布式數據處理方法、設備及介質

文檔序號:41758819發布日期:2025-04-29 18:27閱讀:3來源:國知局
無模型強化學習算法的分布式數據處理方法、設備及介質

本技術涉及強化學習和分布式計算領域,尤其涉及一種面向調度無模型強化學習算法的分布式數據處理方法、設備及介質。


背景技術:

1、目前,人工智能領域發展迅速,大模型技術火熱,在其中強化學習有了不小的發展,如llm使用rlhf利用人類反饋信號優化語言模型、openai?o1使用強化技術迭代增強大模型等等,隨著大規模算力的運用,對于模型分布式的訓練也越來越受到專家的重視。雖然強化學習取得了令人印象深刻的成果,但強化學習智能體的訓練需要大量的樣本,更需要大規模計算集群的算力支持。快速構建強化學習訓練任務和大規模計算集群的軟硬件適配,實現強化學習在大規模計算集群的高效訓練顯得尤為重要。

2、現有的市場上有許多分布式框架,如ray、papl、xiantian、msrl等,這類框架都支持強化學習算法的分布式訓練;ray是一個開源的分布式機器學習框架,具備高度可擴展性、靈活任務調度、多語言支持及易集成等特點,采用分布式架構對任務分解為子任務并行執行,提高計算效率,同時使用了基于actor模型的底層計算框架,能夠高效地利用分布式資源,其調度機制可以根據任務的優先級和資源需求動態調度,確保高優先級任務及時執行,充分利用集群資源,但由于ray的資源管理非常復雜,在使用過程中也不夠穩定,用戶需要花費大量的時間和精力來學習框架內容,不利于上手;parl是百度開源的一個用于深度強化學習的框架,它專注于高效率和靈活性,提供了簡易的分布式通信,靈活的算法配置以及高效加載分布數據,但因為分布式通信比較單一且高度集成,對于一些資源的浪費沒有辦法進行規避,同時資源管理不夠完善、兼容性較弱、可拓展性不足等等問題;xingtian是一個高度組件化的強化學習庫,分布式的訓練方案,同過zmq來進行內部的通信調度,具有高吞吐的需求,同時也能過簡單快速的上手,但是分布式設計的通信架構比較復雜,通信開銷大,同時想要自己自由實現或集成一個算法進行訓練任務比較困難,自由度與靈活性不足。

3、針對這些框架中強化學習算法分布式訓練體現出來的拓展性的不足、模型策略單一、參數量適配冗雜等問題,如何進行改進是該領域亟待解決的技術問題。


技術實現思路

1、為解決上述至少一個技術問題,本發明實施例提供了一種面向調度無模型強化學習算法的分布式數據處理方法,包括:

2、s1:根據強化學習算法訓練過程中的任務類型,封裝為不同任務級別的角色;

3、s2:基于角色的不同任務級別,定義相互之間的通信拓撲結構,實現分布式通信模式的基本計算單元組;

4、s3:擴展基本計算單元組,并根據選定的聚合、分發策略,預設模型的聚合和分發方式;

5、s4:根據封裝的角色、基本計算單元組、以及預設模型的聚合和分發方式,進行全局參數自適應適配和任務調度,直至訓練完畢。

6、進一步地,步驟s1,具體為:

7、拆解強化學習算法訓練流程中的每個單元操作,進行封裝成不同任務級別的角色,包括:

8、采樣者,用于與環境交互產生樣本,發送樣本給數據池,并更新參數;

9、學習器,用于接收數據池發送的樣本,并完成策略模型的更新學習,發送更新后的模型給采樣者;

10、數據池,用于數據的中間流轉。

11、進一步地,步驟s2,具體為:

12、基于通信協議,為采樣者封裝數據發送接口和模型接收接口;為學習器封裝模型發送接口和數據接收接口;為數據池封裝數據接收接口和數據發送接口;

13、采樣者的數據發送接口與數據池的數據接收接口連接;數據池的數據發送接口與學習器的數據接收接口連接;學習器的模型發送接口與采樣者的模型接收接口連接;以構建基本數據單元組。

14、進一步地,步驟s3,包括:

15、s31:每個基本計算單元組中,設定學習器為主節點,采樣者為從節點,數據池為數據節點,三個角色組成一個組,組內共享模型;

16、s32:以每組作為拓展的基本計算單元組,選擇主計算單元對基本計算單元組進行管理;組內的學習器向主計算單元發送模型,在主計算單元中進行模型聚合;

17、s33:聚合完成后,主計算單元向各基本計算單元組進行模型分發,完成一次模型閉環操作,即一次基礎循環。

18、進一步地,基于通信協議:

19、在主從策略中,為每個學習器和主計算單元封裝各自的模型發送接口和模型接收接口;主計算單元的模型發送接口和模型接收接口,分別與其管理的學習器的模型接收接口和模型發送接口連接。

20、進一步地,基于通信協議:

21、在鄰式策略中,每個學習器的模型發送接口和模型接收接口,分別與其相鄰學習器的模型接收接口和模型發送接口連接;將其模型發送給它相鄰的學習器,聚合也只聚合相鄰的學習器的模型;

22、或,在環狀策略中,每個學習器的模型發送接口和模型接收接口,分別與其下一位置的學習器的模型接收接口和模型發送接口連接;將其模型發送給它下一個位置的學習器,最后的通信結構呈現一個環狀;

23、或,在稠密策略中,每個學習器的模型發送接口和模型接收接口,與除自身的所有學習器的模型接收接口和模型發送接口連接;將其模型發送給其余所有學習器,并接收其余所有學習器的模型;

24、或,在權重策略中,每個學習器評估與自身當前模型優益權重最高的學習器,其模型發送接口和模型接收接口與其優益權重最高的學習器的模型接收接口和模型發送接口連接,以將其模型發送給與其優益權重最高的學習器,并接收與其優益權重最高的學習器的模型,聚合時根據權重進行聚合。

25、進一步地,步驟s4,包括:

26、s41:啟動訓練前,對全局參數進行一次預演,初始化算法參數、環境參數和調度參數,構建訓練任務;

27、s42:根據封裝的角色、基本計算單元組、以及預設模型的聚合和分發方式,進行一次數據流的通信交換,計算各角色間、基本計算單元組間和模型的基本參數,以確定最佳參數;

28、s43:根據最佳參數,進行訓練任務;各訓練任務根據封裝的角色、基本計算單元組、以及預設模型的聚合和分發方式并行執行,直至訓練完畢。

29、進一步地,基本參數,包括角色間、組別間的數據吞吐量、樣本吞吐量、通信消耗、模型的flops、參數量、樣本量的理論最大限度、各單元操作均時的任意一個或多個。

30、第二方面,本技術實施例提供了一種電子設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現如第一方面或其中任意一種實現方式所述的方法。

31、第三方面,本技術實施例提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現如第一方面或其中任意一種實現方式所述的方法。

32、本技術實施例與現有技術相比存在的有益效果是:

33、首先根據強化學習算法訓練過程中的任務類型,封裝不同任務級別的角色,然后定義各角色之間的通信拓撲結構,實現分布式通信模式的基本計算單元組,進而對基本計算單元組進行擴展,根據選定的聚合、分發策略,預設模型的聚合和分發方式,最后根據既定規則進行全局參數自適應適配和任務調度,直至訓練完畢。其將單一算法訓練拓展演變至大規模分布式訓練,從原來單一的串行計算,通過分離計算組件,抽象為任務角色單獨計算,通過角色任務分工以及拓展角色數量達到快速積累以及探索樣本的目的,并將各訓練任務并行執行,能夠大幅提高整體樣本生產和訓練效率。此外,在強化學習算法本身的基礎可以無阻礙式的進行任務拆解成功能角色,然后針對不同的算法來選擇不同分布式訓練策略進行數據流的流轉和模型的聚合分發,最后通過同一個manager來對全局全部參數的自適應調配。本發明能夠提高整體訓練過程中數據吞吐,也針對強化學習在拓展采樣者actor的基礎上,能夠大大提高樣本的豐富度、大大提高訓練效率。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 隆尧县| 正镶白旗| 含山县| 达州市| 潍坊市| 买车| 灵宝市| 紫云| 清镇市| 库伦旗| 凤凰县| 阜康市| 柳河县| 玉溪市| 基隆市| 明水县| 桓台县| 确山县| 高陵县| 张掖市| 静海县| 长春市| 麻城市| 达州市| 来宾市| 汉寿县| 龙州县| 临澧县| 宜州市| 清镇市| 益阳市| 柘荣县| 无为县| 杭州市| 吉水县| 夏津县| 公安县| 光山县| 东平县| 于都县| 昌黎县|