一種基于transformer模型的GPU推理性能優化方法、系統、設備及存儲介質與流程

文檔序號：41744512發布日期：2025-04-25 17:27閱讀：來源：國知局

技術特征：

1.一種基于transformer模型的gpu推理性能優化方法，其特征在于，該方法運行在nvidia芯片平臺，使用python腳本結合tensorrt和cuda工具進行推理性能優化，具體包括如下步驟：

2.根據權利要求1所述的一種基于transformer模型的gpu推理性能優化方法，其特征在于：優化原始onnx模型model_0中的attention算子，包括如下步驟：

3.根據權利要求1所述的一種基于transformer模型的gpu推理性能優化方法，其特征在于：優化模型model_1中的layernorm算子，包括如下步驟：

4.根據權利要求1所述的一種基于transformer模型的gpu推理性能優化方法，其特征在于：優化模型model_2中的gbr算子，包括如下步驟：

5.根據權利要求1所述的一種基于transformer模型的gpu推理性能優化方法，其特征在于：優化模型model_3中的gb算子，包括如下步驟：

6.根據權利要求1所述的一種基于transformer模型的gpu推理性能優化方法，其特征在于：性能p_0、性能p_1、性能p_2、性能p_3的比較，包括如下步驟：

7.根據權利要求1-6任一項所述優化方法的一種基于transformer模型的gpu推理性能優化系統，其特征在于：該系統包括原始模型獲取推理模塊、attention算子優化模塊、layernorm算子優化模塊、gbr算子優化模塊、gb算子優化模塊、性能比較模塊；

8.一種電子設備，包括處理器、通信接口、存儲器和通信總線，其中，所述處理器、所述通信接口和所述存儲器通過所述通信總線完成相互間的通信，其特征在于，所述存儲器，用于存儲計算機程序；

9.一種計算機可讀的存儲介質，其特征在于，所述存儲介質中存儲有計算機程序，其中，所述計算機程序被處理器執行時實現權利要求1-6中任一項中所述的方法。

技術總結
本發明公開一種基于transformer模型的GPU推理性能優化方法、系統、設備及存儲介質，該性能優化方法為通用的transformer模型推理性能調優策略，適用于多種應用場景和模型類型，通過自定義算子替換和融合，實現對Attention算子、LayerNorm算子、GBR算子、GB算子等的優化，顯著減少計算量或內存的使用，提升模型性能，具體的優化步驟包括迭代搜索、模式匹配、算子替換和融合，提升深度學習模型的訓練速度和推理速度，且降低資源消耗和成本。

技術研發人員：謝曉汶,余俊峰,吳育春,劉豹,龐梓維,郗上,岳邦珊,衡量
受保護的技術使用者：上海友道智途科技有限公司
技術研發日：
技術公布日：2025/4/24

完整全部詳細技術資料下載

當前第2頁1 2

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于transformer模型的GPU推理性能優化方法、系統、設備及存儲介質與流程