1.一種基于transformer模型的gpu推理性能優化方法,其特征在于,該方法運行在nvidia芯片平臺,使用python腳本結合tensorrt和cuda工具進行推理性能優化,具體包括如下步驟:
2.根據權利要求1所述的一種基于transformer模型的gpu推理性能優化方法,其特征在于:優化原始onnx模型model_0中的attention算子,包括如下步驟:
3.根據權利要求1所述的一種基于transformer模型的gpu推理性能優化方法,其特征在于:優化模型model_1中的layernorm算子,包括如下步驟:
4.根據權利要求1所述的一種基于transformer模型的gpu推理性能優化方法,其特征在于:優化模型model_2中的gbr算子,包括如下步驟:
5.根據權利要求1所述的一種基于transformer模型的gpu推理性能優化方法,其特征在于:優化模型model_3中的gb算子,包括如下步驟:
6.根據權利要求1所述的一種基于transformer模型的gpu推理性能優化方法,其特征在于:性能p_0、性能p_1、性能p_2、性能p_3的比較,包括如下步驟:
7.根據權利要求1-6任一項所述優化方法的一種基于transformer模型的gpu推理性能優化系統,其特征在于:該系統包括原始模型獲取推理模塊、attention算子優化模塊、layernorm算子優化模塊、gbr算子優化模塊、gb算子優化模塊、性能比較模塊;
8.一種電子設備,包括處理器、通信接口、存儲器和通信總線,其中,所述處理器、所述通信接口和所述存儲器通過所述通信總線完成相互間的通信,其特征在于,所述存儲器,用于存儲計算機程序;
9.一種計算機可讀的存儲介質,其特征在于,所述存儲介質中存儲有計算機程序,其中,所述計算機程序被處理器執行時實現權利要求1-6中任一項中所述的方法。