本申請涉及數據分析,尤其涉及一種多模異構數據查詢方法及裝置。
背景技術:
1、隨著信息技術的飛速發展,全球數據量呈現出爆炸性增長的趨勢,數據類型也日益多樣化,涵蓋了結構化數據(如關系型數據庫中的表格)、半結構化數據(如json、xml等)以及非結構化數據(如文本、圖像、音頻等)。這一變化對傳統的單一模型數據庫提出了嚴峻挑戰,因為它們往往難以有效處理和分析如此復雜多樣的數據集。因此,多模異構數據sql查詢分析技術應運而生,旨在提供一種綜合性的解決方案,以滿足現代應用對數據處理和分析的廣泛需求。
2、盡管市場上已經出現了一些在一定程度上可提高數據處理和分析效率的多模異構數據查詢分析平臺,但仍面臨諸多挑戰。具體而言,多模數據上的不同計算任務需要由最適合其數據特性的算子來執行,然而,現有技術往往難以在多種算子之間實現高效切換和協同工作,導致性能瓶頸。
3、此外,盡管gpu算子在加速大規模并行計算任務(如圖形處理和科學計算)方面表現出色,cpu算子則適用于更通用的計算場景,而simd(單指令多數據)算子則能在現代處理器上實現數據的并行處理,但現有技術在融合這些算子以共同優化查詢分析性能方面仍存在明顯不足。這種不足直接限制了查詢分析系統的整體效率,特別是在處理大規模數據集時,性能瓶頸尤為突出。
4、有鑒于此,如何提供一種多模異構數據查詢分析方法,從本質上融合異構計算,形成實時對異構數據的特定處理,大幅提升多模異構數據的處理性能,成為當前亟需解決的技術問題。
技術實現思路
1、本申請實施例提供一種多模異構數據查詢分析方法,一種多模異構數據查詢分析裝置,一種計算設備和一種計算機存儲介質,用于解決現有技術在處理多模異構數據時存在性能瓶頸和功能缺失的問題。
2、在本申請實施例的第一方面,提供一種多模異構數據查詢方法,包括:
3、接收用戶端發送的查詢語句,通過解析器對所述查詢語句進行詞法解析和語法解析,并對解析后的所述查詢語句進行語義檢查,得到初始查詢語句;
4、將所述初始查詢語句發送至查詢優化器,生成相應查詢語法樹;
5、將所述查詢語法樹發送至data-speed引擎進行提示詞工程處理后,結合攜帶有多模異構數據的索引向量庫進行索引,得到索引結果,基于所述索引結果,智能預測執行計劃;
6、將所述智能預測執行計劃輸入大語言模型系統中,實時輸出當前執行任務對應的執行代碼以及不同執行任務對應的可利用指令集的算子,其中,在所述大語言模型系統的注意力機制中引入實體標識進行監督微調;
7、通過data-speed?jit生成器,調用所述執行代碼對應的算子,并基于所述算子,生成執行結果。
8、在本申請實施例的第二方面,提供一種多模異構數據查詢裝置,包括:
9、解析模塊,被配置為接收用戶端發送的查詢語句,通過解析器對所述查詢語句進行詞法解析和語法解析,并對解析后的所述查詢語句進行語義檢查,得到初始查詢語句;
10、生成模塊,被配置為將所述初始查詢語句發送至查詢優化器,生成相應查詢語法樹;
11、索引模塊,被配置為將所述查詢語法樹發送至data-speed引擎進行提示詞工程處理后,結合攜帶有多模異構數據的索引向量庫進行索引,得到索引結果,基于所述索引結果,智能預測執行計劃;
12、輸出模塊,被配置為將所述智能預測執行計劃輸入大語言模型系統中,實時輸出當前執行任務對應的執行代碼以及不同執行任務對應的可利用指令集的算子,其中,在所述大語言模型系統的注意力機制中引入實體標識進行監督微調;
13、調用模塊,被配置為通過data-speed?jit生成器,調用所述執行代碼對應的算子,并基于所述算子,生成執行結果。
14、根據本說明書實施例的第三方面,提供了一種計算設備,包括:
15、存儲器和處理器;
16、所述存儲器用于存儲計算機可執行指令,所述處理器用于執行所述計算機可執行指令,該計算機可執行指令被處理器執行時實現上述多模異構數據查詢方法的步驟。
17、根據本說明書實施例的第四方面,提供了一種計算機可讀存儲介質,其存儲有計算機可執行指令,該指令被處理器執行時實現上述多模異構數據查詢方法的步驟。
18、本申請提供了一種多模異構數據查詢方法,包括:首先,接收用戶端發送的查詢語句,通過解析器對所述查詢語句進行詞法解析和語法解析,并對解析后的所述查詢語句進行語義檢查,得到初始查詢語句;然后,將所述初始查詢語句發送至查詢優化器,生成相應查詢語法樹;其次,將所述查詢語法樹發送至data-speed引擎進行提示詞工程處理后,結合攜帶有多模異構數據的索引向量庫進行索引,得到索引結果,基于所述索引結果,智能預測執行計劃;再其次,將所述智能預測執行計劃輸入大語言模型系統中,實時輸出當前執行任務對應的執行代碼以及不同執行任務對應的可利用指令集的算子,其中,在所述大語言模型系統的注意力機制中引入實體標識進行監督微調;最后,通過data-speed?jit生成器,調用所述執行代碼對應的算子,并基于所述算子,生成執行結果。
19、應用本申請實施例提供的多模異構數據查詢方法,通過融合異構計算,實現對異構數據的特定處理,而非對多樣數據進行通用的處理,可有效應對非獨立同分布數據的高性能計算需求。一方面,解決了傳統attention機制的準確度和效率瓶頸:通過引入實體標識和生成高效的自適應算子,本發明顯著提升了多模異構數據處理的準確度和效率;另一方面,生成了適應多模異構數據處理引擎的大語言模型:該模型能夠針對多模異構數據的特性進行優化,生成高效的查詢計劃和執行代碼;又一方面,實現了智能自適應執行引擎:通過實時生成和編譯llvm?jit指令,本發明實現了對多模異構數據的智能自適應處理,大幅提升了計算性能;又一方面,提供了全面的智能運維管理:通過對集群狀態的實時分析和智能管理,本發明確保了系統的穩定性和高效性。
20、通過上述說明僅是本申請技術方案的概述,為了能夠更清楚了解本申請的技術手段,而可依照說明書的內容予以實施,并且為了讓本申請的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本申請的具體實施方式。
1.一種多模異構數據查詢方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述將所述查詢語法樹發送至data-speed引擎進行提示詞工程處理后,結合攜帶有多模異構數據的索引向量庫進行索引,得到索引結果,包括:
3.根據權利要求1所述的方法,其特征在于,所述在所述大語言模型系統的注意力機制中引入實體標識進行監督微調,包括:
4.根據權利要求1所述的方法,其特征在于,所述通過data-speedjit生成器,調用所述執行代碼對應的算子,并基于所述算子,生成執行結果,包括:
5.根據權利要求1所述的方法,其特征在于,所述索引向量庫的生成方法,包括:
6.根據權利要求5所述的方法,其特征在于,所述基于向量化引擎對所述多模異構數據進行向量化處理,得到向量化文件,包括:
7.根據權利要求1所述的方法,其特征在于,所述方法,還包括:
8.一種多模異構數據查詢裝置,其特征在于,包括:
9.一種計算設備,包括:
10.一種計算機可讀存儲介質,其存儲有計算機可執行指令,該計算機可執行指令被處理器執行時實現權利要求1至7任意一項所述方法的步驟。