本技術涉及數據處理領域,尤其是涉及一種招投標數據處理方法、裝置、電子設備及存儲介質。
背景技術:
1、招投標數據處理是現代企業管理和政府采購的重要環節,隨著信息化水平的提高,招投標過程中的數據處理變得越來越復雜。傳統的手動處理方式不僅效率低下,而且容易出錯,無法滿足大規模、高頻率的招投標需求。近年來,隨著大數據和人工智能技術的發展,自動化招投標數據處理系統逐漸成為研究熱點,這些系統能夠高效地完成招投標文件的接收、分類、數據提取和分析等工作,大大提升了工作效率和準確性。
2、在現有的招投標數據處理技術中,常用的方法之一是基于自然語言處理的技術。具體來說,可以通過預訓練的語言模型,對招投標文件進行深度解析,提取關鍵信息并生成結構化的數據。然而,現有的基于自然語言處理的招投標數據處理技術往往依賴于固定的規則或簡單的特征匹配,難以應對復雜的文件格式和多變的內容結構。導致在實際應用中,影響文件提出過程中數據提取的精度和可靠性。因此,如何提高招投標數據處理系統的準確性,成為一個亟待解決的技術問題。
技術實現思路
1、為了提高招投標數據處理系統的準確性,本技術一種招投標數據處理方法、裝置、電子設備及存儲介質。
2、第一方面,本技術提供一種招投標數據處理方法,采用如下的技術方案:
3、一種招投標數據處理方法,包括:
4、接收當前招投標文件,并確定所述當前招投標文件對應的文件類型;
5、基于所述文件類型,對所述當前招投標文件進行數據提取,以得到所述當前招投標文件對應的招投標數據;
6、對所述招投標數據進行分析,得到所述當前招投標文件對應的分析結果;
7、基于所述分析結果,生成所述當前招投標文件對應的分析報告。
8、通過采用上述技術方案,通過接收招投標文件并識別該招投標文件的文件類型,針對不同類型文件采用不同的提取方式進行數據提取,以得到該招投標文件對應的招投標數據,在一定程度上能夠提高數據處理的效率和精度,然后通過對招投標數據的深入分析,挖掘出關鍵信息,為決策提供依據,最終生成的分析報告,從而提高招投標數據處理系統的準確性。
9、在一種可能的實現方式中,確定所述當前招投標文件對應的文件類型,包括:
10、識別所述當前招投標文件對應的基礎信息,所述基礎信息包括發布單位、文件篇幅以及文件關鍵詞,其中,文件關鍵詞包括時間節點、項目預算以及項目要求;
11、確定所述當前招投標文件對應的發布單位的發展狀態,所述發展狀態為發展成熟或發展不成熟;
12、若所述當前招投標文件對應的發布單位的發展狀態為發展成熟,則確定所述文件篇幅是否超過篇幅閾值;若所述文件篇幅超過所述篇幅閾值,則確定所述招投標文件對應的文件類型為第一類型;若所述文件篇幅不超過所述篇幅閾值,則確定所述招投標文件對應的文件類型為第二類型;
13、若所述當前招投標文件對應的發布單位的發展狀態為發展不成熟,則基于識別出的文件關鍵詞,確定所述當前招投標文件是否存在關鍵詞內容不一致;若所述當前招投標文件不存在關鍵詞內容不一致,則確定所述當前招投標文件對應的文件類型為第三類型;若所述當前招投標文件存在關鍵詞內容不一致,則確定所述當前招投標文件對應的文件類型為第四類型。
14、通過采用上述技術方案,通過識別基礎信息,如發布單位、文件篇幅及關鍵詞,為文件類型的初步判斷提供了重要依據,考慮發布單位的發展狀態,針對不同成熟度單位采取不同判斷邏輯,既考慮了實際情況的多樣性,也提升了判斷的合理性;再者,對于發展成熟的單位,依據文件篇幅是否超閾值來區分文件類型,便于快速識別文件規模及復雜度;而對于發展不成熟的單位,則通過關鍵詞內容的一致性檢查來確定文件類型,有助于識別潛在的信息不一致問題,確保文件處理的準確性和高效性。
15、在一種可能的實現方式中,當所述當前招投標文件對應的文件類型為第一類型時,基于所述文件類型,對所述當前招投標文件進行數據提取,以得到所述當前招投標文件對應的招投標數據,包括:
16、確定所述文件類型對應的提取權重,并基于所述提取權重確定所述文件類型對應的提取模式,所述提取模式包括提取模型以及每個提取模型對應的提取次數;
17、基于每個提取模型并按照每個提取模型對應的提取次數對所述當前招投標文件進行提取,得到所述當前招投標文件對應的初始數據;
18、對所述初始數據進行數據檢查,以得到檢查結果,所述檢查結果包括數據準確程度;
19、基于所述檢查結果對所述初始數據進行迭代數據提取以及數據檢查,直至滿足預設條件,將滿足所述預設條件的初始數據作為所述當前招投標文件對應的招投標數據,所述預設條件為迭代次數達到迭代次數閾值或數據準確程度大于準確程度閾值。
20、通過采用上述技術方案,通過確定文件類型對應的提取權重和提取模式,能夠精準匹配最適合該類型文件的提取策略,包括選擇合適的提取模型及設定合理的提取次數,從而提高了數據提取的針對性和效率,采用多次提取并伴隨數據檢查的方式,確保了提取數據的準確性和完整性,通過迭代提取和數據檢查的過程,不斷優化數據質量,直至滿足預設條件(迭代次數達閾值或數據準確程度超閾值),最終獲得的招投標數據既全面又可靠,為后續分析提供了堅實的基礎。
21、在一種可能的實現方式中,所述提取模型包括go語言模型、cnn語言模型以及rnn語言模型,所述基于每個提取模型并按照每個提取模型對應的提取次數對所述當前招投標文件進行提取,得到所述當前招投標文件對應的初始數據,包括:
22、對所述當前招投標文件進行預處理,得到預處理后的當前招投標文件;
23、基于每個提取模型對應的提取次數,確定所述當前招投標文件對應的提取序列,所述提取序列包括至少兩個按照順序排列的提取模型組,每個提取模型組包括至少一個提取模型,且每個提取模型組中的提取模型按提取順序排列;
24、確定當前提取模型組,對所述當前招投標文件執行提取步驟,得到所述當前招投標文件對應的初始數據;
25、所述提取步驟包括:
26、確定所述當前提取模型組中所述go語言模型的提取次數是否為0,若所述go語言模型的提取次數不為0,則將預處理后的當前招投標文件輸入至所述go語言模型中,并獲取所述go語言模型輸出的文本數據;
27、確定所述當前提取模型組中所述cnn語言模型的提取次數是否為0,若所述cnn語言模型的提取次數不為0,則將所述文本數據輸入至所述cnn語言模型中,并獲取所述cnn語言模型輸出的第一關鍵數據以及局部特征;
28、確定所述當前提取模型組中所述rnn語言模型的提取次數是否為0,若所述rnn語言模型的提取次數不為0,則將所述文本數據輸入至所述rnn語言模型中,并獲取所述rnn語言模型輸出的第二關鍵數據以及序列特征;
29、當所述當前提取模型組中所述rnn語言模型的提取次數不為0且所述cnn語言模型的提取次數不為0時,將所述局部特征以及所述序列特征進行拼接,得到組合特征,并提取所述組合特征對應的數據,以得到第三關鍵數據。
30、通過采用上述技術方案,通過提取序列,結合不同模型的優勢,實現了對招投標文件內容的深層次、多角度解析,其中go語言模型可能擅長處理結構化或半結構化數據,cnn模型有效捕捉局部特征,而深度學習模型則擅長處理序列數據,提取關鍵信息和時序特征;特別是當cnn與深度學習模型同時應用時,通過拼接局部特征和序列特征得到的組合特征,進一步豐富了提取的數據維度,提升了數據的全面性和深度;此外,根據每個模型設定的提取次數靈活調整提取過程,確保了數據提取的充分性和高效性,最終整合各模型輸出的關鍵數據,形成了高質量、多維度的初始數據集,為后續的數據分析和報告生成提供了強有力的支持。
31、在一種可能的實現方式中,當所述當前招投標文件對應的文件類型為第二類型時,基于所述文件類型,對所述當前招投標文件進行數據提取,以得到所述當前招投標文件對應的招投標數據,包括:
32、將所述當前招投標文件分別輸入到embedding模型以及稀疏編碼模型中,并獲取所述embedding模型輸出的文本向量以及所述稀疏編碼模型輸出的特征表示;
33、獲取決策樹模型對應的基于人工特征構建的特征向量,并將所述文本向量與所述特征向量進行拼接,形成第一綜合特征向量,將所述特征表示與所述特征向量進行拼接,形成第二綜合特征向量;
34、將所述第一綜合特征向量以及所述第二綜合特征向量分別輸入到所述決策樹模型中,并獲取所述決策樹模型輸出的第一提取數據以及第二提取數據;
35、基于所述第一提取數據以及所述第二提取數據,確定所述當前招投標文件對應的招投標數據。
36、通過采用上述技術方案,通過embedding模型和稀疏編碼模型分別處理招投標文件,前者生成了富含語義信息的文本向量,后者則提供了文件內容的稀疏特征表示,兩者從不同角度捕捉了文件的核心信息,將這兩種自動提取的特征與基于人工經驗構建的特征向量相結合,形成了第一綜合特征向量和第二綜合特征向量,從而增強了特征的表達能力和魯棒性;最后,將這兩個綜合特征向量輸入決策樹模型進行預測,分別得到第一提取數據和第二提取數據,通過綜合兩者信息,確定了招投標文件的最終數據,從而不僅提高了數據提取的準確性和全面性,還通過結合自動特征提取與人工特征工程,實現了對招投標文件內容的深度理解和高效處理。
37、在一種可能的實現方式中,當所述當前招投標文件對應的文件類型為第三類型時,基于所述文件類型,對所述當前招投標文件進行數據提取,以得到所述當前招投標文件對應的招投標數據,包括:
38、將所述當前招投標文件按順序分割成多個序列片段,并按照順序依次將序列片段輸入至深度學習模型中;
39、獲取所述深度學習模型輸出的每個序列片段對應的中間特征;
40、計算每個中間特征對應的相關性得分,以作為每個中間特征對應的注意力權重;
41、基于每個中間特征對應的注意力權重進行加權求和,以得到加權后的特征,并對加權后的特征進行識別,以得到所述當前招投標文件對應的招投標數據。
42、通過采用上述技術方案,將招投標文件分割成多個序列片段并依次輸入深度學習模型,有效捕捉了文件內容的時序依賴關系,計算每個中間特征的相關性得分并作為注意力權重,這一過程增強了模型對關鍵信息的關注度,提高了特征提取的針對性;最后,基于注意力權重對中間特征進行加權求和并識別,不僅整合了文件中的關鍵信息,還進一步提純了招投標數據,確保了數據的準確性和實用性。
43、在一種可能的實現方式中,對所述招投標數據進行分析,得到所述當前招投標文件對應的分析結果,包括:
44、獲取歷史招投標數據,所述歷史招投標數據包括所述當前招投標文件對應的當前企業的第一歷史招投標數據以及所述招投標數據對應的第二歷史投標數據;
45、基于所述第一歷史招投標數據以及所述第二歷史招投標數據各自對應的歷史招投標時刻,對所述歷史招投標數據進行時序分析,得到歷史變化規律;
46、基于所述歷史變化規律,確定所述招投標數據對應的特征子數據,并確定每兩個特征子數據對應的關聯程度;
47、基于所述特征子數據以及每兩個特征子數據對應的關聯程度,得到所述當前招投標文件對應的分析結果。
48、通過采用上述技術方案,通過整合當前企業的第一歷史招投標數據和與招投標數據相關聯的第二歷史投標數據,為分析提供了全面且豐富的歷史參考;接著,利用時序分析揭示這些歷史數據的變化規律,不僅捕捉了時間維度上的趨勢,還深化了對招投標活動動態特性的理解;然后,基于歷史變化規律識別關鍵特征子數據及其間的關聯程度,綜合特征子數據及其關聯程度得出的分析結果,不僅準確反映了當前招投標文件的核心狀況,還為決策提供了科學依據,有效提升了招投標活動的效率和成功率。
49、第二方面,本技術提供一種招投標數據處理裝置,采用如下的技術方案:
50、一種招投標數據處理裝置,包括:
51、接收模塊,用于接收當前招投標文件,并確定所述當前招投標文件對應的文件類型;
52、提取模塊,用于基于所述文件類型,對所述當前招投標文件進行數據提取,以得到所述當前招投標文件對應的招投標數據;
53、分析模塊,用于對所述招投標數據進行分析,得到所述當前招投標文件對應的分析結果;
54、生成模塊,用于基于所述分析結果,生成所述當前招投標文件對應的分析報告。
55、第三方面,本技術提供一種電子設備,采用如下的技術方案:
56、一種電子設備,該電子設備包括:
57、至少一個處理器;
58、存儲器;
59、至少一個應用程序,其中至少一個應用程序被存儲在存儲器中并被配置為由至少一個處理器執行,所述至少一個應用程序配置用于:執行上述第一方面所述的招投標數據處理方法。
60、第四方面,本技術提供一種計算機可讀存儲介質,采用如下的技術方案:
61、一種計算機可讀存儲介質,包括:存儲有能夠被處理器加載并執行上述第一方面所述的招投標數據處理方法的計算機程序。
62、綜上所述,本技術包括以下有益技術效果:
63、通過接收招投標文件并識別該招投標文件的文件類型,針對不同類型文件采用不同的提取方式進行數據提取,以得到該招投標文件對應的招投標數據,在一定程度上能夠提高數據處理的效率和精度,然后通過對招投標數據的深入分析,挖掘出關鍵信息,為決策提供依據,最終生成的分析報告,從而提高招投標數據處理系統的準確性。