麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

基于大模型的地下管線隱患管理文件信息抽取方法及設備與流程

文檔序號:41766979發布日期:2025-04-29 18:36閱讀:4來源:國知局
基于大模型的地下管線隱患管理文件信息抽取方法及設備與流程

本發明涉及人工智能,尤其涉及一種基于大模型的地下管線隱患管理文件信息抽取方法及設備。


背景技術:

1、地下管線是城市基礎設施的重要組成部分,其隱患的識別、分析和治理涉及大量復雜的文檔和數據信息。這些隱患管理文件通常以非結構化或半結構化形式存在,涵蓋了隱患管理領域的相關知識。此外,其他文件如地下管線規劃類文件也可能包含與隱患管理相關的重要信息,例如現行國家標準、設計內容等。此類文件統稱為地下管線隱患管理文件。然而數據格式多樣且信息分散,使得人工解析和信息提取成本高、效率低,并易引入人為錯誤。隨著人工智能和自然語言處理技術的快速發展,基于大模型的技術在文本理解和信息抽取領域展現出強大的能力。預訓練大模型通過在海量數據上的學習,具備優秀的語言理解與生成能力,為非結構化數據的智能解析提供了新思路。

2、盡管現有技術中大模型已經在海量數據處理領域取得了一定成果,但仍存在以下局限性:一方面,現有大模型數據處理方法需要依賴一定量的高質量標注數據,需要耗費大量的人力和時間成本,這在一定程度上限制了該方法的廣泛應用;另一方面,需要占用大量計算資源,算力成本高、實現難度較大。


技術實現思路

1、鑒于上述問題,提出了本發明以便提供一種解決上述技術問題或者至少部分地解決上述技術問題的基于大模型的地下管線隱患管理文件信息抽取方法及設備。

2、本發明的一個方面,提供了一種基于大模型的地下管線隱患管理文件信息抽取方法,所述方法包括:

3、獲取地下管線隱患管理文件中的文本,將所述文本劃分為若干個文本塊;

4、構建思維樹提示模板,所述思維樹提示模板包括任務描述、輸出格式約束、輸出示例描述、以及描述任務分析過程的思維樹結構,所述任務描述用于引導大模型在任務執行中的視角和輸出格式,所述思維樹結構中每個子節點表示一個思維任務,所述思維樹結構用于引導大模型基于思維樹結構中各個子節點之間的連接關系順序執行對應的思維任務實現文本的實體關系三元組信息提取;

5、將劃分出的各個文本塊以及所述思維樹提示模板輸入預設的大模型,以使大模型基于所述思維樹提示模板對每一文本塊進行分析,根據上下文完成文本的實體關系三元組信息提取并將信息提取結果進行格式化輸出;

6、構建實體關系驗證提示模板,所述實體關系驗證提示模板包括用于驗證實體關系三元組中給定實體對和關系的問題描述;

7、將輸出結果和實體關系驗證提示模板輸入大模型驗證輸出結果中的每一實體關系三元組是否準確提取,根據每一實體關系三元組的驗證結果計算對應實體關系三元組的第一驗證分數;

8、構建邏輯驗證提示模板,所述邏輯驗證提示模板包括用于驗證整個提取流程是否存在邏輯沖突的問題描述;

9、將輸出結果和邏輯驗證提示模板輸入大模型驗證輸出結果的信息提取流程是否邏輯合理,根據信息提取流程的邏輯驗證結果計算信息提取過程的第二驗證分數;

10、根據信息提取過程的第二驗證分數以及輸出結果中每一實體關系三元組的第一驗證分數分析輸出結果的總體可靠性分數,當總體可靠性分數滿足預設分數閾值時將輸出結果作為所述地下管線隱患管理文件的信息提取結果。

11、可選地,所述方法還包括:

12、在隱患信息檢索過程中,獲取待分析的地下管線的所有實際屬性值;

13、判斷各個實際屬性值是否與所述信息提取結果相匹配,若所有實際屬性值均與所述信息提取結果相匹配,則判定待分析的地下管線符合所述地下管線隱患管理文件的標準不存在問題隱患,否則判定待分析的地下管線存在問題隱患。

14、可選地,所述判斷各個實際屬性值是否與所述信息提取結果相匹配包括:

15、判斷每個實際屬性值的屬性類型;

16、對于屬性類型為文本屬性的實際屬性值,比較實際值與信息提取結果中的標準信息是否一致,若一致則判定當前實際屬性值與所述信息提取結果相匹配;

17、對于屬性類型為數值屬性的實際屬性值,根據實際值與信息提取結果中的標準值進行比較,對于存在差值范圍要求的信息提取結果則判斷實際值是否大于或小于標準值,以及實際值與標準值之間的差值是否小于信息提取結果中的差值范圍要求,若實際值大于或小于標準值且實際值與標準值之間的差值小于差值范圍要求,則判定當前實際屬性值與所述信息提取結果相匹配。

18、可選地,所述構建思維樹提示模板包括:

19、將預設的信息提取任務進行思維樹鏈式分解得到具有多個節點的思維樹結構;

20、構建思維樹的根節點時,設計的第一提示為:問題描述,明確提取任務的目標;

21、構建思維樹第一子節點時,設計的第二提示為:逐段識別文件中的關鍵實體和實體類型,確保僅記錄文本中明確提到的實體,當某個類別僅一個實體的時候,將該實體分到“其它”類別中;

22、構建思維樹第二子節點時,設計的第三提示為:分析實體之間的邏輯關聯,實體之間的關系必須是一個明確具有邏輯關聯的表述;

23、構建思維樹第三子節點時,設計的第四提示為:根據識別的實體和關系,驗證邏輯一致性及數據完整性;

24、構建子節點的葉節點時,設計的第五提示為:最終輸出符合要求的json格式化結果。

25、可選地,所述思維樹結構中每個子節點對應三個不同的任務分析支路以模擬三位不同的地下管線專家,每個任務分析支路均根據上一個節點的任務分析結果分別獨立完成對本節點任務的分析,并通過與其他分析支路分享并討論確定本節點的最終任務分析結果。

26、可選地,所述實體關系驗證提示模板中用于驗證實體關系三元組中給定實體對和關系的問題描述包括:

27、實體對ei和ej是否與預設的領域和上下文一致;關系rij是否正確描述了實體ei和ej之間的實際聯系;和/或,是否存在遺漏、冗余或不一致的實體或關系描述。

28、可選地,所述邏輯驗證提示模板中用于驗證整個提取流程是否存在邏輯沖突的問題描述包括:

29、輸出結果中每一實體關系三元組是否邏輯自洽,無矛盾或重復描述;和/或,輸出結果中每一實體關系三元組之間是否有合理的上下文語義關聯。

30、可選地,所述根據信息提取過程的第二驗證分數以及輸出結果中每一實體關系三元組的第一驗證分數分析輸出結果的總體可靠性分數包括:

31、獲取每一實體關系三元組的第一驗證分數與信息提取過程的第二驗證分數的乘積得到對應實體關系三元組的可靠性分數;

32、獲取輸出結果中各個實體關系三元組的可靠性分數的總和得到輸出結果的總體可靠性分數。

33、本發明的另一個方面,提供了一種基于大模型的地下管線隱患管理文件信息抽取設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現如權利要求1至8任一項所述方法的步驟。

34、本發明的第三方面,還提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如權利要求1至8任一項所述方法的步驟。

35、本發明實施例提供的基于大模型的地下管線隱患管理文件信息抽取方法及設備,通過結合預訓練大模型的自然語言處理能力與基于思維樹的prompt工程,能夠高效、準確地完成地下管線隱患管理文件中的信息抽取,得到結構化信息,以為地下管線隱患的識別、分析和治理等工作提供高質量的結構化數據支持,提高信息檢索效率和隱患識別精準度。

36、上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段,而可依照說明書的內容予以實施,并且為了讓本發明的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本發明的具體實施方式。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 偃师市| 日喀则市| 通渭县| 黔南| 西平县| 乐安县| 赤峰市| 永修县| 芦溪县| 成都市| 乐平市| 淮南市| 化德县| 綦江县| 石嘴山市| 固始县| 万州区| 博爱县| 凤冈县| 陵川县| 塔城市| 彭山县| 伊春市| 惠水县| 久治县| 平凉市| 天柱县| 永安市| 南丹县| 临高县| 灵丘县| 嘉兴市| 南部县| 祁连县| 习水县| 达孜县| 容城县| 武隆县| 纳雍县| 惠东县| 海城市|