本發明屬于大數據,特別是涉及一種用于工業大模型的語料目錄管理方法及系統。
背景技術:
1、人工智能大模型是指使用大規模數據和強大的計算能力訓練出來的“大參數”模型,這些模型通常具有高度的通用性和泛化能力,可以應用于自然語言處理、圖像識別、語音識別等領域,可分為大語言模型、視覺大模型、多模態大模型、基礎大模型。
2、而語料是用來訓練人工智能大模型的重要材料,?語料一般?是指用于語言學研究和自然語言處理中的實例和數據集。它可以是書面文本、口語記錄或其他結構化數據,通常用于分析語言現象、支持機器翻譯、語音識別、自動文本摘要等任務。?通常的語料是一組經過收集、整理和標注的文本或語音數據。這些數據在語言學研究中用于分析語言的使用規律、詞匯變化和語法結構等。在自然語言處理中,語料是訓練和測試模型的基礎數據源,支持機器翻譯、語音識別、情感分析等功能。
3、由于語料的數量極大,一般都是采用分類存儲的方式進行存儲,而在存儲時都是通過建立多級目錄進行存儲,在存儲和查找的時候都要一層一層確定對應的目錄,由于現在語料的精細化劃分,很多語料的目錄內容過多,導致語料在存儲和查找的時候效率較低,不利于語料的存儲和調用。
技術實現思路
1、鑒于以上所述現有技術的缺點,本發明的目的在于提供一種用于工業大模型的語料目錄管理方法及系統,用于解決現有技術中語料存儲和調用效率低的問題。
2、為實現上述目的及其他相關目的,本發明提供一種用于工業大模型的語料目錄管理方法,包括如下步驟:
3、獲取目標語料的基礎信息,根據所述基礎信息對所述目標語料進行預處理以得到標準語料;
4、對所述標準語料進行場景分析以獲取對應的標簽信息;
5、根據所述標簽信息對所述標準語料進行目錄值計算,以獲取所述標準語料的標準目錄值;
6、根據所述標準目錄值生成對應的目標目錄,將所述標準語料與所述目標目錄建立映射后進行存儲。
7、在一些實施例中,所述根據所述基礎信息對所述目標語料進行預處理以得到標準語料,包括:
8、對所述目標語料進行字段掃描,以去除所述目標語料中的無效字段和噪聲字段后得到第一語料;
9、根據所述基礎信息獲取所述目標語料對應的敏感詞庫,將所述第一語料與所述敏感詞庫進行比對,將所述第一語料中存在的敏感詞替換為標簽詞匯后得到對應的標準語料;
10、其中,所述標簽詞匯與每一個所述敏感詞一一對應。
11、在一些實施例中,所述基礎信息至少包括行業信息、模態信息和語言信息,所述對所述標準語料進行場景分析以獲取對應的標簽信息,包括:
12、根據所述行業信息獲取所述目標語料的行業類型,將所述行業類型轉換為預設編碼格式后生成與所述標準語料對應的第一標簽矩陣;
13、根據所述模態信息獲取所述目標語料中的模態類型,將所述模態類型轉換為預設編碼格式后生成與所述標準語料對應的第二標簽矩陣;
14、根據所述語言信息獲取所述目標語料的語言類型,將所述語言類型轉換為預設編碼格式后生成與所述標準語料對應的第三標簽矩陣;
15、將所述第一標簽矩陣、所述第二標簽矩陣和所述第三標簽矩陣按序整合成為標簽矩陣以得到所述標簽信息;
16、其中,所述第一標簽矩陣、所述第二標簽矩陣和所述第三標簽矩陣的行列均相同。
17、在一些實施例中,所述根據所述標簽信息對所述標準語料進行目錄值計算,以獲取所述標準語料的標準目錄值,包括:
18、計算所述第一標簽矩陣、所述第二標簽矩陣和所述第三標簽矩陣的同位平均值以得到平均標簽矩陣;
19、獲取所述標準語料的語料序列,生成所述語料序列的語料索引值;
20、分別計算所述第一標簽矩陣、所述第二標簽矩陣、所述第三標簽矩陣、所述平均標簽矩陣對應的特征值與所述語料索引值之間的比值,以分別得到第一目錄值、第二目錄值、第三目錄值和平均目錄值;
21、將所述第一目錄值、所述第二目錄值、所述第三目錄值和所述平均目錄值組合在一起生成目錄序列;
22、計算所述目錄序列的目錄索引值,根據所述語料索引值和所述目錄索引值確定所述標準語料的標準目錄值,并建立所述標準目錄值與所述標準語料之間的映射關系。
23、在一些實施例中,所述根據所述標準目錄值生成對應的目標目錄,將所述標準語料與所述目標目錄建立映射后進行存儲,包括:
24、根據所述標準目錄值在目錄庫中對應獲取對應的目錄路徑,根據所述目錄路徑生成對應所述標準語料的目標目錄;
25、將所述標準語料與所述目標目錄建立映射之后,將所述標準語料存儲在所述目標目錄之中。
26、在一些實施例中,所述根據所述標準目錄值獲取對應的目錄路徑,根據所述目錄路徑生成對應的目標目錄,包括:
27、將所述標準目錄值拆分為對應數量的多個子目錄值,將多個所述子目錄值按照順序生成子路徑;
28、將多個所述子路徑組合在一起得到所述目錄路徑,根據所述目錄路徑生成對應的目標目錄。
29、在一些實施例中,所述將所述第一目錄值、所述第二目錄值、所述第三目錄值和所述平均目錄值組合在一起生成目錄序列,包括:
30、在所述第一目錄值、所述第二目錄值、所述第三目錄值和所述平均目錄值的首尾兩端分別插入間隔符后按序排列在一起生成所述目錄序列。
31、在一些實施例中,所述標準語料的標準目錄值為所述語料索引值和所述目錄索引值的序列組合值。
32、本發明還提供了一種用于工業大模型的語料目錄管理系統,包括:
33、預處理模塊,用于獲取目標語料的基礎信息,根據所述基礎信息對所述目標語料進行預處理以得到標準語料;
34、分析模塊,用于對所述標準語料進行場景分析以獲取對應的標簽信息;
35、計算模塊,用于根據所述標簽信息對所述標準語料進行目錄值計算,以獲取所述標準語料的標準目錄值;
36、目錄生成模塊,用于根據所述標準目錄值生成對應的目標目錄,將所述標準語料與所述目標目錄建立映射后進行存儲。
37、如上所述,本發明所述的用于工業大模型的語料目錄管理方法及系統,具有以下有益效果:
38、本發明通過對目標語料進行預處理得到標準語料,并對標準語料進行場景分析從而得到標準語料對應的標簽信息,并在之后根據標簽信息計算目標語料對應標準目錄值,由于標準目錄值是根據標準語料的標簽信息計算得到的,具有唯一性,后續能夠根據標準目錄值生成對應的標準目錄,可以直接將目標語料存儲在標準目錄之中,也可以根據標準目錄快速查詢到對應的語料,不需要按照語料的分類目錄依次查找,有效提高了語料的存儲和調用效率,能夠提高語料的使用效率。
1.一種用于工業大模型的語料目錄管理方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的用于工業大模型的語料目錄管理方法,其特征在于,所述根據所述基礎信息對所述目標語料進行預處理以得到標準語料,包括:
3.根據權利要求1所述的用于工業大模型的語料目錄管理方法,其特征在于,所述基礎信息至少包括行業信息、模態信息和語言信息,所述對所述標準語料進行場景分析以獲取對應的標簽信息,包括:
4.根據權利要求3所述的用于工業大模型的語料目錄管理方法,其特征在于,所述根據所述標簽信息對所述標準語料進行目錄值計算,以獲取所述標準語料的標準目錄值,包括:
5.根據權利要求4所述的用于工業大模型的語料目錄管理方法,其特征在于,所述根據所述標準目錄值生成對應的目標目錄,將所述標準語料與所述目標目錄建立映射后進行存儲,包括:
6.根據權利要求5所述的用于工業大模型的語料目錄管理方法,其特征在于,所述根據所述標準目錄值獲取對應的目錄路徑,根據所述目錄路徑生成對應的目標目錄,包括:
7.根據權利要求5所述的用于工業大模型的語料目錄管理方法,其特征在于,所述將所述第一目錄值、所述第二目錄值、所述第三目錄值和所述平均目錄值組合在一起生成目錄序列,包括:
8.根據權利要求5所述的用于工業大模型的語料目錄管理方法,其特征在于,所述標準語料的標準目錄值為所述語料索引值和所述目錄索引值的序列組合值。
9.一種用于工業大模型的語料目錄管理系統,其特征在于,包括: