本發明屬于高性能感知汽車,具體為一種高性能感知汽車行業詞權重新方法。
背景技術:
1、互聯網普及使搜索成必備工具,從海量數據準確獲取信息是搜索引擎挑戰,命名實體識別能助其理解查詢、過濾無關信息,提升查詢理解等多方面表現,常見的命名實體識別技術有多種,深度學習和預訓練模型雖出色,卻需大量計算資源與標注數據,導致數據集構建成為項目中的難點所在。
2、基于深度學習的ner模型需大量標注數據支撐,常用多語言、生物醫學等領域的ner數據集,然適用于中文的較少,常用大規模數據集有cluener、resumener及電商領域的開放數據集等,涵蓋多實體類別,人工標注數據集即人工標記各類數據供機器學習等用,常用于監督學習,ner數據集建立含數據收集、清洗、人工標注與質量評估等流程,標注者依定義實體類別,以字或詞語為單位在文本中標記命名實體,從而構建數據集。
3、現有數據集多為英文,中文數據集及語料庫有缺失,適用于中文的ner數據集少且缺乏普適泛用性,應用效果欠佳,人工標注數據集存在成本高、有標注噪聲等缺點,因其數據量龐大,大規模標注既貴又耗時,且因ner任務含主觀判斷,不同標注人員易產生不一致標注結果、誤判漏判情況,導致噪聲影響模型性能。
技術實現思路
1、本發明的目的在于提供一種高性能感知汽車行業詞權重新方法,以解決上述背景技術中提出的問題。
2、為了實現上述目的,本發明提供如下技術方案:一種高性能感知汽車行業詞權重新方法的具體步驟如下:
3、s1:噪聲檢查策略規劃:明確噪聲檢查的整體方向與重點關注內容,包括針對高頻詞匯實體類別分布頻率分析、單字實體類別檢查以及漏標數據處理的規劃;
4、s2:高頻詞匯實體類別梳理:高頻詞匯類別頻析,甄別異常修正錯類,確保文本詞匯實體統一無誤;
5、s3:單字實體類別專項審查:聚焦單字實體類別,剖析汽車與生活用字差異,對“唐”“宋”二次檢查,防類別誤判;
6、s4:漏標數據篩查處理:依標注建分詞表,于數據集細查,覓漏標query,依情重標或刪數據,力保數據集精準無差;
7、s5:數據增強思路確定:重排文本分詞順序,語義不變擴二倍,為數據集添多樣,增強數據豐富性;
8、s6:分詞順序重排操作:對于上述數據集,嚴謹地將文本中的分詞在語義不變的規則約束下,巧妙地進行順序上的重新排列,開啟數據集擴充進程;
9、s7:數據集擴充結果確認:重排后詳查數據集,驗規模與多樣性,圓滿結束數據處理全流程。
10、優選地,所述s1中噪聲檢查策略規劃的具體步驟如下:
11、步驟一:確定高頻詞匯檢查方向:明確要針對query中的高頻詞匯,著重分析其相應命名實體類別的分布頻率情況,梳理出不同頻率區間的詞匯表現,為后續識別異常情況做準備;
12、步驟二;聚焦單字實體類別核查:將關注點放在單個字的實體類別上,仔細區分在汽車領域特定場景下特殊字與生活常用字的不同之處,像對具有車型指代特殊含義的單字,如“唐”“宋”進行重點排查,保障單字實體歸類準確;
13、步驟三:規劃漏標數據處理方案:依據標注結果去構建分詞表,利用該分詞表在數據集文本里系統地查找漏標的query,同時提前規劃好針對漏標情況是采取重新標注還是刪除相關數據的對應處理策略,確保數據集標注完整性和準確性。
14、優選地,所述s2中單字實體類別專項審查指的是:針對query中的高頻詞匯,精準計算其相應命名實體類別的分布頻率,仔細甄別少數類異常情況,確定因人工錯誤造成的異常target,著手準備修正,以保障同一詞匯在不同文本中實體類別統一。
15、優選地,所述s3中單字實體類別專項審查指的是:聚焦于單個字的實體類別,深度剖析在汽車領域特殊字與生活常用字的差異,像“唐”“宋”典型分類型詞匯,展開二次嚴格檢查,防止實體類別誤判。
16、優選地,所述s4中漏標數據篩查處理指的是:依據標注結果構建分詞表,把分詞表中的詞匯逐一在數據集文本里進行細致檢測,全力找出漏標的query,進而采取重新標注或刪除相關數據的操作,確保數據集的準確性。
17、優選地,所述s5中數據增強思路確定指的是:確定通過對數據集中文本分詞進行順序重排來擴充數據集,且在不改變原本語義的前提下,將數據集擴充為原本的二倍,以提升數據集多樣性。
18、優選地,所述s6中分詞順序重排操作的具體步驟如下:
19、步驟一:確立數據集擴充原則:明確以既定數據集為對象,秉持嚴謹負責的態度,將語義恒定作為核心規則,為后續分詞順序重構奠定基礎;
20、步驟二:執行分詞順序重構操作:依據既定原則,精心設計方案對文本分詞開展順序重構工作,運用巧妙的排列組合技巧,細致地調整分詞順序,確保語義不受損;
21、步驟三:開啟數據集擴充行動:在完成分詞順序重構后,按照規劃有條不紊地推動數據集擴充進程,以實現數據資源的豐富化,進而提升數據在整體質量與可用性方面的表現,達成擴充數據集的最終目標。
22、優選地,所述s7中數據集擴充結果確認指的是完成分詞順序重排后,全面檢查擴充后的數據集,確保其符合預期的二倍規模且數據多樣性得到有效提升,完成整個數據處理流程。
23、本發明的有益效果如下:
24、1、本發明通過本方案提出了獨特的數據集擴充與調整之法,針對已有人工標注數據集,依據實際場景具體需求,嚴謹開展噪聲處理工作,并巧妙實施數據增強舉措,致力于打造出質量更高、效果更優的數據集。
25、2、本發明通過本方案不僅實現了數據量的增加,還切實保證了數據實體分類的準確性,緊密結合真實應用場景,憑借這些優勢,最終使f1得分較原數據集得以提升,提升幅度達到了4%,成效顯著。
26、3、本發明通過本方案有著獨特優勢,其以汽車行業的實際應用語言作為基礎,在開展實體分類標注工作時,秉持精確化、個性化的原則,能精準地對各類實體進行歸類標注。
1.一種高性能感知汽車行業詞權重新方法,其特征在于:該高性能感知汽車行業詞權重新方法的具體步驟如下:
2.根據權利要求1所述的一種高性能感知汽車行業詞權重新方法,其特征在于:所述s1中噪聲檢查策略規劃的具體步驟如下:
3.根據權利要求1所述的一種高性能感知汽車行業詞權重新方法,其特征在于:所述s2中單字實體類別專項審查指的是:針對query中的高頻詞匯,精準計算其相應命名實體類別的分布頻率,仔細甄別少數類異常情況,確定因人工錯誤造成的異常target,著手準備修正,以保障同一詞匯在不同文本中實體類別統一。
4.根據權利要求1所述的一種高性能感知汽車行業詞權重新方法,其特征在于:所述s3中單字實體類別專項審查指的是:聚焦于單個字的實體類別,深度剖析在汽車領域特殊字與生活常用字的差異,像“唐”“宋”典型分類型詞匯,展開二次嚴格檢查,防止實體類別誤判。
5.根據權利要求1所述的一種高性能感知汽車行業詞權重新方法,其特征在于:所述s4中漏標數據篩查處理指的是:依據標注結果構建分詞表,把分詞表中的詞匯逐一在數據集文本里進行細致檢測,全力找出漏標的query,進而采取重新標注或刪除相關數據的操作,確保數據集的準確性。
6.根據權利要求1所述的一種高性能感知汽車行業詞權重新方法,其特征在于:所述s5中數據增強思路確定指的是:確定通過對數據集中文本分詞進行順序重排來擴充數據集,且在不改變原本語義的前提下,將數據集擴充為原本的二倍,以提升數據集多樣性。
7.根據權利要求1所述的一種高性能感知汽車行業詞權重新方法,其特征在于:所述s6中分詞順序重排操作的具體步驟如下:
8.根據權利要求1所述的一種高性能感知汽車行業詞權重新方法,其特征在于:所述s7中數據集擴充結果確認指的是完成分詞順序重排后,全面檢查擴充后的數據集,確保其符合預期的二倍規模且數據多樣性得到有效提升,完成整個數據處理流程。