本技術涉及自然語言處理,特別是涉及一種簡歷消歧方法、裝置、設備、介質及產品。
背景技術:
1、在科研和學術界,作者姓名消歧(author?name?disambiguation,and)是一個重要但具有挑戰性的任務。隨著高校教師數量的增加和簡歷庫的不斷擴大,準確識別和區分具有相同或相似姓名的不同教師變得愈發困難。這一問題的解決對于高校簡歷數據庫的準確性以及科研合作網絡的構建具有重要意義。
2、目前,針對人名消歧的研究已經取得了一定的進展。同名消歧的方法主要包括基于規則的匹配和聚類算法。然而,這些方法往往依賴于簡歷信息的靜態特征(如姓名、性別、出生年月等)或單一的表征學習策略,無法有效處理同名實體在實際應用中遇到的復雜情況,從而導致簡歷消歧的準確性較低。
技術實現思路
1、本技術的目的是提供一種簡歷消歧方法、裝置、設備、介質及產品,可提升簡歷消歧的準確性。
2、為實現上述目的,本技術提供了如下方案:
3、第一方面,本技術提供了一種簡歷消歧方法,包括:
4、根據采集到的教師主頁地址,確定簡歷信息集合;其中,所述簡歷信息集合中包括多個教師分別對應的簡歷信息;所述簡歷信息中至少包括簡歷id、教師姓名、工作信息以及教育信息;
5、根據所述簡歷信息集合構建簡歷矩陣;其中,所述簡歷矩陣中包括多個矩陣行和多個矩陣列,一個矩陣行對應一個簡歷信息,一個矩陣列對應一個預先存儲的高校信息;所述簡歷矩陣中的矩陣值表示所述矩陣值對應的簡歷信息與所述矩陣值對應的高校信息之間的相關性;
6、對所述簡歷矩陣進行奇異值分解,得到多個子矩陣;其中,所述多個子矩陣至少包括簡歷用戶的特征矩陣、內容特征矩陣以及對角矩陣;
7、使用所述多個子矩陣,計算得到簡歷用戶網絡和簡歷高校網絡;
8、對所述簡歷用戶網絡和所述簡歷高校網絡進行聚類,得到預聚類簡歷集合和離群簡歷集合;
9、基于所述預聚類簡歷集合,對所述離群簡歷集合進行整合,得到消歧簡歷集合。
10、可選地,所述根據采集到的教師主頁地址,確定簡歷信息集合,具體包括:
11、從采集到的教師主頁地址中獲取多個教師的主頁正文信息;
12、對每個所述主頁正文信息中的預設關鍵信息進行提取,得到每個主頁正文信息分別對應的初始簡歷信息;
13、對每個所述初始簡歷信息進行預處理,得到每個初始簡歷信息分別對應的簡歷信息;
14、將每個簡歷信息進行整合,得到簡歷信息集合。
15、可選地,所述簡歷用戶的特征矩陣為所述簡歷用戶在潛在特征空間中的表示;所述簡歷用戶的特征矩陣中每一行對應一個簡歷信息的簡歷用戶;
16、所述內容特征矩陣為所述高校信息在所述潛在特征空間中的表示。
17、可選地,所述使用所述多個子矩陣,計算得到簡歷用戶網絡和簡歷高校網絡,具體包括:
18、使用所述簡歷用戶的特征矩陣,計算得到簡歷用戶網絡;
19、使用所述簡歷用戶的特征矩陣和所述對角矩陣,確定所述簡歷用戶的特征空間表示;
20、使用所述內容特征矩陣和所述對角矩陣,確定所述高校信息的特征空間表示;
21、使用所述簡歷用戶的特征空間表示和所述高校信息的特征空間表示,確定簡歷高校網絡。
22、可選地,所述使用所述簡歷用戶的特征矩陣,計算得到簡歷用戶網絡,具體包括:
23、基于所述簡歷用戶的特征矩陣,計算每兩個簡歷用戶的行間余弦相似度;
24、將所述行間余弦相似度大于預設閾值的兩個目標簡歷用戶之間建立目標邊;
25、基于所述簡歷用戶和所述目標邊,構建簡歷用戶網絡。
26、可選地,所述預聚類簡歷集合中包括多個預聚類簡歷簇,每個預聚類簡歷簇中包含多個預聚類簡歷,所述離群簡歷結合中包括離群簡歷,所述基于所述預聚類簡歷集合,對所述離群簡歷集合進行整合,得到消歧簡歷集合,具體包括:
27、從所述離群簡歷集合中獲取目標離群簡歷;
28、計算得到所述目標離群簡歷與每一預聚類簡歷的第一相似度;
29、若最大的第一相似度大于等于預設閾值,則將所述目標離群簡歷從所述離群簡歷集合移動至所述最大的第一相似度對應的目標預聚類簡歷所在的預聚類簡歷簇中;
30、若所述最大的第一相似度小于所述預設閾值,則在所述預聚類簡歷集合中構建新預聚類簡歷簇,并將所述目標離群簡歷從所述離群簡歷集合移動至所述新預聚類簡歷簇中;
31、計算得到所述目標離群簡歷與所述離群簡歷集合中每一當前離群簡歷的第二相似度;
32、從所述離群簡歷集合中確定目標當前離群簡歷;其中,所述目標當前離群簡歷對應的第二相似度大于等于所述預設閾值;
33、將所述目標當前離群簡歷從所述離群簡歷集合移動至所述目標離群簡歷所在的預聚類簡歷簇中;
34、若所述離群簡歷集合中還存在離群簡歷,則執行從所述的從所述離群簡歷集合中獲取目標離群簡歷的步驟,至所述的將所述目標當前離群簡歷從所述離群簡歷集合移動至所述目標離群簡歷所在的預聚類簡歷簇中的步驟;
35、若所述離群簡歷集合中不存在離群簡歷,則將當前的預聚類簡歷集合確定為消歧簡歷集合。
36、第二方面,本技術提供了一種簡歷消歧裝置,包括:
37、確定單元,用于根據采集到的教師主頁地址,確定簡歷信息集合;其中,所述簡歷信息集合中包括多個教師分別對應的簡歷信息;所述簡歷信息中至少包括簡歷id、教師姓名、工作信息以及教育信息;
38、構建單元,用于根據所述簡歷信息集合構建簡歷矩陣;其中,所述簡歷矩陣中包括多個矩陣行和多個矩陣列,一個矩陣行對應一個簡歷信息,一個矩陣列對應一個預先存儲的高校信息;所述簡歷矩陣中的矩陣值表示所述矩陣值對應的簡歷信息與所述矩陣值對應的高校信息之間的相關性;
39、分解單元,用于對所述簡歷矩陣進行奇異值分解,得到多個子矩陣;其中,所述多個子矩陣至少包括簡歷用戶的特征矩陣、內容特征矩陣以及對角矩陣;
40、計算單元,用于使用所述多個子矩陣,計算得到簡歷用戶網絡和簡歷高校網絡;
41、聚類單元,用于對所述簡歷用戶網絡和所述簡歷高校網絡進行聚類,得到預聚類簡歷集合和離群簡歷集合;
42、整合單元,用于基于所述預聚類簡歷集合,對所述離群簡歷集合進行整合,得到消歧簡歷集合。
43、第三方面,本技術提供了一種計算機設備,包括:存儲器、處理器以及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序以實現上述中任一項所述的簡歷消歧方法的步驟。
44、第四方面,本技術提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現上述中任一項所述的簡歷消歧方法的步驟。
45、第五方面,本技術提供了一種計算機程序產品,包括計算機程序,該計算機程序被處理器執行時實現上述中任一項所述的簡歷消歧方法的步驟。
46、根據本技術提供的具體實施例,本技術公開了以下技術效果:
47、本技術提供了一種簡歷消歧方法、裝置、設備、介質及產品,可以根據采集到的簡歷信息集合構建得到簡歷矩陣,通過對簡歷矩陣進行奇異值分解,可以得到多個子矩陣,這種方式能夠捕捉簡歷之間復雜的關系信息,提升同名消歧的準確性;以及可以使用多個子矩陣計算得到簡歷用戶網絡和簡歷高校網絡,并通過對簡歷用戶網絡和簡歷高校網絡進行聚類,可以提升得到的消歧簡歷集合的準確性。