本申請涉及計算機,特別是涉及一種產品數據處理方法、裝置、計算機設備、存儲介質和計算機程序產品。
背景技術:
1、隨著計算機技術與互聯網技術的發展,出現了產品管理方法,目前產品管理方法一般可以通過標準化產品單元(standard?product?unit,spu)或者標準庫存單元(stockkeeping?unit,sku)等形式來完成產品信息的電子化、信息化,從而實現產品的管理。產品的特性可以由多個“屬性|屬性值對”進行描述。“屬性|屬性值對”完全相同的產品,可以抽象成為一個標準化產品單元。另一方面,這些“屬性|屬性值對”在標準化產品單元中固化下來,逐步標準化?;跇藴驶a品單元的產品信息結構,可以實現豐富的應用,比如產品信息與資訊、評論、以及其它標準化產品單元的整合。
2、目前,對于標準化產品單元的去重,可以通過對比關鍵屬性和類目來進行去重,具體可以通過構建標準化產品單元的文本表示,而后通過機器學習提取文本的嵌入特征向量,再比較相似性來識別重復的標準化產品單元,然而這種識別方法會出現句向量分布不均勻,低頻句向量分布稀疏,高頻句向量分布緊密,從而影響產品數據去重的準確性。
技術實現思路
1、基于此,有必要針對上述技術問題,提供一種能夠提高商品數據去重準確性的產品數據處理方法、裝置、計算機設備、計算機可讀存儲介質和計算機程序產品。
2、第一方面,本申請提供了一種產品數據處理方法,包括:
3、獲取用于描述標準化產品單元的文本信息;
4、基于所述文本信息構建所述標準化產品單元的產品描述語句;
5、通過對比學習句嵌入模型提取所述產品描述語句的語句嵌入特征,所述對比學習句嵌入模型由歷史數據中的產品描述語句構建正樣本和負樣本,并通過所述正樣本和所述負樣本,對無監督訓練得到的無監督對比學習句嵌入模型進行有監督訓練得到;
6、在相似向量檢索庫中查找與所述語句嵌入特征滿足相似條件的目標相似向量;
7、當查找到所述目標相似向量時,判定所述標準化產品單元為重復產品。
8、第二方面,本申請還提供了一種產品數據處理裝置,包括:
9、信息獲取模塊,用于獲取用于描述標準化產品單元的文本信息;
10、描述語句構建模塊,用于基于所述文本信息構建所述標準化產品單元的產品描述語句;
11、嵌入特征提取模塊,用于通過對比學習句嵌入模型提取所述產品描述語句的語句嵌入特征,所述對比學習句嵌入模型由歷史數據中的產品描述語句構建正樣本和負樣本,并通過所述正樣本和所述負樣本,對無監督訓練得到的無監督對比學習句嵌入模型進行有監督訓練得到;
12、特征查詢模塊,用于在相似向量檢索庫中查找與所述語句嵌入特征滿足相似條件的目標相似向量;
13、數據處理模塊,用于當查找到所述目標相似向量時,判定所述標準化產品單元為重復產品。
14、第三方面,本申請還提供了一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現以下步驟:
15、獲取用于描述標準化產品單元的文本信息;
16、基于所述文本信息構建所述標準化產品單元的產品描述語句;
17、通過對比學習句嵌入模型提取所述產品描述語句的語句嵌入特征,所述對比學習句嵌入模型由歷史數據中的產品描述語句構建正樣本和負樣本,并通過所述正樣本和所述負樣本,對無監督訓練得到的無監督對比學習句嵌入模型進行有監督訓練得到;
18、在相似向量檢索庫中查找與所述語句嵌入特征滿足相似條件的目標相似向量;
19、當查找到所述目標相似向量時,判定所述標準化產品單元為重復產品。
20、第四方面,本申請還提供了一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現以下步驟:
21、獲取用于描述標準化產品單元的文本信息;
22、基于所述文本信息構建所述標準化產品單元的產品描述語句;
23、通過對比學習句嵌入模型提取所述產品描述語句的語句嵌入特征,所述對比學習句嵌入模型由歷史數據中的產品描述語句構建正樣本和負樣本,并通過所述正樣本和所述負樣本,對無監督訓練得到的無監督對比學習句嵌入模型進行有監督訓練得到;
24、在相似向量檢索庫中查找與所述語句嵌入特征滿足相似條件的目標相似向量;
25、當查找到所述目標相似向量時,判定所述標準化產品單元為重復產品。
26、第五方面,本申請還提供了一種計算機程序產品,包括計算機程序,該計算機程序被處理器執行時實現以下步驟:
27、獲取用于描述標準化產品單元的文本信息;
28、基于所述文本信息構建所述標準化產品單元的產品描述語句;
29、通過對比學習句嵌入模型提取所述產品描述語句的語句嵌入特征,所述對比學習句嵌入模型由歷史數據中的產品描述語句構建正樣本和負樣本,并通過所述正樣本和所述負樣本,對無監督訓練得到的無監督對比學習句嵌入模型進行有監督訓練得到;
30、在相似向量檢索庫中查找與所述語句嵌入特征滿足相似條件的目標相似向量;
31、當查找到所述目標相似向量時,判定所述標準化產品單元為重復產品。
32、上述產品數據處理方法、裝置、計算機設備、存儲介質和計算機程序產品,通過先獲取用于描述標準化產品單元的文本信息;并基于文本信息構建標準化產品單元的產品描述語句。從而構建得到用于標準化產品單元重復識別的基礎數據,而后再通過對比學習句嵌入模型提取產品描述語句的語句嵌入特征,該對比學習句嵌入模型具體由歷史數據中的產品描述語句構建正樣本和負樣本,并通過正樣本和負樣本,對無監督訓練得到的無監督對比學習句嵌入模型進行有監督訓練得到;即通過有監督訓練來對無監督對比學習句嵌入模型進行補充,從而提高語句嵌入特征提取的準確性。而后再在相似向量檢索庫中查找與語句嵌入特征滿足相似條件的目標相似向量;當查找到目標相似向量時,則判定當前的標準化產品單元為重復商品,完成標準化產品單元判重的識別流程。本申請中,通過在構建標準化產品單元的產品描述語句后,基于通過對比學習句嵌入模型來提取產品描述語句的語句嵌入特征,通過無監督訓練結合有監督訓練得到的對比學習句嵌入模型可以使產品描述語句的語句嵌入特征在高維空間上相近且均勻分布,有效提高特征提取的準確性,進而在相似向量檢索庫中進行相似目標相似向量的查找,保證標準化產品單元的重復判定的準確性。
1.一種產品數據處理方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述基于所述文本信息構建所述標準化產品單元的產品描述語句包括:
3.根據權利要求1所述的方法,其特征在于,所述方法還包括:
4.根據權利要求3所述的方法,其特征在于,所述通過所述無監督樣本對初始對比學習句嵌入模型進行無監督訓練,得到無監督對比學習句嵌入模型包括:
5.根據權利要求3所述的方法,其特征在于,基于所述歷史數據中的產品描述語句構建負樣本包括:
6.根據權利要求3所述的方法,其特征在于,基于所述歷史數據中的產品描述語句構建正樣本包括:
7.根據權利要求1所述的方法,其特征在于,所述方法還包括:
8.根據權利要求1所述的方法,其特征在于,所述方法還包括:
9.根據權利要求8所述的方法,其特征在于,所述在相似向量檢索庫中查找與所述語句嵌入特征滿足相似條件的目標相似向量包括:
10.根據權利要求1至9任意一項所述的方法,其特征在于,所述方法還包括:
11.根據權利要求1所述的方法,其特征在于,所述方法還包括:
12.一種產品數據處理裝置,其特征在于,所述裝置包括:
13.一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執行所述計算機程序時實現權利要求1至11中任一項所述的方法的步驟。
14.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至11中任一項所述的方法的步驟。
15.一種計算機程序產品,包括計算機程序,其特征在于,該計算機程序被處理器執行時實現權利要求1至11中任一項所述的方法的步驟。