麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

產品數據處理方法、裝置、計算機設備和存儲介質與流程

文檔序號:41751954發布日期:2025-04-29 18:20閱讀:3來源:國知局
產品數據處理方法、裝置、計算機設備和存儲介質與流程

本申請涉及計算機,特別是涉及一種產品數據處理方法、裝置、計算機設備、存儲介質和計算機程序產品。


背景技術:

1、隨著計算機技術與互聯網技術的發展,出現了產品管理方法,目前產品管理方法一般可以通過標準化產品單元(standard?product?unit,spu)或者標準庫存單元(stockkeeping?unit,sku)等形式來完成產品信息的電子化、信息化,從而實現產品的管理。產品的特性可以由多個“屬性|屬性值對”進行描述。“屬性|屬性值對”完全相同的產品,可以抽象成為一個標準化產品單元。另一方面,這些“屬性|屬性值對”在標準化產品單元中固化下來,逐步標準化?;跇藴驶a品單元的產品信息結構,可以實現豐富的應用,比如產品信息與資訊、評論、以及其它標準化產品單元的整合。

2、目前,對于標準化產品單元的去重,可以通過對比關鍵屬性和類目來進行去重,具體可以通過構建標準化產品單元的文本表示,而后通過機器學習提取文本的嵌入特征向量,再比較相似性來識別重復的標準化產品單元,然而這種識別方法會出現句向量分布不均勻,低頻句向量分布稀疏,高頻句向量分布緊密,從而影響產品數據去重的準確性。


技術實現思路

1、基于此,有必要針對上述技術問題,提供一種能夠提高商品數據去重準確性的產品數據處理方法、裝置、計算機設備、計算機可讀存儲介質和計算機程序產品。

2、第一方面,本申請提供了一種產品數據處理方法,包括:

3、獲取用于描述標準化產品單元的文本信息;

4、基于所述文本信息構建所述標準化產品單元的產品描述語句;

5、通過對比學習句嵌入模型提取所述產品描述語句的語句嵌入特征,所述對比學習句嵌入模型由歷史數據中的產品描述語句構建正樣本和負樣本,并通過所述正樣本和所述負樣本,對無監督訓練得到的無監督對比學習句嵌入模型進行有監督訓練得到;

6、在相似向量檢索庫中查找與所述語句嵌入特征滿足相似條件的目標相似向量;

7、當查找到所述目標相似向量時,判定所述標準化產品單元為重復產品。

8、第二方面,本申請還提供了一種產品數據處理裝置,包括:

9、信息獲取模塊,用于獲取用于描述標準化產品單元的文本信息;

10、描述語句構建模塊,用于基于所述文本信息構建所述標準化產品單元的產品描述語句;

11、嵌入特征提取模塊,用于通過對比學習句嵌入模型提取所述產品描述語句的語句嵌入特征,所述對比學習句嵌入模型由歷史數據中的產品描述語句構建正樣本和負樣本,并通過所述正樣本和所述負樣本,對無監督訓練得到的無監督對比學習句嵌入模型進行有監督訓練得到;

12、特征查詢模塊,用于在相似向量檢索庫中查找與所述語句嵌入特征滿足相似條件的目標相似向量;

13、數據處理模塊,用于當查找到所述目標相似向量時,判定所述標準化產品單元為重復產品。

14、第三方面,本申請還提供了一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現以下步驟:

15、獲取用于描述標準化產品單元的文本信息;

16、基于所述文本信息構建所述標準化產品單元的產品描述語句;

17、通過對比學習句嵌入模型提取所述產品描述語句的語句嵌入特征,所述對比學習句嵌入模型由歷史數據中的產品描述語句構建正樣本和負樣本,并通過所述正樣本和所述負樣本,對無監督訓練得到的無監督對比學習句嵌入模型進行有監督訓練得到;

18、在相似向量檢索庫中查找與所述語句嵌入特征滿足相似條件的目標相似向量;

19、當查找到所述目標相似向量時,判定所述標準化產品單元為重復產品。

20、第四方面,本申請還提供了一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現以下步驟:

21、獲取用于描述標準化產品單元的文本信息;

22、基于所述文本信息構建所述標準化產品單元的產品描述語句;

23、通過對比學習句嵌入模型提取所述產品描述語句的語句嵌入特征,所述對比學習句嵌入模型由歷史數據中的產品描述語句構建正樣本和負樣本,并通過所述正樣本和所述負樣本,對無監督訓練得到的無監督對比學習句嵌入模型進行有監督訓練得到;

24、在相似向量檢索庫中查找與所述語句嵌入特征滿足相似條件的目標相似向量;

25、當查找到所述目標相似向量時,判定所述標準化產品單元為重復產品。

26、第五方面,本申請還提供了一種計算機程序產品,包括計算機程序,該計算機程序被處理器執行時實現以下步驟:

27、獲取用于描述標準化產品單元的文本信息;

28、基于所述文本信息構建所述標準化產品單元的產品描述語句;

29、通過對比學習句嵌入模型提取所述產品描述語句的語句嵌入特征,所述對比學習句嵌入模型由歷史數據中的產品描述語句構建正樣本和負樣本,并通過所述正樣本和所述負樣本,對無監督訓練得到的無監督對比學習句嵌入模型進行有監督訓練得到;

30、在相似向量檢索庫中查找與所述語句嵌入特征滿足相似條件的目標相似向量;

31、當查找到所述目標相似向量時,判定所述標準化產品單元為重復產品。

32、上述產品數據處理方法、裝置、計算機設備、存儲介質和計算機程序產品,通過先獲取用于描述標準化產品單元的文本信息;并基于文本信息構建標準化產品單元的產品描述語句。從而構建得到用于標準化產品單元重復識別的基礎數據,而后再通過對比學習句嵌入模型提取產品描述語句的語句嵌入特征,該對比學習句嵌入模型具體由歷史數據中的產品描述語句構建正樣本和負樣本,并通過正樣本和負樣本,對無監督訓練得到的無監督對比學習句嵌入模型進行有監督訓練得到;即通過有監督訓練來對無監督對比學習句嵌入模型進行補充,從而提高語句嵌入特征提取的準確性。而后再在相似向量檢索庫中查找與語句嵌入特征滿足相似條件的目標相似向量;當查找到目標相似向量時,則判定當前的標準化產品單元為重復商品,完成標準化產品單元判重的識別流程。本申請中,通過在構建標準化產品單元的產品描述語句后,基于通過對比學習句嵌入模型來提取產品描述語句的語句嵌入特征,通過無監督訓練結合有監督訓練得到的對比學習句嵌入模型可以使產品描述語句的語句嵌入特征在高維空間上相近且均勻分布,有效提高特征提取的準確性,進而在相似向量檢索庫中進行相似目標相似向量的查找,保證標準化產品單元的重復判定的準確性。



技術特征:

1.一種產品數據處理方法,其特征在于,所述方法包括:

2.根據權利要求1所述的方法,其特征在于,所述基于所述文本信息構建所述標準化產品單元的產品描述語句包括:

3.根據權利要求1所述的方法,其特征在于,所述方法還包括:

4.根據權利要求3所述的方法,其特征在于,所述通過所述無監督樣本對初始對比學習句嵌入模型進行無監督訓練,得到無監督對比學習句嵌入模型包括:

5.根據權利要求3所述的方法,其特征在于,基于所述歷史數據中的產品描述語句構建負樣本包括:

6.根據權利要求3所述的方法,其特征在于,基于所述歷史數據中的產品描述語句構建正樣本包括:

7.根據權利要求1所述的方法,其特征在于,所述方法還包括:

8.根據權利要求1所述的方法,其特征在于,所述方法還包括:

9.根據權利要求8所述的方法,其特征在于,所述在相似向量檢索庫中查找與所述語句嵌入特征滿足相似條件的目標相似向量包括:

10.根據權利要求1至9任意一項所述的方法,其特征在于,所述方法還包括:

11.根據權利要求1所述的方法,其特征在于,所述方法還包括:

12.一種產品數據處理裝置,其特征在于,所述裝置包括:

13.一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執行所述計算機程序時實現權利要求1至11中任一項所述的方法的步驟。

14.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至11中任一項所述的方法的步驟。

15.一種計算機程序產品,包括計算機程序,其特征在于,該計算機程序被處理器執行時實現權利要求1至11中任一項所述的方法的步驟。


技術總結
本申請涉及一種產品數據處理方法、裝置、計算機設備、存儲介質和計算機程序產品。本申請實施例可應用于車載領域,方法包括:獲取用于描述標準化產品單元的文本信息;基于文本信息構建標準化產品單元的產品描述語句;通過對比學習句嵌入模型提取產品描述語句的語句嵌入特征;在相似向量檢索庫中查找與語句嵌入特征滿足相似條件的目標相似向量;當查找到目標相似向量時,判定標準化產品單元為重復產品。本申請可以有效提高特征提取的準確性,進而在相似向量檢索庫中進行相似目標相似向量的查找,保證標準化產品單元的重復判定的準確性。

技術研發人員:譚小龍
受保護的技術使用者:騰訊科技(深圳)有限公司
技術研發日:
技術公布日:2025/4/28
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 古田县| 百色市| 武宁县| 衡山县| 三门峡市| 长武县| 甘孜县| 尼玛县| 独山县| 江油市| 广河县| 富宁县| 绥中县| 德保县| 扎囊县| 荣昌县| 修文县| 莆田市| 河东区| 合江县| 江西省| 仙居县| 遵化市| 德州市| 泽普县| 博客| 柘荣县| 旺苍县| 临邑县| 临泽县| 济源市| 保康县| 崇信县| 佛冈县| 茌平县| 乐都县| 商河县| 色达县| 若羌县| 修水县| 广丰县|