本發明屬于特征與屬性結構化編制領域,尤其涉及一種基于房地產多種憑證資料的特征與屬性結構化編制方法和系統。
背景技術:
1、在房地產領域中,存在多種類型的房地產憑證資料,如房產證、土地證、不動產登記證明等。這些憑證資料的可信度和重要程度各不相同,如何充分利用這些異構憑證資料進行特征與屬性結構化編制,是一個亟待解決的技術難題。具體而言,不同憑證的頒發機構、法律效力、信息完整性都存在差異,且憑證之間的信息可能存在沖突和不一致。
2、如何合理評估憑證的可信度,賦予不同憑證合適的權重,并設計出一套行之有效的分層遞進的特征與屬性結構化編制方法,將是研究的重點。此外,房地產憑證信息錯綜復雜,如何在精化過程中有效融合多源憑證信息,避免精化后的數據出現邏輯矛盾和信息損失,也是一大挑戰。
技術實現思路
1、為解決上述技術問題,本發明提供了一種基于房地產多種憑證資料的特征與屬性結構化編制方法,包括:
2、獲取房地產的多種憑證資料數據,提取所述憑證資料數據的關鍵信息,構建憑證信息特征向量;
3、基于支持向量機算法構建可信度評估算法,基于所述可信度評估算法對所述憑證信息特征向量評估,獲得每類憑證的可信度得分,同時通過層次分析法確定每類憑證的重要程度權重;
4、對所述每類憑證的可信度得分和所述每類憑證的重要程度權重進行加權平均,獲得每類憑證的綜合得分,若所述每類憑證的綜合得分超過預設閾值,則判定該憑證為可信憑證;
5、提取所述可信憑證的關鍵信息,對所述可信憑證的關鍵信息進行結構化解析,構建房地產信息模型;
6、基于所述根據憑證的綜合得分對所述房地產信息模型的信息進行分層處理,獲得分層信息,對所述分層信息進行異構處理后進行融合,生成房產知識圖譜。
7、優選地,所述構建憑證信息特征向量的過程包括:
8、獲取房地產的多種憑證資料數據,對所述憑證資料數據進行文本識別,獲得憑證資料的文本信息;其中,所述憑證資料數據包括房產證明類資料、金融類憑證資料、稅務及費用類憑證、合規類文件和輔助性資料;
9、對所述多種憑證資料數據的關鍵信息進行向量表示,獲得所述憑證信息特征向量。
10、優選地,所述每類憑證的可信度得分和所述每類憑證的重要程度權重的獲取過程的過程包括:
11、通過支持向量機算法構建憑證可信度評估模型,基于所述憑證可信度評估模型對所述憑證信息特征向量進行計算,得到每類憑證的可信度得分;
12、針對每類憑證的法律效力和頒發機構權威性,采用層次分析法建立評估指標體系,通過專家打分確定各指標權重,計算綜合加權得分,得到憑證重要程度權重系數。
13、優選地,所述通過支持向量機算法構建憑證可信度評估模型的過程包括:
14、收集帶有可信度標簽的相關憑證數據,對所述相關憑證數據的對文本數據進行分詞和向量化,同時處理缺失值,歸一化數值特征,最后對類別變量進行編碼,獲得預處理數據集;
15、構建svr模型,將所述預處理數據集輸入至所述svr模型中進行訓練,獲得已訓練模型;其中,所述svr模型的核函數為rbf核;
16、基于k折交叉驗證方法對所述已訓練模型進行驗證,基于驗證結果對所述已訓練模型進行微調后重新訓練,獲得所述憑證可信度評估模型。
17、優選地,所述判定該憑證為可信憑證的過程包括:
18、獲取每類憑證的可信度得分和重要程度權重數據,將其作為加權平均算法的輸入參數;
19、采用加權平均算法,結合憑證的可信度得分和重要程度權重,計算每類憑證的綜合得分;
20、根據計算得到的綜合得分,對各類憑證進行優先級排序,得到憑證優先級排序結果;
21、構建可信憑證判定閾值,判斷每類憑證的綜合得分是否超過預設的可信憑證判定閾值,若超過閾值,則將該憑證標記為可信憑證。
22、優選地,所述構建房地產信息模型的過程包括:
23、對所述可信憑證的關鍵信息進行結構化處理,通過正則表達式匹配提取對應的屬性值,獲得解析結果;
24、基于所述解析結果確定模型的字段名稱和數據類型,將解析得到的關鍵屬性映射到對應的字段中,構建所述房地產信息數據模型。
25、優選地,所述生成房產知識圖譜的過程包括:
26、基于所述房地產信息數據模型確定知識圖譜的schema,定義實體類型、屬性和關系,構建房地產領域本體;
27、抽取所述憑證信息特征向量的實體和關系,構建初始知識圖譜;
28、通過字段匹配和實體對齊算法,判斷不同數據源中的實體是否指向同一對象,若是則將其合并,獲得合并數據;
29、基于長短時記憶網絡對所述憑證信息特征向量的相關度進行計算,獲得關聯信息;
30、將所述合并數據和所述關聯信息輸入至所述初始知識圖譜中,生成信息知識圖譜;
31、將所述信息知識圖譜與用戶行為數據和市場數據進行維度整合,獲得所述房產知識圖譜。
32、另一方面,本發明還提供了一種基于房地產多種憑證資料的特征與屬性結構化編制系統,包括:
33、向量構建模塊,用于獲取房地產的多種憑證資料數據,提取所述憑證資料數據的關鍵信息,構建憑證信息特征向量;
34、計算模塊,用于基于支持向量機算法構建可信度評估算法,基于所述可信度評估算法對所述憑證信息特征向量評估,獲得每類憑證的可信度得分,同時通過層次分析法確定每類憑證的重要程度權重;
35、判斷模塊,用于對所述每類憑證的可信度得分和所述每類憑證的重要程度權重進行加權平均,獲得每類憑證的綜合得分,若所述每類憑證的綜合得分超過預設閾值,則判定該憑證為可信憑證;
36、模型構建模塊,用于提取所述可信憑證的關鍵信息,對所述可信憑證的關鍵信息進行結構化解析,構建房地產信息模型;
37、精化模塊,用于基于所述根據憑證的綜合得分對所述房地產信息模型的信息進行分層處理,獲得分層信息,對所述分層信息進行異構處理后進行融合,生成房產知識圖譜。
38、與現有技術相比,本發明具有如下優點和技術效果:
39、發明公開了一種房地產憑證信息處理方法。該方法首先獲取各類房地產憑證,提取關鍵信息構建特征向量,通過支持向量機算法評估憑證可信度,并采用層次分析法確定權重。結合可信度得分和權重,計算綜合得分并排序,判定可信憑證。對可信憑證進行結構化解析,構建統一的房地產信息模型。針對信息沖突,設定規則進行校驗修正。根據憑證綜合得分,對信息進行分層處理,逐步提升準確性。最后采用數據融合技術,整合多源異構信息,構建完整的房地產知識圖譜。本發明通過多維度評估、分層處理和數據融合,有效解決了房地產憑證信息的可信度判斷、沖突處理和知識整合問題,為房地產業務提供了高質量的數據支撐。
1.一種基于房地產多種憑證資料的特征與屬性結構化編制方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述構建憑證信息特征向量的過程包括:
3.根據權利要求1所述的方法,其特征在于,所述每類憑證的可信度得分和所述每類憑證的重要程度權重的獲取過程的過程包括:
4.根據權利要求3所述的方法,其特征在于,所述通過支持向量機算法構建憑證可信度評估模型的過程包括:
5.根據權利要求1所述的方法,其特征在于,所述判定該憑證為可信憑證的過程包括:
6.根據權利要求1所述的方法,其特征在于,所述構建房地產信息模型的過程包括:
7.根據權利要求1所述的方法,其特征在于,所述生成房產知識圖譜的過程包括:
8.一種基于房地產多種憑證資料的特征與屬性結構化編制系統,其特征在于,包括: