本說明書實施例屬于計算機數據處理技術領域,尤其涉及一種車險風險預測方法、裝置及服務器。
背景技術:
隨著車輛保有量的逐年增加,各保險公司的車險業務量也隨之增加。如何對被保險車輛進行準確的車險風險評估,以制定合理的車輛承保、定價、服務項目等車險保險業務,是保險公司重要的研究方向之一。
目前,保險公司主要依靠車輛自身的屬性信息進行定價建模,針對不同的被保險車輛情況制定相應車險業務,提供給用戶。例如,根據被保險車輛的外觀新舊度、車輛使用年限、車輛里程等。實際的車輛保險業務中,影響車輛是否出險以及出險費用的因素還可以包括其他方面,如車輛所在地的自然環境、經常駕駛路況等。因此,業內還需要更加全面、準確的預測車險風險的解決方案。
技術實現要素:
本說明書的一個或多個實施例目的在于提供一種車險風險預測方法、裝置及服務器,可以使用車險用戶的人屬性信息進行車險風險預測,提供更加全面、準確、可靠的車輛風險預測依據,整體上提高車險風險評估的準確性和可靠性。
本說明書的一個或多個提供的一種車險風險預測方法、裝置及服務器是包括以下方式實現的:
一種車險風險預測方法,所述方法包括:
獲取車險用戶的人屬性特征信息,所述人屬性特征信息包括自然人的自然屬性信息、社會屬性信息、行為數據中的至少一種信息數據;
利用預先構建的車險風險預測算法對所述人屬性特征信息進行處理,得到所述車險用戶的車險風險預測結果。
一種車險風險預測裝置,所述裝置包括:
人屬性特征獲取模塊,用于獲取車險用戶的人屬性特征信息,所述人屬性特征信息包括自然人的自然屬性信息、社會屬性信息、行為數據中的至少一種信息數據;
風險預測模塊,用于利用預先構建的車險風險預測算法對所述人屬性特征信息進行處理,得到所述車險用戶的車險風險預測結果。
一種車險風險預測裝置,所述裝置包括處理器以及用于存儲處理器可執行指令的存儲器,所述處理器執行所述指令時實現:
獲取車險用戶的人屬性特征信息,所述人屬性特征信息包括自然人的自然屬性信息、社會屬性信息、行為數據中的至少一種信息數據;
利用預先構建的車險風險預測算法對所述人屬性特征信息進行處理,得到所述車險用戶的車險風險預測結果。
一種服務器,包括至少一個處理器以及用于存儲處理器可執行指令的存儲器,所述處理器執行所述指令時實現本說明書實施例任意一個方法所述的數據處理步驟。
本說明書實施例提供的一種車險風險預測方法、裝置及服務器,可以利用預先采集整理的人屬性特征信息建立車險風險預測算法,利用預先構建的車險風險預測算對被預測的車險用戶的人屬性特征信息進行處理,從自然人的角度預測車險用戶對車輛風險的影響。在實際車輛使用中,人的因素影響對車輛是否出險以及出險的具體賠付金額等車險業務影響通常較大,而本說明書實施例提供的實施方案,使用人的屬性特征信息進行車輛風險預測,提供更加準確、可靠的車險風險評估依據,可以有效提高車險風險評估的準確性和可靠性。
附圖說明
為了更清楚地說明本說明書實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本說明書中記載的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
圖1是本說明書提供的一個實施例實現車險風險預測的實施場景示意圖;
圖2是本說明書提供的所述方法的一個實施例的處理過程示意圖;
圖3是本說明書提供的所述方法中一種構建預測模型的實施方法流程示意圖;
圖4是本說明書提供的所述方法中另一種構建預測模型的實施方法流程示意圖
圖5是本說明書提供的所述方法中另一種構建預測模型的實施方法流程示意圖;
圖6是本說明書提供的所述方法中另一種構建預測模型的實施方法流程示意圖;
圖7是本說明書提供的一種車險風險預測裝置實施例的模塊結構示意圖;
圖8是本說明書提供的另一種車險風險預測裝置實施例的模塊結構示意圖;
圖9是本說明書提供的另一種車險風險預測裝置實施例的模塊結構示意圖;
圖10是本說明書提供的服務器一種實施例的結構示意圖。
具體實施方式
為了使本技術領域的人員更好地理解本說明書中的技術方案,下面將結合本說明書實施例中的附圖,對本說明書實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本說明書一部分實施例,而不是全部的實施例。基于本說明書中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都應當屬于本說明書保護的范圍。
雖然本說明書提供了如下述實施例或附圖所示的方法操作步驟或裝置結構,但基于常規或者無需創造性的勞動在所述方法或裝置中可以包括更多或者部分合并后更少的操作步驟或模塊單元。在邏輯性上不存在必要因果關系的步驟或結構中,這些步驟的執行順序或裝置的模塊結構不限于本說明書一個或多個實施例或附圖所示的執行順序或模塊結構。所述的方法或模塊結構的在實際中的裝置、服務器或終端產品應用時,可以按照實施例或者附圖所示的方法或模塊結構進行順序執行或者并行執行(例如并行處理器或者多線程處理的環境、甚至包括分布式處理、服務器集群的實施環境)。
本說明書一個或多個實施例可以在多種車輛風險預測的業務系統中實施。所述的業務系統可以包括保險公司車險風險評估的業務系統,也可以包括提供車險風險預測服務的第三方服務系統,如為保險公司提供車險用戶的車險風險評估分值的服務方。本說明書提供的一個或多個實施例在業務系統中具體實施時,可以預先采集(收集)車險用戶的人屬性特征信息,可以對這些采集的人屬性特征信息進行預處理,然后選取適用于業務場景的車險風險預測算法進行建模、訓練等。建模或訓練后的車險風險預測算法可以用來對被預測的車險用戶進行車險風險預測。所述的車險風險預測算法可以根據業務場景需求選取相應的線性預測模型、網絡預測模型、計算公式或者自定義擬合的算法等。選取的車險風險預測算法可以直接使用,進行車險風險預測,也可以經過人屬性特征信息的樣本數據訓練后構建生成。
所述的車險風險預測算法可以輸出車險用戶的車險風險預測結果,具體的可以包括表示車險用戶車險風險高低的分值、發生風險種類、出險的概率值、賠付金額區間、所屬風險人群等類型的車險風險預測結果。圖1是本說明書提供的一個實施例實現車險風險預測的實施場景示意圖。如圖1所示,可以根據保險公司提供的保單數據獲取與人屬性特征信息相關的變量,以這些變量作為模型訓練的樣本變量。一般的,保險公司一側可以記錄有車險用戶一些信息數據,如填寫的保單數據,具體的可以包括車主用戶的姓名、證件類型及證件號碼、手機號碼等。這些樣本變量經過整理后可以使用廣義線性模型進行建模,構建車險風險預測模型,然后可以使用該模型進行預測,輸出表示車險用戶車險風險高低的分值。
本說明書提供的一種車險風險預測方法具體的一個實施例如圖2所示,所述方法可以包括:
s2:獲取車險用戶的人屬性特征信息,所述人屬性特征信息可以包括基于自然人的自然屬性信息、社會屬性信息、行為數據中的至少一種信息數據;
s4:利用預先構建的車險風險預測算法對所述人屬性特征信息進行處理,得到所述車險用戶的車險風險預測結果。
所述的人屬性特征信息可以包括與人的屬性相關聯的信息,或者與人的行為相關聯的數據。這里所述的人通常指自然人,如車輛的車主用戶。所述的人特征屬性信息具體的可以包括身體特質信息、年齡、性別、職位信息、性格信息、消費信用、駕駛行為等多種類型的數據信息。本說明書實施例基于車險用戶為自然人的事實基礎,將人的因素使用到車險風險預測中,可以根據不同車險用戶的人屬性特征信息,相應的預測得到車險用戶的車險風險預測結果。
本說明書實施例中所述的車險用戶的人屬性特征信息具體的可以包括自然人的自然屬性信息,如年齡、性別、身體狀況等與人自身的生物特性關聯的屬性信息。車險用戶的社會屬性信息可以包括自然人作為社會存在物而具有的特征,如勞動、社交等及其所形成的各種社會關系等,具體的信息數據例如可以包括職位、職業、消費情況、信用情況等。所述的行為數據可以包括統計的車險用戶的某種行為產生的數據信息,例如駕駛習慣等。當然,基于上述實施例中人屬性特征信息的分類,其他的實施例中也可以采用其他維度的分類方式,例如可以將行為數據歸屬為社會屬性信息種類,或者一些信息數據可以屬于自然屬性信息也可以屬于社會屬性信息,或者直接指定人屬性特征信息包括的類別,如消費習慣、身份特質、信用歷史等。
本說明書實施例所述的車險用戶在車險業務中通常可以包括被保險車輛的注冊登記的實際所有人,如車主用戶。本說明書實施例所述的車險用戶更為廣泛的意義上可以包括車險業務中例如上述所述的車主用戶,或者包括車險業務的一個或多個投保人,也可以包括車險業務中一個或多個的受保人/受益人,如車險用戶可以包括車主用戶u1以及其直系親屬u11。另一種實施場景中,車主用戶為法人時,所述車險用戶可以為法人代表(自然人),在另一些情況下,甚至可以包括車輛的共同乘坐人。本說明書實施例所述的車險用戶可以不限制于參與車險業務的車主用戶,這樣可以更加全面的考慮車險風險所涉及的利益相關方,獲取的風險預測數據可以更加全面,預測結果更加準確、可靠。
在本說明書實施例中,可以預先采集獲取用戶車險風險預測使用的預定類型的人特征屬性樣本數據,這些樣本數據可以用于構建車險風險預測算法或訓練模型等。具體的,本說明書提供的一個或多個實施例中,所述預設類型的所述人屬性特征樣本可以包括下述中至少一個類型的變量數據:
駕駛習慣、職業特性、身份特質、信用歷史、消費習慣、穩定性。
在一個具體的示例中,可以設置采集下述類型的人屬性特征信息:
消費習慣;
生活穩定性、收入穩定性;
職業特性;
身份特質;
信用歷史;
駕駛習慣、偏好。
當然,具體的業務場景實施中,可以根據車險風險評估的需求采集上述其中的一項或多個,或者還包括其他類型的人屬性特征信息。這些人屬性特征信息可以通過車險業務保單數據獲取,也可以在獲得授權的情況下通過終端應用采集獲取,或者接收第三方提供的數據信息中獲取。其中,上述所述的生活穩定性可以基于車險用戶的居住城市遷移情況、職業情況等數據獲取/計算得到,所述人格穩定性可以基于車險用戶的病史、信用記錄、社交信息等數據獲取/計算得到。所述的駕駛習慣、偏好,可以包括通過手機傳感器、車載傳感器檢測出的駕駛習慣,如時速20公里以上時,可以判斷為開車中。當然,也可以從其它已有的導航類應用中通過接口獲取駕駛習慣的數據信息。上述類型的變量信息可以從多個維度,更加全面的獲取人屬性特征信息,使得車險風險預測結果更加可靠。
上述中所述的每個類型的人屬性特征信息可以包括對應的一個或多個變量,變量可以有對應的取值。例如信用歷史這一類別的人屬性特征信息可以包括車險用戶的信用卡信用、銀行信用,對應的變量和取值可以設置為“hon_card:100分”、“hon_bank:95分”的數據格式。
在獲取所述人屬性特征信息的變量數據之后,還可以對所述變量數據進行整理處理,進一步根據設置的整理規則挖掘、補充變量數據。本說明書提供的一個實施例中,所述整理處理可以包括下述中的至少一項處理:
設置所述變量數據的權重;
對所述變量數據中的殘缺值進行補充;
確定屬于重復變量數據的數據使用選擇方式;
所述變量數據之間的交互效應處理;
基于所述變量數據生成新的變量數據;
相應的,所述利用預先構建的車險風險預測算法對所述人屬性特征信息進行處理包括利用預先構建的車險風險預測算法對包括所述整理處理后的變量數據進行處理。
對于不同的業務場景中,不同的變量數據可以對車險風險有著不同的影響。例如,對于車險公司a的某些業務需求而言,采集獲取的駕駛習慣類型的變量數據可以更加直接反應車險用戶的車輛駕駛風險,對車險業務影響較大,則可以設置駕駛習慣類型的變換數據的權重相對較大。一些業務場景需求下,還可以根據設置的變量權重對所述變量數據進行排序,如權重較大的變量數據相應的位于隊列靠前的位置,在數據使用時可以優先使用權重較大的變量數據,或者展示/體現出重要的變量數據。
在一些應用場景中,部分變量數據可能存在殘缺值的情況,如采集的某個車險用戶的變量的值為空或異常值,則可以根據需求對其補充為缺省值。
另一些應用場景中,可能會采集重復類型的變量數據,如不同數據源獲取的信用類型的變量數據,則可以設置優先使用哪一個變量數據。
所述的整理處理還可以包括多變量之間交互效應的挖掘處理。所述的交互效應簡通常是指多個變量的疊加效應,比如年齡和性別可以組成一個交叉變量。如果是兩個單變量,所得到的結果之一可以包括,在所有年齡段,男性的風險是大于或者小于女性的。但在實際的車險業務中,一些業務場景需求下可以判定并不是在所有年齡段,男性的車險風險是大于女性的,在有的年齡段,女性的車險風險要大于男性。此時可以根據年齡和性別的變量交互得到一個交叉變量,表示某種性別的某個年齡段,可以用來預測例如男性在25-30年齡段的車險風險情況。
其他的整理處理方式中,還可以包括多個變量的融合、合并等,或者經過融合、合并、變換等處理衍生出新的變量數量。例如可以根據車險用戶在企業中的職位衍生出職位信用的變量數據。
本說明書一個或多個實施例中,當完成變量整理和挖掘之后,可以選取適用于業務場景的車險風險預測算法進行建模、訓練等。建模或訓練后的車險風險預測算法可以用來對被預測的車險用戶進行車險風險預測。如上述所述,所述的車險風險預測算法可以根據業務場景需求選取相應的線性預測模型、網絡預測模型、計算公式或者自定義擬合的算法等。預測模型可以經過人屬性特征信息的樣本數據訓練后構建生成車險風險預測模型。本說明書提供的一個或多個實施例中,可以使用廣義線性模型(generalizedlinearmodel,glm)進行建模,模型的結果可以反映從人因素對于車險風險的影響。具體的,本說明書一個或多個實施例提供的一種車險風險預測方法中,所述車險風險預測算法可以包括采用下述方式構建生成的預測模型:
s20:采集預設類型的人屬性特征樣本;
s22:確定使用的廣義線性模型以及所述廣義線性模型的建模目標;
s24:以包括所述人屬性特征樣本的數據作為廣義線性模型的輸入,對所述建模目標進行建模,確定車險風險預測模型,所述車險風險預測模型包括至少一項表示車險用戶的車險風險高低的輸出結果。
圖3是本說明書提供的所述方法中一種構建預測模型的實施方法流程示意圖。所述廣義線性模型是為了克服線性回歸模型的缺點出現的,是線性回歸模型的推廣。在廣義線性模型中,自變量可以是離散的,也可以是連續的。離散的自變量可以包括例如是0-1變量,也可以包括多種取值的變量。本實施例選取廣義線性模型作為車險風險預測算法,其隨機誤差項可以不必服從正態分布,可以服從二項、泊松、負二項、正態、伽馬、逆高斯等指數分布族,可以適用車險風險預測中的一些數據為非正態分布的人屬性特征信息,可以有效預測車險用戶的車險風險。在廣義線性模型中,引入了聯接函數g(·)。因變量和自變量可以通過聯接函數產生影響,即y=g(xβ),聯接函數滿足單調,可導。常用的聯接函數有恒等(y=xβ),對數
本說明書具體的一個使用廣義線性模型對目標進行建模的示例中,可以以賠付率為目標進行建模,在此可以假設賠付率服從tweedie(特維迪)分布。在例如預測純風險保費或者賠付率時,通常可以使用tweedie分布。這個分布可以理解為是泊松分布和gamma(伽馬)分布的結合體。大多數情況下,車險保單并不會發生理賠,因此,本實施例可以基于該情況選取tweedie分布,它的特點之一是在這個分布下大多數時候取值為0,與本實施車險保險的數據特征相符,可以使用在車險風險預測中,有效實現基于人屬性特征信息的車險風險預測。
本說明書提供的一個或多個其他實施例中,可以使用梯度提升決策樹(gradientboostingdecisiontree,gbdt)對目標進行建模,構建生成車險風險的預測模型。所述的梯度提升決策樹是每一次建立模型是在之前建立模型損失函數的梯度下降方向。損失函數(lossfunction)描述的是模型的不靠譜程度,損失函數越大,則說明模型越容易出錯。在gbdt中,可以讓損失函數在其梯度的方向上持續的下降,使模型在不停的改進。通常假設模型能夠用下面的函數來表示:p表示參數,可能有多個參數組成,p={p0,p1,p2….},f(x;p)表示以p為參數的x的函數,即預測函數。gbdt的模型是由多個模型加起來構建生成的。具體的可以根據業務需求使用相應的預測函數構建一種或多個gbdt車險風險預測算法(或稱為車險風險預測模型,如上所述,在此可以將模型視為算法的一種表現形式,統一稱為車險風險預測算法)。
本說明書提供的一個實施例中,所述車險風險預測算法可以包括采用下述方式構建生成的預測模型:
s30:采集預設類型的人屬性特征樣本;
s32:使用梯度提升決策樹對選取的建模目標進行建模,確定車險風險預測模型,所述的建模目標包括實際建模目標值與預測建模目標值的差值,以及使用伽馬回歸的目標函數作為建模時的目標函數,所述實際建模目標值與預測建模目標值基于所述屬性特征樣本計算得到。
圖4是本說明書提供的所述方法中另一種構建預測模型的實施方法流程示意圖。所述的建模目標可以包括車險風險預測使用的某一參量,通常的選取可以直觀反映車險用戶車險風險高低的信息,例如賠付率。本說明書一個或多個實施例中,所述建模目標可以包括下述中的至少一種:
所述車險用戶的賠付率、出險頻率、出險金額。
具體的一個示例中,可以擬合實際賠付率和利用保單數據計算的預測賠付率之間的差值。可以利用車險用戶的保單數據計算得到相應用戶的實際賠付率和預測出來的賠付率。假設y_i是保單i的實際賠付率,
其他的實施方式中,在使用gbdt建模時可以以目標的實際和預測的商值作為建模目標來構建函數。具體的一個實施例中,所述車險風險預測算法可以包括采用下述方式構建生成的預測模型:
s40:采集預設類型的人屬性特征樣本;
s42:使用梯度提升決策樹對選取的建模目標進行建模,確定車險風險預測模型,所述的建模目標包括實際建模目標值與預測建模目標值的商值,以及使用特維迪回歸的目標函數作為建模時的目標函數,所述實際建模目標值與預測建模目標值基于所述屬性特征樣本計算得到。
圖5是本說明書提供的所述方法中另一種構建預測模型的實施方法流程示意圖。具體的一個示例中,擬合實際賠付率和利用保單數據計算的預測賠付率之間的商值。假設y_i是保單i的實際賠付率,
進一步的,對于上述提到的變量數據,還可以進行特征處理。處理后的變量數據可以作為新的變量數據輸入到前述中提到的例如廣義線性模型的車險風險預測算法中。例如,使用上述擬合實際賠付率和利用保單數據計算的預測賠付率之間的商值作為建模目標的gbdt預測模型中,可以使用該模型作為車險風險預測模型,輸出車險用戶賠付率的車險風險預測結果。也可以將該結果作為對前述所述采集/獲取人屬性特征變量信息或樣本數據的進一步挖掘、整理后的變量數據,該變量數據可以作為新的人屬性特征信息輸入到車險風險預測模型中。另外,如果上述得到的新的變量數據是離散變量,在輸入模型之前可以先使用one-hot編碼的方式進行離散化。具體來說主要包括對于有n個不同值的離散變量,轉化為n個取值為{0,1}的變量,分別表示原變量是否取某個值。對于連續型特征的變量數據,可以直接作為模型輸入。
本說明書提供的所述方法的另一個實施例,可以使用深度神經網絡對目標進行建模。所述車險風險預測算法包括采用下述方式構建生成:
s50:采集預設類型的人屬性特征樣本;
s52:將所述人屬性特征樣本在對應的特征類型中劃分成不同取值區間的特征樣本;
s54:根據設置的n個特征類型抽取所述特征樣本的特征數據,生成n維的離散型特征向量;
s56:按照預設方式將所述特征樣本的單個所述離散型特征向量映射成m維的連續型特征向量;
s58:將所述n維的離散型特征對應的連續型特征向量拼接后形成(n*m)維的連續型特征向量x,以所述連續型特征向量x作為選取的深度神經網絡的輸入,構建生成車險風險預測模型。
圖6是本說明書提供的所述方法中另一種構建預測模型的實施方法流程示意圖。本實施例中,可以深度神經網絡模型構建車險風險預測模型。具體的一個示例的處理過程可以包括:
可以將采集獲取的人屬性特征樣本分成k個bins(儲藏箱),如bin_性別男,bin_性別女,bin_平均急加速次數在1到5之間,bin_平均急加速次數在6到10之間,bin_平均急加速次數大于10等。對于人屬性特征樣本,在n個維度(例如,性別,急加速頻率,……)上抽取bin特征,形成樣本對應的一個n維的離散型的特征向量[bin#1,…,bin#n]。
可以將bin映射到一個m維的連續型特征向量(vector)。這個映射過程可以是神經網絡訓練的時候學習出來的,即在訓練前先對連續型vector進行隨機初始化,訓練完神經網絡后,連續型vector也就學習出來了。
然后可以將n個bin對應的m維的連續型特征向量拼接在一起,形成一個n×m維連續型的特征向量x,作為深度神經網絡的輸入。其中拼接的處理包括連續型vector(即每個離散型變量可以映射成m維連續型vector,n個離散型變量可以產生n個m維連續型vector,拼接成一個n*m維向量)。深度神經網絡具體的網絡層結構可以根據業務場景或所構建的模型需求進行設置。在一些實施例中,深度神經網絡輸出層可以輸出一個分數,可以表示某個車險用戶的純風險保費或賠付率,也可以表示相對于傳統glm模型定義賠付率的比值或差值。深度神經網絡模型的訓練中,模型的參數可以采用隨機初始化,如在均勻分布u[a,b]中隨機采樣。訓練的目標函數可以采用最小化均方誤差,利用隨機梯度下降(stochasticgradientdescent)方法來優化。
上述實施例描述了可以采取多種車險風險預測算法來構建車險風險預測模型的實施方式,可以達到更精準描繪客戶風險,幫助保險行業細分管理風險、降低成本、提高效率,更好地為車險消費者服務。
其他的實施例中,在構建所述車險風險預測算法時產生至少兩個的候選車險風險預測算法,例如使用不同構建目標的多個廣義關系線性模型、一個或多個廣義線性模型和基于梯度提升決策樹算法的預測模型,或者包括基于所述深度神經網絡的多個車險風險預測模型中時,可以使用一些統計量來評測多個車險風險預測模型,選出適合當前業務場景的模型。因此,本說明書提供的一個或多個實施例中,所述方法還可以包括:
s30:計算預定類型的統計指標,所述統計指標包括在所述人屬性特征信息作為所述候選車險風險預測算法的自變量時,用于表示對所述候選車險風險預測算法輸出結果影響程度的統計量;
s32:通過所述統計指標的比較處理,從所述候選車險風險算法中選出使用的車險風險預測算法。
這些統計指標具體的可以包括多種類型的統計量,如偏差(deviance)、對數似然函數、aic、bic、卡方、p值等統計量。這些統計量可以通過都固定或變形/變換后的公式計算得到。在具體的一個示例中,可以整理處理過的變量字段逐輸入模型,并通過偏差(deviance)、對數似然函數、aic和bic等統計量對變量和模型的顯著性進行檢驗和比較。這些統計指標中一些可以用來判定一個因子或者一個模型是否顯著的。在本實施例中的實施場景中,可以存在多個車險風險預測模型,可以包括上述一個或多個實施例中所述的車險風險預測模型。通過一些統計指標,或者再結合作業人員的分析結果,可以候選的多個車險風險預測模型中選出一個適合業務場景的模型。
本實施例可以基于一個或多個預定類型的統計指標,對產生的多個候選車險預測算法進行驗證、比較等,可以從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著,例如一些模型對信用數據顯著性高,信用的好壞對模型輸出車險用戶的車險風險結果影響較大,而另一些模型則對車險用戶的信用數據不敏感。基于此可以選出合適的車險風險預測模型,進而使得車險風險預測結果更加準確。
本說明書中的各個實施例均采用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。
上述對本說明書特定實施例進行了描述。其它實施例在所附權利要求書的范圍內。在一些情況下,在權利要求書中記載的動作或步驟可以按照不同于實施例中的順序來執行并且仍然可以實現期望的結果。另外,在附圖中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中,多任務處理和并行處理也是可以的或者可能是有利的。
本說明書實施例提供的一種車險風險預測方法,可以利用預先采集整理的人屬性特征信息建立車險風險預測算法,利用預先構建的車險風險預測算對被預測的車險用戶的人屬性特征信息進行處理,從自然人的角度預測車險用戶對車輛風險的影響。在實際車輛使用中,人的因素影響對車輛是否出險以及出險的具體賠付金額等車險業務影響通常較大,而本說明書實施例提供的實施方案,使用人的屬性特征信息進行車輛風險預測,提供更加準確、可靠的車險風險評估依據,可以有效提高車險風險評估的準確性和可靠性。
基于上述所述的車險風險預測方法,本說明書還提供一種車險風險預測裝置。所述的裝置可以包括使用了本說明書一個或多個實施例所述方法的系統(包括分布式系統)、軟件(應用)、模塊、組件、服務器、客戶端、量子計算機等并結合必要的實施硬件的裝置。基于同一創新構思,本說明書一個或多個實施例提供的一種實施例中的裝置如下面的實施例所述。由于裝置解決問題的實現方案與方法相似,因此本說明書一個或多個具體的裝置的實施可以參見前述方法的實施,重復之處不再贅述。以下所使用的,術語“單元”或者“模塊”可以實現預定功能的軟件和/或硬件的組合。盡管以下實施例所描述的裝置較佳地以軟件來實現,但是硬件,或者軟件和硬件的組合的實現也是可能并被構想的。具體的,圖7是本說明書提供的一種車險風險預測裝置實施例的模塊結構示意圖,如圖7所示,所述裝置可以包括:
人屬性特征獲取模塊101,可以用于獲取車險用戶的人屬性特征信息,所述人屬性特征信息包括自然人的自然屬性信息、社會屬性信息、行為數據中的至少一種信息數據;
風險預測模塊102,可以用于利用預先構建的車險風險預測算法對所述人屬性特征信息進行處理,得到所述車險用戶的車險風險預測結果。
本說明書提供所述裝置的其他實施例中,所述風險預測模塊102可以包括:
樣本獲取單元,可以用于采集預設類型的人屬性特征樣本;
第一模型構建單元,可以用于確定使用的廣義線性模型以及所述廣義線性模型的建模目標;以及,用于以包括所述人屬性特征樣本的數據作為廣義線性模型的輸入,對所述建模目標進行建模,確定車險風險預測模型,所述車險風險預測模型包括至少一項表示車險用戶的車險風險高低的輸出結果。
本說明書提供所述裝置的其他實施例中,所述風險預測模塊102可以包括:
樣本獲取單元,可以用于采集預設類型的人屬性特征樣本;
第二模型構建單元,可以用于使用梯度提升決策樹對選取的建模目標進行建模,確定車險風險預測模型,所述的建模目標包括實際建模目標值與預測建模目標值的差值,以及使用伽馬回歸的目標函數作為建模時的目標函數,所述實際建模目標值與預測建模目標值基于所述屬性特征樣本計算得到。
本說明書提供所述裝置的其他實施例中,所述風險預測模塊102可以包括:
樣本獲取單元,可以用于采集預設類型的人屬性特征樣本;
第三模型構建單元,可以用于使用梯度提升決策樹對選取的建模目標進行建模,確定車險風險預測模型,所述的建模目標包括實際建模目標值與預測建模目標值的商值,以及使用特維迪回歸的目標函數作為建模時的目標函數,所述實際建模目標值與預測建模目標值基于所述屬性特征樣本計算得到。
本說明書提供所述裝置的其他實施例中,所述風險預測模塊102可以包括:
樣本獲取單元,可以用于采集預設類型的人屬性特征樣本;
樣本劃分單元,可以用于將所述人屬性特征樣本在對應的特征類型中劃分成不同取值區間的特征樣本;
離散向量單元,可以用于根據設置的n個特征類型抽取所述特征樣本的特征數據,生成n維的離散型特征向量;
連續向量單元,可以用于按照預設方式將所述特征樣本的單個所述離散型特征向量映射成m維的連續型特征向量;
第四模型構建單元,可以用于將所述n維的離散型特征對應的連續型特征向量拼接后形成(n*m)維的連續型特征向量x,以所述連續型特征向量x作為選取的深度神經網絡的輸入,構建生成車險風險預測模型,n≥1,m≥1。
如前述方法實施例所述,上述所述裝置中的建模目標可以包括下述中的至少一種:
所述車險用戶的賠付率、出險頻率、出險金額。
以及,所述裝置的其他實施例中,所述預設類型的人屬性特征樣本可以包括下述中至少一個類型的變量數據:
駕駛習慣、職業特性、身份特質、信用歷史、消費習慣、穩定性。
圖8是本說明書提供的另一種車險風險預測裝置實施例的模塊結構示意圖,如圖8所示,所述裝置還可以包括:
變量整理模塊100,可以用于在獲取所述人屬性特征信息的變量數據之后,對所述變量數據進行整理處理,所述變量整理模塊100執行包括下述中的至少一項處理操作:
設置所述變量數據的權重;
對所述變量數據中的殘缺值進行補充;
確定屬于重復變量數據的數據使用選擇方式;
所述變量數據之間的交互效應處理;
基于所述變量數據生成新的變量數據;
相應的,所述風險預測模塊102利用預先構建的車險風險預測算法對所述人屬性特征信息進行處理包括利用預先構建的車險風險預測算法對包括所述整理處理后的變量數據進行處理。
圖9是本說明書提供的另一種車險風險預測裝置實施例的模塊結構示意圖,如圖9所示,所述裝置還可以包括:
指標計算模塊103,可以用于在構建所述車險風險預測算法時產生至少兩個的候選車險風險預測算法,計算預定類型的統計指標,所述統計指標包括在所述人屬性特征信息作為所述候選車險風險預測算法的自變量時,用于表示對所述候選車險風險預測算法輸出結果影響程度的統計量;
算法選取模塊104,可以用于對所述統計指標進行比較處理,從所述候選車險風險算法中選出使用的車險風險預測算法。
本說明書一個或多個提供的車險風險預測方法可以在計算機中由處理器執行相應的程序指令來實現,如使用windows操作系統的c++語言在pc端實現,或其他例如linux、android、ios系統相應應用設計語言的實現等,以及基于量子計算機的處理邏輯實現等。具體的,本說明書一個或多個提供的一種車險風險預測裝置的一種實施例中,所述裝置可以包括處理器以及用于存儲處理器可執行指令的存儲器,所述處理器執行所述指令時實現:
獲取車險用戶的人屬性特征信息,所述人屬性特征信息包括自然人的自然屬性信息、社會屬性信息、行為數據中的至少一種信息數據;
利用預先構建的車險風險預測算法對所述人屬性特征信息進行處理,得到所述車險用戶的車險風險預測結果。
需要說明的是本說明書所述的裝置根據相關方法實施例的描述還可以包括其他的實施方式。本說明書中的各個實施例均采用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于硬件+程序類實施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
上述對本說明書特定實施例進行了描述。其它實施例在所附權利要求書的范圍內。在一些情況下,在權利要求書中記載的動作或步驟可以按照不同于實施例中的順序來執行并且仍然可以實現期望的結果。另外,在附圖中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中,多任務處理和并行處理也是可以的或者可能是有利的。
本說明書實施例提供的一種車險風險預測裝置,可以利用預先采集整理的人屬性特征信息建立車險風險預測算法,利用預先構建的車險風險預測算對被預測的車險用戶的人屬性特征信息進行處理,從自然人的角度預測車險用戶對車輛風險的影響。在實際車輛使用中,人的因素影響對車輛是否出險以及出險的具體賠付金額等車險業務影響通常較大,而本說明書實施例提供的實施方案,使用人的屬性特征信息進行車輛風險預測,提供更加準確、可靠的車險風險評估依據,可以有效提高車險風險評估的準確性和可靠性。
上述所述的裝置或方法可以用于多個業務系統的車險風險預測服務器中,如保險公司業務系統的服務器或為保險公司提供車險用戶的車險風險評估分值的服務方的服務器。所述的服務器可以包括使用了本說明書的一個或多個所述方法或一個或多個實施例裝置的單個服務器、服務器集群、系統(包括分布式系統)、軟件(應用)、邏輯門電路裝置、量子計算機等并結合必要的實施硬件的終端裝置。圖10是本說明書提供的服務器一種實施例的結構示意圖。具體的,本說明書一個或多個提供一種服務器,可以包括至少一個處理器以及用于存儲處理器可執行指令的存儲器,所述處理器執行所述指令時實現上述任意一個方法實施例所述的數據處理步驟。
本說明書實施例提供的一種車險風險預測方法、裝置及服務器,可以利用預先采集整理的人屬性特征信息建立車險風險預測算法,利用預先構建的車險風險預測算對被預測的車險用戶的人屬性特征信息進行處理,從自然人的角度預測車險用戶對車輛風險的影響。在實際車輛使用中,人的因素影響對車輛是否出險以及出險的具體賠付金額等車險業務影響通常較大,而本說明書實施例提供的實施方案,使用人的屬性特征信息進行車輛風險預測,提供更加準確、可靠的車險風險評估依據,可以有效提高車險風險評估的準確性和可靠性。
盡管本說明書一個或多個內容中提到人屬性特征信息/樣本的類型、變量數據的各自挖掘整理處理方式、廣義線性模型以及gbdt構建目標函數的方式、以賠付率作為構建目標的實施方式等的數據設置、獲取、交互、計算、判斷等描述,但是,本說明書一個或多個并不局限于必須是符合行業通信標準、標準區塊鏈數據存儲、計算機處理和存儲規則或本說明書一個或多個實施例所描述的情況。某些行業標準或者使用自定義方式或實施例描述的實施基礎上略加修改后的實施方案也可以實現上述實施例相同、等同或相近、或變形后可預料的實施效果。應用這些修改或變形后的數據獲取、存儲、判斷、處理方式等獲取的實施例,仍然可以屬于本說明書一個或多個的可選實施方案范圍之內。
在20世紀90年代,對于一個技術的改進可以很明顯地區分是硬件上的改進(例如,對二極管、晶體管、開關等電路結構的改進)還是軟件上的改進(對于方法流程的改進)。然而,隨著技術的發展,當今的很多方法流程的改進已經可以視為硬件電路結構的直接改進。設計人員幾乎都通過將改進的方法流程編程到硬件電路中來得到相應的硬件電路結構。因此,不能說一個方法流程的改進就不能用硬件實體模塊來實現。例如,可編程邏輯器件(programmablelogicdevice,pld)(例如現場可編程門陣列(fieldprogrammablegatearray,fpga))就是這樣一種集成電路,其邏輯功能由用戶對器件編程來確定。由設計人員自行編程來把一個數字系統“集成”在一片pld上,而不需要請芯片制造廠商來設計和制作專用的集成電路芯片。而且,如今,取代手工地制作集成電路芯片,這種編程也多半改用“邏輯編譯器(logiccompiler)”軟件來實現,它與程序開發撰寫時所用的軟件編譯器相類似,而要編譯之前的原始代碼也得用特定的編程語言來撰寫,此稱之為硬件描述語言(hardwaredescriptionlanguage,hdl),而hdl也并非僅有一種,而是有許多種,如abel(advancedbooleanexpressionlanguage)、ahdl(alterahardwaredescriptionlanguage)、confluence、cupl(cornelluniversityprogramminglanguage)、hdcal、jhdl(javahardwaredescriptionlanguage)、lava、lola、myhdl、palasm、rhdl(rubyhardwaredescriptionlanguage)等,目前最普遍使用的是vhdl(very-high-speedintegratedcircuithardwaredescriptionlanguage)與verilog。本領域技術人員也應該清楚,只需要將方法流程用上述幾種硬件描述語言稍作邏輯編程并編程到集成電路中,就可以很容易得到實現該邏輯方法流程的硬件電路。
控制器可以按任何適當的方式實現,例如,控制器可以采取例如微處理器或處理器以及存儲可由該(微)處理器執行的計算機可讀程序代碼(例如軟件或固件)的計算機可讀介質、邏輯門、開關、專用集成電路(applicationspecificintegratedcircuit,asic)、可編程邏輯控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:arc625d、atmelat91sam、microchippic18f26k20以及siliconelabsc8051f320,存儲器控制器還可以被實現為存儲器的控制邏輯的一部分。本領域技術人員也知道,除了以純計算機可讀程序代碼方式實現控制器以外,完全可以通過將方法步驟進行邏輯編程來使得控制器以邏輯門、開關、專用集成電路、可編程邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬件部件,而對其內包括的用于實現各種功能的裝置也可以視為硬件部件內的結構。或者甚至,可以將用于實現各種功能的裝置視為既可以是實現方法的軟件模塊又可以是硬件部件內的結構。
上述實施例闡明的系統、裝置、模塊或單元,具體可以由計算機芯片或實體實現,或者由具有某種功能的產品來實現。一種典型的實現設備為計算機。具體的,計算機例如可以為個人計算機、膝上型計算機、車載人機交互設備、蜂窩電話、相機電話、智能電話、個人數字助理、媒體播放器、導航設備、電子郵件設備、游戲控制臺、平板計算機、可穿戴設備或者這些設備中的任何設備的組合。
雖然本說明書一個或多個提供了如實施例或流程圖所述的方法操作步驟,但基于常規或者無創造性的手段可以包括更多或者更少的操作步驟。實施例中列舉的步驟順序僅僅為眾多步驟執行順序中的一種方式,不代表唯一的執行順序。在實際中的裝置或終端產品執行時,可以按照實施例或者附圖所示的方法順序執行或者并行執行(例如并行處理器或者多線程處理的環境,甚至為分布式數據處理環境)。術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、產品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、產品或者設備所固有的要素。在沒有更多限制的情況下,并不排除在包括所述要素的過程、方法、產品或者設備中還存在另外的相同或等同要素。
為了描述的方便,描述以上裝置時以功能分為各種模塊分別描述。當然,在實施本說明書一個或多個時可以把各模塊的功能在同一個或多個軟件和/或硬件中實現,也可以將實現同一功能的模塊由多個子模塊或子單元的組合實現等。以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統,或一些特征可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。
本領域技術人員也知道,除了以純計算機可讀程序代碼方式實現控制器以外,完全可以通過將方法步驟進行邏輯編程來使得控制器以邏輯門、開關、專用集成電路、可編程邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬件部件,而對其內部包括的用于實現各種功能的裝置也可以視為硬件部件內的結構。或者甚至,可以將用于實現各種功能的裝置視為既可以是實現方法的軟件模塊又可以是硬件部件內的結構。
本發明是參照根據本發明實施例的方法、設備(系統)、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執行的指令產生用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數據處理設備上,使得在計算機或其他可編程設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程設備上執行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
在一個典型的配置中,計算設備包括一個或多個處理器(cpu)、輸入/輸出接口、網絡接口和內存。
內存可能包括計算機可讀介質中的非永久性存儲器,隨機存取存儲器(ram)和/或非易失性內存等形式,如只讀存儲器(rom)或閃存(flashram)。內存是計算機可讀介質的示例。
計算機可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現信息存儲。信息可以是計算機可讀指令、數據結構、程序的模塊或其他數據。計算機的存儲介質的例子包括,但不限于相變內存(pram)、靜態隨機存取存儲器(sram)、動態隨機存取存儲器(dram)、其他類型的隨機存取存儲器(ram)、只讀存儲器(rom)、電可擦除可編程只讀存儲器(eeprom)、快閃記憶體或其他內存技術、只讀光盤只讀存儲器(cd-rom)、數字多功能光盤(dvd)或其他光學存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設備或任何其他非傳輸介質,可用于存儲可以被計算設備訪問的信息。按照本文中的界定,計算機可讀介質不包括暫存電腦可讀媒體(transitorymedia),如調制的數據信號和載波。
本領域技術人員應明白,本說明書一個或多個的實施例可提供為方法、系統或計算機程序產品。因此,本說明書一個或多個可采用完全硬件實施例、完全軟件實施例或結合軟件和硬件方面的實施例的形式。而且,本說明書一個或多個可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、cd-rom、光學存儲器等)上實施的計算機程序產品的形式。
本說明書一個或多個可以在由計算機執行的計算機可執行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執行特定任務或實現特定抽象數據類型的例程、程序、對象、組件、數據結構等等。也可以在分布式計算環境中實踐本說明書一個或多個,在這些分布式計算環境中,由通過通信網絡而被連接的遠程處理設備來執行任務。在分布式計算環境中,程序模塊可以位于包括存儲設備在內的本地和遠程計算機存儲介質中。
本說明書中的各個實施例均采用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于系統實施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。在本說明書的描述中,參考術語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結合該實施例或示例描述的具體特征、結構、材料或者特點包含于本說明書至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不必須針對的是相同的實施例或示例。而且,描述的具體特征、結構、材料或者特點可以在任一個或多個實施例或示例中以合適的方式結合。此外,在不相互矛盾的情況下,本領域的技術人員可以將本說明書中描述的不同實施例或示例以及不同實施例或示例的特征進行結合和組合。
以上所述僅為本說明書一個或多個的實施例而已,并不用于限制本說明書一個或多個。對于本領域技術人員來說,本說明書一個或多個可以有各種更改和變化。凡在本說明書一個或多個的精神和原理之內所作的任何修改、等同替換、改進等,均應包含在本說明書一個或多個的權利要求范圍之內。