麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于大數據挖掘的醫保反欺詐系統的制作方法

文檔序號:11230664閱讀:1307來源:國知局
一種基于大數據挖掘的醫保反欺詐系統的制造方法與工藝

本發明涉及大數據分析處理技術技術領域,具體涉及一種基于大數據挖掘的醫保反欺詐系統。



背景技術:

人社部公布的《2014年度人力資源和社會保障事業發展統計公報》顯示,2014年全年城鎮基本醫療保險基金總收入9687億元,支出8134億元,分別比上年增長17.4%和19.6%,盡管收仍然大于支,但收入增幅明顯低于支出增幅,且很多地區的城鎮職工醫保資金出現收不抵支的情況,醫保資金已不堪重負,而且現在各項醫療保險基金支出增長率均超過收入增長率。導致醫保資金緊張局面的原因除了人口基數龐大和人口老齡化外,通過各種手段騙取醫保資金造成的浪費尤為重要,據初步統計,醫保欺詐造成的資金浪費占總醫保資金支出的5%~10%左右。這些欺詐手段包括:掛床住院;病人和醫生合謀偽造資料,倒賣高利潤藥品;使用醫保卡套取現金、有價證券或購買日用品、食品;偽造、變造診斷證明、病歷、處方等證明材料或虛假醫療票據、收費明細騙取基本醫保基金支出等。

為監管醫保資金支出,各地政府建立了醫保反欺詐系統,這些系統主要是由熟知醫保業務知識并有反欺詐偵測經驗的專家建立的一系列規則庫,這類系統稱為基于商業規則的專家系統。這類反欺詐系統的規則一般較為簡單,比如普通感冒病人的醫保報銷費用顯著超過當地感冒治療的平均費用時,認為是欺詐。此類醫保反欺詐系統存在以下的缺限:只對已知的欺詐策略起作用,無法自動發現新的欺詐策略;難于維護和更新,當新政策出臺時,必須手動更新規則庫;新的欺詐策略很容易繞過內部定義的規則;受限于專家的知識水平,通常無法識別如醫生和病人合謀欺詐的等場景。



技術實現要素:

本發明的目的在于克服現有技術的不足,提供一種基于大數據的醫保反欺詐系統,解決了基于商業規則的醫保反欺詐系統過度依賴專家知識水平和新的醫保政策和新的欺詐策略對已有系統造成沖擊的問題。

本發明的目的是通過以下技術方案來實現的:一種基于大數據挖掘的醫保欺詐系統,它包括以下子系統:數據抽取、轉換、加載子系統(etl)、大數據存儲子系統、數據挖掘子系統、規則庫和知識庫子系統、實時流計算子系統和可視化子系統,所述數據抽取、轉換、加載子系統(etl)與大數據存儲子系統連接,大數據存儲子系統與數據挖掘子系統連接,數據挖掘子系統與規則庫和知識庫子系統連接,規則庫和知識庫子系統與實時流子系統連接,大數據存儲子系統、規則庫和知識庫子系統以及實時流計算子系統再分別與可視化子系統連接。

數據抽取、轉換、加載子系統(etl)從系統外部數據庫抽取、轉換所需要的數據,并將處理后的數據加載到大數據存儲子系統中;所述外部數據庫包括關系型數據庫、非關系型數據庫和日志文件。

大數據存儲子系統用于存儲經過數據抽取、轉換、加載子系統(etl)處理后的數據,存儲數據類型包括結構化、非結構化以及半結構化數據;所用存儲方式包括分布式關系型方式、非關系型數據庫方式和分布式文件系統方式。

數據挖掘子系統包括分類、聚類、關聯規則和社交網絡圖分析模塊;其挖掘所需要的數據來自上述大數據存儲子系統、規則庫和知識庫子系統,對存儲在大數據存儲子系統和規則庫和知識庫子系統中的數據運用預測、聚類、社交網絡圖分析等技術進行挖掘,形成模型、規則或知識,挖掘出的規則、模型和知識存儲到規則庫和知識庫子系統;數據挖掘子系統還包括調度更新規則、模型和知識的功能。

規則庫用于存儲數據挖掘子系統挖掘的模型、規則或知識,并向數據挖掘子系統提供已有的規則或知識,其存儲方式包括單機或分布式;知識庫子系統用于存儲數據挖掘子系統挖掘的模型、規則或知識,并向數據挖掘子系統提供已有的規則或知識,其存儲方式包括單機或分布式,存儲技術包括關系或非關系型數據庫和文件存儲系統。

實時流計算子系統運用規則庫和知識庫子系統中的規則或知識對新的醫保報銷數據進打標,標記為正常或欺詐,實時流計算子系統輸入的數據包括上述存儲在規則庫和知識庫子系統中的規則、模型或知識和外部業務系統新的報銷數據;與外部業務系統的數據傳輸接口包括:消息隊列接口和websocket接口;單獨采用storm框架、單獨采用spark框架和storm框架、spark框架兩者均采用。

實時流計算子系統中帶有標記結果的報銷數據有三個流向:實時返回給醫保業務系統,醫保業務系統可根據標記結果進行相關處理,比如拒絕支付醫保資金等;存儲到大數據存儲系統中作為歷史數據供數據挖掘子系統使用;標記為欺詐的報銷記錄將在可視化子系統中的欺詐記分板上顯示。

可視化子系統用于對系統數據進行可視化顯示,可視化顯示的數據來源于大數據存儲子系統、規則庫和知識庫子系統和實時流計算子系統,可視化展示的方式包括各類圖、表,顯示的硬件設備為外部顯示設備;所述可視化子系統包括顯示經實時流計算子系統打標的欺詐報銷記錄的欺詐記分板,還包括對可視化顯示的數據項上探、下鉆的交互功能。

可視化子系統對大數據存儲子系統中歷史進行簡單的統計分析并用圖或表的形式進行顯示;對規則庫和知識庫按表或圖的形式進行顯示;對實時流計算子系統打標為欺詐的醫保報銷記錄進行可視化顯示。

欺詐記分板使用但不限于紅色、粗體的醒目方式顯示欺詐報銷記錄,還可以將欺詐報銷記錄相關信息以短信和語音的方式推送到外部終端。

存儲庫包括關系數據庫、非關系型數據庫和文件存儲系統。

本發明的有益效果是:

1)本發明是基于大數據挖掘技術的醫保反欺詐偵測系統,解決了傳統基于商業規則的專家系統中高于依賴于專家知識水平的限制,通過數據挖掘建立的規則較專家建立的規則更客觀;

2)本發明基于數據挖掘的技術解決了傳統基于商業規則的專家系統難以適應業務場景變化的情況,比如新的醫保政策、新的欺詐策略和場景,解決了基于商業規則的專家系統面對變化需要手動更新規則庫導致在規則更新之前系統處于無效狀態的難題,由于近實時的模型學習和更新使這系統能對各種變化近實時地作出反映;

3)本發明從包括醫保報銷數據、醫院門診、住院數據、病人電子病歷、藥店銷售數據等多維大數據中運用機器學習、神經網絡、社交網絡分析等數據挖掘技術挖掘出專家們難以發現的模型或知識,使用系統能識別出更復雜、更隱蔽的欺詐手段;

4)本發明解決了基于商業規則的專家系統將規則建立和規則更新與整個反欺詐系統分離的難題,基于數據挖掘的技術可以自動建立和更新規則庫,無需外部的干擾。

附圖說明

圖1為本發明系統架構圖;

圖2為本發明系統數據流向圖。

具體實施方式

下面結合具體實施例進一步詳細描述本發明的技術方案,但本發明的保護范圍不局限于以下所述。如圖1所示,一種基于大數據挖掘的醫保反欺詐系統,它包括以下子系統:

1.數據抽取、轉換、加載(etl)子系統

etl子系統的主要作用是從系統外部的數據庫(包括各種存儲業務數據的關系型數據庫、文檔型、鍵值型、圖型等nosql數據庫)或文件(如記錄用戶訪問ip地址等信息的系統或業務日志文件)中抽取所需要的數據,并對數據進行必要的清洗和轉換,再存儲到到大數據存儲系統中。

抽取的方法包括但不限于以下技術:

1)從同一數據庫的多個表中合并數據

2)從多個同類型的數據庫的不同表、集合中合并數據

3)從多個不同類型的數據庫合并數據

4)從非結構化或半結構化數據中抽取結構化數據

5)從原記錄或文檔中抽取所用字段或屬性的子集

清洗和轉換的方法包括但不限于以下技術:

1)去除重復的記錄

2)刪除缺失具有重要意義的字段或屬性的記錄

3)去除不同字段名或屬性名但含義相同的字段或屬性

4)轉換字段或屬性的類型,如將日期類型轉換成utc整型

5)將連續的數值類型轉換為離散型,如將百分制成績轉換為等級

etl系統的組成包括但不限于以下技術:

1)flume

2)kafka

3)sqoop

2.大數據存儲模塊

用于存儲經過etl子系統處理后的數據。

大數據存儲系統包括但不限于以下分布式存儲技術:

1)hdfs

2)hive

3)hbase

4)elasticsearch

5)cassandra

3.數據挖掘子系統

對存儲在大數據存儲子系統和規則庫和知識庫子系統中的數據運用預測、聚類、社交網絡圖分析等技術進行挖掘,形成模型、規則或知識,并將挖掘得到的模型、規則或知識存儲或更新到規則庫和知識庫子系統中。

數據挖掘子系統包括但不限于以于機器學習和數據挖掘算法及其變種:

1)經典決策樹

2)樸素貝葉斯

3)支持向量機

4)dbscan

5)kmeans

6)knn

7)fp-growth

8)各類神經網絡

4.規則庫和知識庫子系統

用于存儲數據挖掘子系統挖掘的模型、規則或知識,并向數據挖掘子系統提供已有的規則或知識。

規則和知識庫包括但不限于以下技術:

1)關系型數據庫

2)hdfs

3)hive

4)hbase

5)elasticsearch

6)pmml文件

7)其它規則和知識存儲格式

5.實時流計算子系統

主要運用規則庫和知識庫子系統中的規則或知識對新的醫保報銷數據進打標,標記為正常或欺詐。帶有標記結果的報銷數據有三個流向:實時返回給醫保業務系統,醫保業務系統可根據標記結果進行相關處理,比如拒絕支付醫保資金等;存儲到大數據存儲系統中作為歷史數據供數據挖掘子系統使用;標記為欺詐的報銷記錄將在可視化子系統中的欺詐記分板上顯示。

實時流計算子系統可以采用包含但不限于以下技術:

1)spark

2)storm

6.可視化子系統

主要對大數據存儲子系統中歷史進行簡單的統計分析并用圖或表的形式進行顯示;對規則庫和知識庫按表或圖的形式進行顯示;對實時流計算子系統打標為欺詐的醫保報銷記錄進行可視化顯示。

如圖2所示,反欺詐系統與業務數據流向為:通過基于大數據挖掘的醫保反欺詐系統處理后的打標的報銷記錄輸入到醫保報銷業務系統,醫保報銷業務系統將新報銷記錄傳輸給基于大數據挖掘的醫保反欺詐系統中處理。

實施例1

如圖1所示的基于大數據挖掘的醫保反欺詐系統,在實際構建系統時,etl子系統可以用flume和kafka組成,大數據存儲子系統可以選擇hbase,通過將kafka部署系統外部的各個業務數據庫服務器上,可以實時的抽取、轉換各個業務數據庫中的數據,并將處理后的數據存儲到hbase中供數據挖掘子系統使用。

在系統初始時,規則庫和知識庫的內容為空,可以將已有的基于商業規則的專家系統中的規則庫導入到系統的規則庫中,數據挖掘子系統運用數據挖掘技術從存儲在大數據存儲子系統中的數據進行挖掘。針對大數據存儲子系統中的數據是否有標記為欺詐或正常的特征,可分為二種挖掘方法:

1)無帶是否欺詐特征的標記樣本

運用包括但不限于如kmeas聚類算法,對報銷的記錄進行聚類,少數類的記錄交由人工審計調查確定是否為欺詐,并將該標記字段追加到原數據中去,從而形成可以用于訓練預測模型的帶標記的樣本集;然后運用這些樣本訓練預測模型。

2)有帶是否欺詐特征的標記樣本

運用包括但不限于如決策樹算法,直接建立預測模型。

除了預測算法外,數據挖掘子系統可以運用社交網絡圖分析技術包括但不限于個性化pagerank等算法挖掘醫生與病人之間的社交關系,發現可疑欺詐團伙,為原來的樣本增加新的特征。

上面建立的預測模型若可以轉換成規則,則存儲或更新規則庫;若不能,則直接將模型以包含但不限于pmml文件的形式存儲到知識庫中。

醫保報銷業務系統與基于大數據挖掘的醫保反欺詐系統之間可以用包括但不限于kafka等消息系統傳遞數據。當醫保反欺詐系統中的實時流計算子系統收到業務系統新的醫保報銷新數據后,實時流計算系統運用規則庫和知識庫對報銷記錄進行預測,并將預測后的報銷記錄實時返回給醫保業務系統(如附圖二所示),醫保業務系統根據預測結果做相應的處理,包括但不限于如:拒絕支付,補充資料,延遲支持等。實時流計算子系統將標記為欺詐的報銷記錄推送到可視化子系統中的欺詐記分板,欺詐記分板可以用包含但不限于如用紅色字體的列表顯示,審計人員可以對欺詐記分板上的報銷記錄進行更詳細的操作,包含但不限于如瀏覽該病人的歷史報銷記錄或統計信息,該報銷所涉及的醫生的歷史記錄或統計信息。同時,實時流計算子系統將處理的新報銷數據存儲到大數據存儲子系統中,并更新其它信息,包含但不限于如更新該記錄所涉及病人與醫生的相關統計信息等。

可視化子系統除上述的欺詐記分板功能外,還包括但不限于用圖表等形式顯示大數據存儲子系統中的歷史統計信息:

1)某一病人的歷史報銷的總金額、涉及的醫生人數、不同的醫院數等信息

2)某一醫生涉及的歷史報銷總金額、涉及的病人人數等信息

可視化子系統還可以展示規則庫和知識庫中的信息,包括但不限于

1)具體的規則

2)模型的相關信息

3)可疑的欺詐團伙社交網絡關系

基于大數據挖掘的醫保反欺詐系統內部有兩種方式更新規則、模型或知識:

1)周期性更新

數據挖掘子系統可以通過調度算法定期更新,該方法又包括兩種:

a、固定時間頻率,比如每天更新一次固定新增數據量,比如新增加的報銷數據達到1萬條時更新一次模型或規則;

b、實時更新。

基于大數據挖掘的醫保反欺詐系統各個子系統以及子系統之間的數據交互可以根據不同的軟硬件環境靈活的選擇不同的技術,如實時流計算子系統可以選擇storm,也可以選擇spark。

所屬領域的技術人員可以清楚地了解到,為了描述的方便和簡潔,上述描述的方法、系統和模塊的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。

本發明所揭露的方法、系統和模塊,可以通過其它的方式實現。例如,以上所描述的實施例僅是示意性的,例如,所述模塊的劃分,可以僅僅是一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個模塊或組件可以結合或者可以集成到另一個系統,或一些特征可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以說通過一些接口,系統或模塊的間接耦合或通信連接,可以是電性,機械或其它的形式。

所述分立部件說明的模塊可以是或者也可以不是物理上分開的,作為模塊顯示的部件可以是或者可以不是物理模塊,即可以位于一個地方,或者也可以分布到多個網絡模塊上。可以根據實際的需要選擇其中的部分或者全部模塊來實現本實施例的方案目的。

另外,在本發明各個實施例中的各功能子系統可以集成在一個系統中,也可以是各個子系統單獨物理存在,也可以兩個或兩個以上子系統集成在一個系統中。

以上所述僅是本發明的優選實施方式,應當理解本發明并非局限于本文所披露的形式,不應看作是對其他實施例的排除,而可用于各種其他組合、修改和環境,并能夠在本文所述構想范圍內,通過上述教導或相關領域的技術或知識進行改動。而本領域人員所進行的改動和變化不脫離本發明的精神和范圍,則都應在本發明所附權利要求的保護范圍內。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 安顺市| 汉源县| 永康市| 资阳市| 安达市| 赣榆县| 佛冈县| 涪陵区| 安吉县| 抚顺市| 湾仔区| 上虞市| 普兰县| 黔东| 威远县| 中江县| 宝兴县| 宁波市| 游戏| 潮安县| 太和县| 绥中县| 九寨沟县| 康平县| 阳曲县| 南投市| 龙陵县| 饶河县| 东丰县| 酒泉市| 万载县| 互助| 金乡县| 肃南| 区。| 遂昌县| 星座| 丹巴县| 乌拉特中旗| 广水市| 余干县|