一種層次化的互聯網輿情指標體系的方法及系統的制作方法
【專利摘要】本發明公開了一種層次化的互聯網輿情指標體系的方法及系統,該方法包括建立該指標體系的層次化架構,包括最上層的整體態勢指標、位于該整體態勢指標下層的中間層五大維度細分指標、位于該中間層五大維度細分指標下層的下層指標、位于最底層的底層基礎指標,其中該中間層五大維度細分指標包括通道指標、主題指標、行業指標、信息源指標、地域指標;設定指標的數值范圍,計算該指標體系中每層指標的指標數值,并使這些該指標數值落入該數值范圍內,且該指標數值越大,則指標代表的業務的受關注程度越高,其中根據基礎數據集合計算該底層基礎指標的該指標數值,該基礎數據集合包括互聯網信息要素集合、數據庫中數據字段集合。
【專利說明】一種層次化的互聯網輿情指標體系的方法及系統
【技術領域】
[0001] 本發明涉及互聯網信息態勢的評估分析,尤其是對互聯網輿情態勢的定量分析。
【背景技術】
[0002] 隨著互聯網的快速發展和全球化進程的加快,網民數目猛增,互聯網已成為信息 獲取和傳播的最重要的渠道,中國互聯網絡信息中心(CNN IC)的第32次互聯網發展狀況 統計報告指出,截至2013年6月底,我國網民規模達到5. 91億,較2012年底增加2656萬 人,互聯網普及率為44. 1 %,較2012年底提升2 %。互聯網成為人們獲取信息和傳遞信息 的主要載體,海量的各種類型的數據在網絡上形成一個極其豐富的信息源,網絡新聞媒體 已被公認為是繼報紙、廣播、電視之后的"第四媒體"。互聯網使用者們借助于互聯網新聞 信息的瀏覽、轉載和發表相關評論等手段來表達自己對于感興趣話題的強烈關注和個人見 解,對于普通網民來說,互聯網的娛樂、資訊、溝通功能尤為重要;對于企業,通過互聯網提 供企業及其產品信息,提高企業形象與網上電子商務的發展的功能值得重視;政府部門對 于電子政務尤其關注并快速推進電子政務的發展,通過網絡發布政策法規,了解社情民意, 更好地為大眾服務,提高政辦公效率。
[0003] 互聯網已經逐步滲透到人們工作、生活的方方面面,并對人們生活、企業發展和社 會進步產生了巨大影響,很好的體現了"以信息化帶動工業化,工業化促進信息化"的科學 發展思路,在社會政治、經濟、文化生活中發揮的作用日益增強,目前信息的采集與抽取技 術已比較成熟,能夠實時對網頁進行抓取,將半結構化網頁信息處理得到結構化的文本內 容,經過自然語言處理等技術,進一步對文本內容進行生層次處理(如話題發現與跟蹤)并 入庫,此時獲得的數據雖然已經具有了較好的特性,但是網絡信息龐雜多樣,既有大量進 步、健康、有益的信息,也有不少反動、迷信、黃色的內容,加之互聯網應用的虛擬性、隱蔽 性、發散性、滲透性和隨意性等特點,對用戶獲悉熱點、洞察整個互聯網的發展態勢帶來了 困難。
[0004] 互聯網輿情指標體系具有極其重要的研究意義:從理論上看,指標體系是由一系 列的指標組成的統一的整體,各指標是對復雜龐大網絡信息的數值化、定量化,不同的指標 之間相互關聯,從不同的方面反映互聯網信息態勢變化發展特征,是分析網絡事件發展趨 勢與網絡信息整體態勢的一種重要的統計方法;從實用性看,互聯網信息的海量特性使得 網絡信息難以歸類和人工整理,而用戶只關注熱點信息,通過指標體系的數值化特性,可以 方便的對自動抓取的信息進行評價,依靠指數能夠快速的定位熱點事件與信息資訊,并能 夠通過指數變化的規律,預測事件的未來發展趨勢;特別的,對于網絡媒體和社交網站等 來講,熱點信息、來源與用戶關注內容等推薦功能尤為重要,一個合理的指標體系可以有效 的挖掘出熱點事件、媒體,對互聯網發展態勢做出客觀的評價,同時很多網站也單獨提供輿 情指標展示頁面,大大的提高了用戶體驗,綜上所述,互聯網輿情指標體系不僅具有理論價 值,而且有著廣闊的應用前景,可以創造較大的社會和經濟效益。
[0005] 近年來,對于互聯網輿情的研究成為了一大熱點,但是對于輿情指標體的研究還 處于起步階段,一些網站如人民網、新華網和輿情公司提供互聯網輿情報告,報告中的輿情 指標(指數)部分很大一部分來自于專家意見總結,有些研究從某一個角度出發,如從主 題角度建立輿情指標體系,從輿情關鍵詞的研究入手,對關鍵詞進行分類,使用各關鍵詞類 綜合計算得到輿情指數;有些輿情指標的研究偏重于社會安全,也就是從政府輿情監測的 需求出發,輿情指標的計算過程中層次化的計算理念得到了很多研究者的應用,更多的研 究和產品是針對輿情系統的設計出發,包括信息的采集、處理、存儲技術等,雖然互聯網輿 情的研究取得了很大的進步,但是互聯網輿情指標體系的研究仍然沒有公認的較為全面系 統的成果。多數的研究只是簡單的從某一個角度提出一個或者多個指標,建立輿情指標體 系,對互聯網輿情的分析不夠全面,指數的意義在于定量化,但有些研究是在給定的數據 (語料)、網站或者某指定時間段內計算某指標,得到的指數值僅在當前的數據集中具體可 比性,缺乏一個統一的衡量標準,有意義的是指數的排序而非指數值,且多數互聯網信息態 勢評估指標報告是由人工整理實現的,還有一些研究是給出多個指標,這些指標多是針對 互聯網的某一方面如互聯網安全等,并且在指標值的取值范圍未作出明確的說明,偏重于 內容角度的處理,另外,一些研究是為了預測問題而簡單設計某一指標,并無實際的指數意 義,總體來講,目前的研究主要存在以下兩個問題:指標實際是相對指標非絕對指標,這類 指標僅在給定的數據集上才有意義,有意義的是指標的序而非數值,不同日期間的指標可 比性較弱,不能給用戶一個關于數值的直觀感受;指標的設計與計算不夠全面合理,這類指 標多是對互聯網中的某一個或多個方面設計指標,沒有一個統一的衡量標準與指數范圍, 未能對互聯網的各個方面進行全面統計分析,現有技術中該項缺陷是由互聯網的復雜多樣 性和互聯網信息要素數值范圍的不確定性導致的,互聯網的海量信息涵蓋了社會中的各個 行業、各類人群等,如何全面刻化互聯網輿情是一個技術難點。另外,互聯網中的信息以網 頁為載體,互聯網信息要素如網頁數目、點擊量、評論量等都是無范圍的數值,容易對指數 的計算帶來數值范圍的不確定性困難。
[0006] 發明專利"一種通用綜合評價系統及其評價指標體系的定制方法"該發明涉及一 種通用綜合評價系統及其評價指標體系的定制方法,屬于智能決策和綜合評價【技術領域】。 通用綜合評價系統,核心功能模塊為指標體系管理模塊和綜合評價模塊,其中指標體系管 理模塊用于實現評價指標體系的定制,綜合評價模塊功能用于綜合評價方法的實現;評價 指標體系的定制方法的步驟包括確定和定制評價指標的層次結構、創建評價指標體系數據 表和指標數據表,以及指標數據的定量化和無量綱化處理。該發明方法簡單、實用,具備廣 泛的適用性。但是該發明不能直接應用在網絡輿情中,網絡輿情分析的一大難點就是從什 么角度出發,本發明對網絡輿情的分析從主題、地域、信息源、通道、行業五大維度出發,建 立層次化結構的指標體系,并通過學習的方式獲得參數來綜合專家經驗,提升輿情指標體 系的實際應用價值。
【發明內容】
[0007] 針對現有技術不足,本發明提出了一種層次化的互聯網輿情指標體系的方法及系 統。解決互聯網的復雜多樣性造成的輿情指標體系的設計難點可以通過層次化的分析方 式,從主題、信息源、地域、通道、行業五個維度,由互聯網基礎要素計算得到的底層基礎指 標作為指標體系的最底層層層遞進,建立指標體系;指數范圍的不確定性難點通過給出指 數的數值范圍以及數值與實際意義的關聯性解決,根據指數數值意義建立合理的計算方 式,控制指數在合理的范圍內。
[0008] 本發明提供了一種層次化的互聯網輿情指標體系的方法,包括:
[0009] 步驟1,建立該指標體系的層次化架構,包括最上層的整體態勢指標、位于該整體 態勢指標下層的中間層五大維度細分指標、位于該中間層五大維度細分指標下層的下層指 標、位于最底層的底層基礎指標,其中該中間層五大維度細分指標包括通道指標、主題指 標、行業指標、信息源指標、地域指標;
[0010] 步驟2,設定指標的數值范圍,計算該指標體系中每層指標的指標數值,并使這些 該指標數值落入該數值范圍內,且該指標數值越大,則指標代表的業務的受關注程度越高, 其中根據基礎數據集合計算該底層基礎指標的該指標數值,該基礎數據集合包括互聯網信 息要素集合、數據庫中數據字段集合。
[0011] 所述的層次化的互聯網輿情指標體系的方法,該步驟1中每個該下層指標對應多 個該底層基礎指標,該中間層五大維度細分指標對應多個該下層指標。
[0012] 所述的層次化的互聯網輿情指標體系的方法,該指標體系中除該整體態勢指標之 夕卜,其余每層指標的該指標數值通過與每層指標相對應的下一層指標計算得到。
[0013] 所述的層次化的互聯網輿情指標體系的方法,該步驟2中計算該整體態勢指標的 具體步驟為:
[0014] 步驟21,獲取熱點對象集合,該熱點對象集合包括主題指標熱點對象集合、信息源 指標熱點對象集合、地域指標熱點對象集合、行業指標熱點對象集合,其中對于某一對象, 如果滿足指標的數值大于某一閾值,則加入該熱點對象集合;
[0015] 步驟22,計算該熱點對象集合的熱度值,其中對于熱點對象集合S,若S = Φ,則 集合的熱度值hs = 0,否則可由公式計算
[0016]
【權利要求】
1. 一種層次化的互聯網輿情指標體系的方法,其特征在于,包括: 步驟1,建立該指標體系的層次化架構,包括最上層的整體態勢指標、位于該整體態勢 指標下層的中間層五大維度細分指標、位于該中間層五大維度細分指標下層的下層指標、 位于最底層的底層基礎指標,其中該中間層五大維度細分指標包括通道指標、主題指標、行 業指標、信息源指標、地域指標; 步驟2,設定指標的數值范圍,計算該指標體系中每層指標的指標數值,并使這些該指 標數值落入該數值范圍內,且該指標數值越大,則指標代表的業務的受關注程度越高,其中 根據基礎數據集合計算該底層基礎指標的該指標數值,該基礎數據集合包括互聯網信息要 素集合、數據庫中數據字段集合。
2. 如權利要求1所述的層次化的互聯網輿情指標體系的方法,其特征在于,該步驟1中 每個該下層指標對應多個該底層基礎指標,該中間層五大維度細分指標對應多個該下層指 標。
3. 如權利要求1或2所述的層次化的互聯網輿情指標體系的方法,其特征在于,該指標 體系中除該整體態勢指標之外,其余每層指標的該指標數值通過與每層指標相對應的下一 層指標計算得到。
4. 如權利要求1所述的層次化的互聯網輿情指標體系的方法,其特征在于,該步驟2中 計算該整體態勢指標的具體步驟為: 步驟21,獲取熱點對象集合,該熱點對象集合包括主題指標熱點對象集合、信息源指標 熱點對象集合、地域指標熱點對象集合、行業指標熱點對象集合,其中對于某一對象,如果 滿足指標的數值大于某一閾值,則加入該熱點對象集合; 步驟22,計算該熱點對象集合的熱度值,其中對于熱點對象集合S,若S= 〇,則集合 的熱度值匕=0,否則可由公式計算
對象集合熱度值ht()pi。、信息源指標熱點對象集合熱度值hsites、地域指標熱點對象集合熱度 值h_、行業指標熱點對象集合熱度值hindustay。
5. 如權利要求1所述的層次化的互聯網輿情指標體系的方法,其特征在于,還包括設 定指標更新頻率,以定期顯示互聯網的網絡熱點。
6. -種層次化的互聯網輿情指標體系的系統,其特征在于,包括: 建立層次化架構模塊,用于建立該指標體系的層次化架構,包括最上層的整體態勢指 標、位于該整體態勢指標下層的中間層五大維度細分指標、位于該中間層五大維度細分指 標下層的下層指標、位于最底層的底層基礎指標,其中該中間層五大維度細分指標包括通 道指標、主題指標、行業指標、信息源指標、地域指標; 指標數值計算模塊,用于設定指標的數值范圍,計算該指標體系中每層指標的指標數 值,并使這些該指標數值落入該數值范圍內,且該指標數值越大,則指標代表的業務的受關 注程度越高,其中根據基礎數據集合計算該底層基礎指標的該指標數值,該基礎數據集合 包括互聯網信息要素集合、數據庫中數據字段集合。
7. 如權利要求6所述的層次化的互聯網輿情指標體系的系統,其特征在于,該建立層 次化架構模塊中每個該下層指標對應多個該底層基礎指標,該中間層五大維度細分指標對 應多個該下層指標。
8. 如權利要求6或7所述的層次化的互聯網輿情指標體系的系統,其特征在于,該指標 體系中除該整體態勢指標之外,其余每層指標的該指標數值通過與每層指標相對應的下一 層指標計算得到。
9. 如權利要求6所述的層次化的互聯網輿情指標體系的系統,其特征在于,該指標數 值計算模塊中計算該整體態勢指標的具體步驟為: 步驟31,獲取熱點對象集合,該熱點對象集合包括主題指標熱點對象集合、信息源指標 熱點對象集合、地域指標熱點對象集合、行業指標熱點對象集合,其中對于某一對象,如果 滿足指標的數值大于某一閾值,則加入該熱點對象集合; 步驟32,計算該熱點對象集合的熱度值,其中對于熱點對象集合S,若S= 〇,則集合 的熱度值匕=0,否則可由公式計算
步驟34,根據該熱點對象集合的熱度值與通道熱度綜合評價得到整體態勢指數,其中 通過公式計算獲得 WI ^ l^topic"^ 2^sites^~ 3^area^~ 4hindustry^~ 5^channel
其中整體態勢指數為WI,A i是權重參數,滿足0 < A i < 1且 主題指標熱點 J 對象集合熱度值ht()pi。、信息源指標熱點對象集合熱度值hsites、地域指標熱點對象集合熱度 值h_、行業指標熱點對象集合熱度值hindustay。
10.如權利要求6所述的層次化的互聯網輿情指標體系的系統,其特征在于,還包括更 新模塊,用于設定指標更新頻率,以定期顯示互聯網的網絡熱點。
【文檔編號】G06Q10/04GK104346425SQ201410363667
【公開日】2015年2月11日 申請日期:2014年7月28日 優先權日:2014年7月28日
【發明者】包秀國, 馬宏遠, 杜慧, 王博, 賀敏, 程學旗, 李雄, 劉瑋, 劉春陽, 張瑾, 程工, 陳訓遜, 王麗宏, 云曉春, 余智華 申請人:中國科學院計算技術研究所, 國家計算機網絡應急技術處理協調中心