專利名稱:一種實時新聞的展現裝置及其方法
技術領域:
本發明涉及互聯網數據實時處理和展現技術,特別涉及一種實時新聞的展現裝置及其方法。
背景技術:
隨著以互聯網為代表的信息技術的快速發展,信息的數量越來越大、傳播速度越來越快,影響范圍越來越廣?;ヂ摼W已能夠與報紙、電視等傳統媒介并駕齊驅,成為新聞傳播的主要媒介之一。然而,傳統新聞網站不能展示新聞動態更新的過程,或者只能展示本網站采編的新聞的動態更新過程,因此,并沒有充分發揮出互聯網新聞實時、快速的優勢。
發明內容
有鑒于此,本發明的主要目的在于提供一種實時新聞的展現裝置及其方法,以展示全網環境下以及各個領域內新聞動態更新的過程,增強互聯網新聞報道的實時性。為達到上述目的,本發明的技術方案是這樣實現的
一種實時新聞的展現裝置,主要包括新聞采集和預處理模塊、新聞分頻道模塊、實時新聞處理模塊、實時新聞存儲模塊和前端模塊;其中
新聞采集和預處理模塊,用于實時的從互聯網采集新聞,并進行預處理;
新聞分頻道模塊,用于對所采集的新聞劃分頻道;
實時新聞處理模塊,用于將采集的新聞進行處理,并按其頻道存儲于相應的存儲區;實時新聞存儲模塊,用于存儲實時新聞并向前端模塊發送更新信號;
前端模塊,用于滾動展示所述的實時新聞。一種實時新聞的展現方法,包括
A、實時采集新聞并進行預處理;
B、對所采集的新聞進行分頻道,即對所采集的新聞按主題類別進行自動化分類;
C、將所采集的新聞進行處理,并按其頻道標簽分別存儲于相應的存儲區;
D、存儲新聞并實時更新前端模塊,滾動展示所述的實時新聞。其中步驟A所述實時采集新聞并進行預處理的過程,具體包括
Al、通過爬蟲采集目標網站列表中的網頁頁面;
A2、對所采集到的原始網頁做頁面分析,抽取出標題、正文、摘要、作者、來源、發表時間的信息,并組織成結構化信息
A3、根據所述的標題和正文,分別記錄簽名。其中,步驟A3所述的簽名的特點是對于相似度較高的文本,產生相同的簽名。步驟B所述對采集的新聞分頻道即分類的過程為
采用預先專門訓練的樸素貝葉斯分類器,抽取網頁的標題、正文、url的特征,并結合預設的規則,判定當前周期內所采集到的各網頁是否屬于新聞,如果是,則判其歸屬其中的一個頻道,并填寫頻道標簽;否則,不處理。
所述頻道分為國內、國際、社會、財經、體育、娛樂、汽車、科技和互聯網類,以及焦點頻道。步驟C所述對所采集的新聞進行處理的過程,包括
Cl、獲取當前周期內的所采集的新聞,根據新聞標題簽名、正文簽名信息,與當前維護的實時新聞簽名集合比對,進行去重;
C2、對各頻道隊列的可寫拷貝進行加寫鎖,并將各可寫拷貝內超過預設時長的過時新聞刪除;
C3、根據新的新聞的頻道標簽,將其分別加入各頻道的可寫拷貝中,并將各可寫拷貝內的新聞按時間進行倒序排序,然后解除寫鎖。步驟D所述更新前端模塊并滾動展示所述實時新聞的過程為
D1、找到指定頻道的隊列,對當前可讀拷貝加讀鎖;
D2、從可讀拷貝讀取前N條新聞,解除讀鎖;
D3、更新前端模塊中的實時新聞列表;其中,N為自然數。所述的步驟A 步驟D均需周期性執行。本發明所提供的實時新聞的展現裝置及其方法,具有以下優點
可以把新發生的全網范圍內網絡新聞即時展現給用戶,使用戶直觀感受全網新聞以及各頻道內的新聞動態更新的過程。本發明通過維護一定長度的時間有序隊列,基本上克服了新聞爬取順序和實際發布順序不一致的問題。
圖I為本發明實施例的實時新聞的展現裝置的組成示意圖2為本發明實施例的實時新聞的展現方法的總體流程圖3為本發明的實時采集新聞和預處理流程圖4為本發明的實時新聞處理流程圖5為本發明的實時新聞存儲流程圖。
具體實施例方式下面結合附圖及本發明的實施例對本發明的裝置及其方法作進一步詳細的說明。圖I為本發明實施例的實時新聞的展現裝置的組成示意圖,如圖I所示,其主要包括
新聞采集和預處理模塊,用于實時的從互聯網采集新聞,并進行預處理。新聞分頻道模塊,用于對所采集的新聞劃分頻道。實時新聞處理模塊,用于將采集的新聞進行處理,并按其頻道存儲于相應的存儲區。實時新聞存儲模塊,用于存儲實時新聞并向前端模塊發送更新信號。前端模塊,用于滾動展示所述的實時新聞。圖2為本發明實施例的實時新聞的展現方法的總體流程圖,如圖2所示,包括如下步驟步驟SI :實時采集新聞并進行預處理。這里,所述采集新聞并進行預處理對過程,如圖3所示,具體包括
步驟Sll :通過爬蟲采集目標網站列表中的網頁頁面,這些網站不僅包含各類專業新聞網站,如網易、新浪、搜狐等;也包括登載新聞的非新聞網站,如各政府機關、事業單位、企業的官方網站等。步驟S12 :對采集到的原始網頁做頁面分析,抽取出標題、正文、摘要、作者、來源、發表時間等信息,并組織成結構化信息,以利于進一步處理。步驟S13 :根據標題和正文,分別記錄簽名。該簽名的特點是,。步驟S2 :對所采集的新聞進行分頻道,即對新采集的新聞按其主題類別進行自動化分類。這里,采用預先專門訓練的樸素貝葉斯分類器,抽取網頁的標題、正文、url等特征,并結合若干規則,判定本周期內新采集到的各網頁是否屬于新聞,如果是,則判其歸屬于哪一個頻道,并填寫頻道標簽;否則,不處理。步驟S3 :將所采集的新聞進行處理,并按其頻道標簽分別存儲于相應的存儲區。該步驟須周期性執行,周期一般為幾十秒內,可靈活配置。此步驟中提到的各頻道不僅包括步驟S2中提到的頻道,還包括焦點頻道,焦點頻道是指由全部新聞構成的頻道,如圖4所示,具體包括。步驟S31 :獲取本周期內新的新聞,根據新聞標題簽名、正文簽名等,與當前維護的實時新聞簽名集合比對,進行去重。步驟S32 :對各頻道隊列的可寫拷貝加寫鎖,把各可寫拷貝內過時(即距離當前時間超過一定閥值)的新聞刪除。步驟S33 :根據新的新聞的頻道標簽,把它們分別塞入各頻道的可寫拷貝中,并把各可寫拷貝內的新聞按時間進行倒序排序,然后解除寫鎖。步驟S4 :存儲新聞并實時更新前端模塊,滾動展示所述的實時新聞。該步驟S4也須周期性執行,周期一般為幾十秒內,可靈活配置,如圖5所示,該過程具體為
步驟S41 :找到指定頻道的隊列,對當前可讀拷貝加讀鎖。步驟S42 :從可讀拷貝讀取前N條新聞,解除讀鎖。步驟S43 :實時更新前端模塊中的實時新聞列表。這樣,通過所述前端模塊即可展示所述的實時新聞了。如上所述的實時新聞展現裝置及其方法,經過論證并經實踐表明,能夠實時的展現新聞的變化情況。本發明解決網絡新聞實時展現問題的技術,并不限于新聞這一信息形式。還適用于其他形式的互聯網信息,如微博、博客、電子公告板(BBS)等媒體形式上,只要其采取與本發明的技術相似的方法實時動態展示其變化情況的,均應視為落入本發明的保護范圍之內。以上所述,僅為本發明的較佳實施例而已,并非用于限定本發明的保護范圍。
權利要求
1.一種實時新聞的展現裝置,其特征在于,主要包括新聞采集和預處理模塊、新聞分頻道模塊、實時新聞處理模塊、實時新聞存儲模塊和前端模塊;其中 新聞采集和預處理模塊,用于實時的從互聯網采集新聞,并進行預處理; 新聞分頻道模塊,用于對所采集的新聞劃分頻道; 實時新聞處理模塊,用于將采集的新聞進行處理,并按其頻道存儲于相應的存儲區; 實時新聞存儲模塊,用于存儲實時新聞并向前端模塊發送更新信號; 前端模塊,用于滾動展示所述的實時新聞。
2.一種實時新聞的展現方法,其特征在于,包括 A、實時采集新聞并進行預處理; B、對所采集的新聞進行分頻道,即對所采集的新聞按主題類別進行自動化分類; C、將所采集的新聞進行處理,并按其頻道標簽分別存儲于相應的存儲區; D、存儲新聞并實時更新前端模塊,滾動展示所述的實時新聞。
3.根據權利要求2所述的實時新聞的展現方法,其特征在于,步驟A所述實時采集新聞并進行預處理的過程,具體包括 Al、通過爬蟲采集目標網站列表中的網頁頁面; A2、對所采集到的原始網頁做頁面分析,抽取出標題、正文、摘要、作者、來源、發表時間的信息,并組織成結構化信息 A3、根據所述的標題和正文,分別記錄簽名。
4.根據權利要求3所述的實時新聞的展現方法,其特征在于,步驟A3所述的簽名的特點是對于相似度較高的文本,產生相同的簽名。
5.根據權利要求2所述的實時新聞的展現方法,其特征在于,步驟B所述對采集的新聞分頻道即分類的過程為 采用預先專門訓練的樸素貝葉斯分類器,抽取網頁的標題、正文、url的特征,并結合預設的規則,判定當前周期內所采集到的各網頁是否屬于新聞,如果是,則判其歸屬其中的一個頻道,并填寫頻道標簽;否則,不處理。
6.根據權利要求5所述的實時新聞的展現方法,其特征在于,所述頻道分為國內、國際、社會、財經、體育、娛樂、汽車、科技和互聯網類,以及焦點頻道。
7.根據權利要求2所述的實時新聞的展現方法,其特征在于,步驟C所述對所采集的新聞進行處理的過程,包括 Cl、獲取當前周期內的所采集的新聞,根據新聞標題簽名、正文簽名信息,與當前維護的實時新聞簽名集合比對,進行去重; C2、對各頻道隊列的可寫拷貝進行加寫鎖,并將各可寫拷貝內超過預設時長的過時新聞刪除; C3、根據新的新聞的頻道標簽,將其分別加入各頻道的可寫拷貝中,并將各可寫拷貝內的新聞按時間進行倒序排序,然后解除寫鎖。
8.根據權利要求2所述的實時新聞的展現方法,其特征在于,步驟D所述更新前端模塊并滾動展示所述實時新聞的過程為 D1、找到指定頻道的隊列,對當前可讀拷貝加讀鎖; D2、從可讀拷貝讀取前N條新聞,解除讀鎖;D3、更新前端模塊中的實時新聞列表; 其中,N為自然數。
9.根據權利要求2、7或8所述的實時新聞的展現方法,其特征在于,所述的步驟均需周期性執行。
全文摘要
本發明公開了一種實時新聞的展現裝置及其方法,該裝置包括新聞采集和預處理模塊、新聞分頻道模塊、實時新聞處理模塊、實時新聞存儲模塊和前端模塊;其中新聞采集和預處理模塊,用于實時的從互聯網采集新聞,并進行預處理;新聞分頻道模塊,用于對所采集的新聞劃分頻道;實時新聞處理模塊,用于將采集的新聞進行處理,并按其頻道存儲于相應的存儲區;實時新聞存儲模塊,用于存儲實時新聞并向前端模塊發送更新信號;前端模塊,用于滾動展示所述的實時新聞。采用本發明,能夠展示全網環境下以及各個領域內新聞動態更新的過程,增強互聯網新聞報道的實時性。
文檔編號G06F17/30GK102929932SQ20121036010
公開日2013年2月13日 申請日期2012年9月25日 優先權日2012年9月25日
發明者李德聰, 楊青, 方慶安 申請人:人民搜索網絡股份公司