新聞大數(shù)據(jù)的增值應(yīng)用
新聞大數(shù)據(jù)借助于領(lǐng)域詞表、大數(shù)據(jù)和人工智能技術(shù),將雜亂無(wú)章的新聞條目數(shù)據(jù)按照領(lǐng)域詞表自動(dòng)重新聚類(lèi),并在聚類(lèi)的基礎(chǔ)上,進(jìn)行數(shù)據(jù)重組和集成,形成具有較大價(jià)值的專(zhuān)題數(shù)據(jù),提供給機(jī)構(gòu)和讀者。
新聞大數(shù)據(jù)是報(bào)社的制勝法寶
互聯(lián)網(wǎng)媒體對(duì)傳統(tǒng)報(bào)社構(gòu)成了較大沖擊,經(jīng)濟(jì)效益顯著下滑,讀者數(shù)量也急劇減少。報(bào)社賴(lài)以生存的新聞報(bào)道已經(jīng)被今日頭條、手百等互聯(lián)網(wǎng)媒體所取代,讀者通過(guò)手機(jī)百度等媒體就可以全面了解當(dāng)前熱點(diǎn)、新聞、時(shí)政等新聞內(nèi)容,導(dǎo)致報(bào)社讀者大量流失,讀者的流失又直接導(dǎo)致了廣告商投入和報(bào)紙銷(xiāo)量的減少。
針對(duì)互聯(lián)網(wǎng)媒體的沖擊,報(bào)社也投入了大量資金以應(yīng)對(duì)日趨惡化的經(jīng)營(yíng)環(huán)境,例如,建立新聞網(wǎng)站、移動(dòng)新聞客戶(hù)端、融媒體建設(shè)等。但大多收效甚微,主要原因是——雖然新聞的生產(chǎn)方式、經(jīng)營(yíng)方式已經(jīng)數(shù)字和互聯(lián)網(wǎng)化,提高了新聞的生產(chǎn)和傳播效率,但是其經(jīng)營(yíng)的內(nèi)容沒(méi)有改變,依然是售賣(mài)新聞模式,該模式同手機(jī)百度等媒體相比,缺乏內(nèi)容競(jìng)爭(zhēng)力,讀者自然就不買(mǎi)賬了。
不過(guò),報(bào)社也有其自身的競(jìng)爭(zhēng)力。以參考消息為例,參考消息完成了自1953年至今所有參考消息版面的數(shù)字化加工工作,加工后的數(shù)字內(nèi)容以PDF、數(shù)據(jù)庫(kù)、XML等多種方式存儲(chǔ),為大數(shù)據(jù)增值服務(wù)提供了數(shù)據(jù)支撐。參考消息大數(shù)據(jù)集中體現(xiàn)了中國(guó)自建國(guó)以來(lái),國(guó)外媒體對(duì)中國(guó)外交、經(jīng)濟(jì)、政治、民生等方面的報(bào)道及觀(guān)點(diǎn),其承載的文化內(nèi)容和歷史內(nèi)涵都是不言而喻的,對(duì)研究中國(guó)國(guó)情及發(fā)展歷程具有很大的文獻(xiàn)情報(bào)價(jià)值,對(duì)圖書(shū)館、機(jī)構(gòu)、社會(huì)組織、企業(yè)、讀者都有較強(qiáng)的內(nèi)容吸引力,也是今日頭條、手百等媒體不能給予讀者的內(nèi)容。
大數(shù)據(jù)增值應(yīng)用有哪些技術(shù)內(nèi)容?
大數(shù)據(jù)增值服務(wù)涉及到數(shù)據(jù)的感知與采集、數(shù)據(jù)的存儲(chǔ)、數(shù)據(jù)的挖掘分析與重組、數(shù)據(jù)的展現(xiàn)與交互技術(shù)。
數(shù)據(jù)的感知與采集是獲取并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理的技術(shù)。例如,新聞機(jī)構(gòu)一般都以數(shù)據(jù)庫(kù)方式存儲(chǔ)新聞條目,這就需要系統(tǒng)能夠識(shí)別數(shù)據(jù)庫(kù)存儲(chǔ)的新聞條目,并按照預(yù)定規(guī)則對(duì)新聞條目預(yù)處理后,進(jìn)入到大數(shù)據(jù)存儲(chǔ)系統(tǒng)。再如,利用爬蟲(chóng)技術(shù)從新聞網(wǎng)站采集新聞條目,并按照預(yù)定規(guī)則對(duì)采集的新聞條目預(yù)處理后,進(jìn)入到大數(shù)據(jù)存儲(chǔ)系統(tǒng)。
大數(shù)據(jù)的存儲(chǔ)技術(shù)非常重要,直接關(guān)系到大數(shù)據(jù)增值服務(wù)系統(tǒng)的響應(yīng)和運(yùn)算能力,從系統(tǒng)的響應(yīng)和運(yùn)算能力考慮,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)、數(shù)據(jù)集中式存儲(chǔ)技術(shù)已不能滿(mǎn)足大數(shù)據(jù)的存儲(chǔ)與數(shù)據(jù)運(yùn)算需求。需要運(yùn)用新的數(shù)據(jù)存儲(chǔ)和運(yùn)算技術(shù),以滿(mǎn)足不斷增長(zhǎng)的數(shù)據(jù)存儲(chǔ)需求和高并發(fā)數(shù)據(jù)的運(yùn)算能力。
新聞大數(shù)據(jù)的增值服務(wù)主要是對(duì)新聞數(shù)據(jù)進(jìn)行挖掘和重組,對(duì)機(jī)構(gòu)和讀者提供數(shù)據(jù)檢索和專(zhuān)題數(shù)據(jù)服務(wù)。例如,某機(jī)構(gòu)要組織“記錄濰坊,見(jiàn)證歷史”活動(dòng),可以通過(guò)新聞大數(shù)據(jù)系統(tǒng)挖掘?yàn)H坊發(fā)展過(guò)程中涉及的熱點(diǎn)、大事件、政策、民生變化等新聞條目,并按照時(shí)間線(xiàn)和熱點(diǎn)、大事件、政策、民生進(jìn)行排序和歸類(lèi),生成專(zhuān)題數(shù)據(jù),活動(dòng)參與者可以通過(guò)瀏覽器、手機(jī)瀏覽專(zhuān)題數(shù)據(jù)。再如,對(duì)濰坊文化、歷史感興趣的讀者都可以通過(guò)檢索和專(zhuān)題數(shù)據(jù)來(lái)感知濰坊。
數(shù)據(jù)的展現(xiàn)和交互技術(shù)直接影響用戶(hù)使用大數(shù)據(jù)服務(wù)的體驗(yàn),也影響到大數(shù)據(jù)服務(wù)的傳播和推廣。面向機(jī)構(gòu)提供大數(shù)據(jù)服務(wù)時(shí),系統(tǒng)可以部署到機(jī)構(gòu)內(nèi)部(大數(shù)據(jù)鏡像服務(wù)),也可以部署在云端,并提供標(biāo)準(zhǔn)或者個(gè)性化的檢索與閱讀頁(yè)面,機(jī)構(gòu)讀者可以在機(jī)構(gòu)內(nèi)部和外部通過(guò)移動(dòng)終端(微信小程序)、PC瀏覽器訪(fǎng)問(wèn)大數(shù)據(jù)服務(wù);面向讀者提供服務(wù)時(shí),充分考慮到新聞機(jī)構(gòu)已有的系統(tǒng)建設(shè),提供數(shù)據(jù)服務(wù)接口,為新聞機(jī)構(gòu)已有系統(tǒng)提供數(shù)據(jù)獲取服務(wù)。
大數(shù)據(jù)增值應(yīng)用實(shí)現(xiàn)需要的核心技術(shù)
大數(shù)據(jù)服務(wù)首先要解決大數(shù)據(jù)的存儲(chǔ)與高并發(fā)運(yùn)算需求。大數(shù)據(jù)的特征是高價(jià)值的海量數(shù)據(jù)、數(shù)據(jù)來(lái)源渠道眾多、適合于數(shù)據(jù)的挖掘和重組、支持高并發(fā)運(yùn)算?;诖髷?shù)據(jù)的上述特征,采用傳統(tǒng)的數(shù)據(jù)集中式存儲(chǔ)和關(guān)系型數(shù)據(jù)庫(kù)技術(shù)已經(jīng)不能滿(mǎn)足大數(shù)據(jù)服務(wù)需求,需要采用新的存儲(chǔ)和數(shù)據(jù)庫(kù)技術(shù)。
大數(shù)據(jù)服務(wù)宜采用分布式存儲(chǔ)以提高大數(shù)據(jù)的存儲(chǔ)擴(kuò)展能力。考慮到大數(shù)據(jù)硬件建設(shè)成本和便捷的擴(kuò)展性,服務(wù)器應(yīng)采用價(jià)格低廉的普通PC服務(wù)器,每臺(tái)PC服務(wù)器通過(guò)網(wǎng)絡(luò)連接,工作互相不受干擾,數(shù)據(jù)存儲(chǔ)到自身的硬盤(pán)上,當(dāng)需要擴(kuò)展數(shù)據(jù)存儲(chǔ)時(shí),直接在網(wǎng)絡(luò)中加入PC服務(wù)器即可。所有接入存儲(chǔ)網(wǎng)絡(luò)的PC服務(wù)器在分布式操作系統(tǒng)的控制下,自動(dòng)保存數(shù)據(jù)的多個(gè)副本到不同的PC服務(wù)器,以提高數(shù)據(jù)的容錯(cuò)性,可以在不同服務(wù)器之間直接拷貝和復(fù)制數(shù)據(jù),保持各服務(wù)器的負(fù)載平衡。
系統(tǒng)應(yīng)用分布式基礎(chǔ)架構(gòu)Hadoop技術(shù),硬件可以基于普通PC 服務(wù)器,存儲(chǔ)基于服務(wù)器自帶的本地硬盤(pán),操作系統(tǒng)采用Linux。上述基礎(chǔ)架構(gòu)擁有較高的存儲(chǔ)擴(kuò)展能力和內(nèi)在的故障容錯(cuò)能力以及數(shù)據(jù)保障機(jī)制,可以降低每TB數(shù)據(jù)的處理成本,為大數(shù)據(jù)處理提供技術(shù)和性?xún)r(jià)比支撐。數(shù)據(jù)庫(kù)采用Hbase,HBase是一個(gè)分布式的、面向列的開(kāi)源數(shù)據(jù)庫(kù)。利用HBase和Hadoop技術(shù),可在廉價(jià)PC 服務(wù)器上搭建大規(guī)模結(jié)構(gòu)化存儲(chǔ)集群。
大數(shù)據(jù)服務(wù)宜采用云計(jì)算以提高大數(shù)據(jù)的運(yùn)算能力,運(yùn)算能力包括檢索、數(shù)據(jù)挖掘、重組能力。由不同PC服務(wù)器組成的分布式存儲(chǔ)系統(tǒng)可以構(gòu)建云計(jì)算,利用PC服務(wù)器自身的運(yùn)算能力,對(duì)自身存儲(chǔ)的數(shù)據(jù)進(jìn)行運(yùn)算,每臺(tái)PC服務(wù)器的運(yùn)算結(jié)果匯總后,返回給數(shù)據(jù)請(qǐng)求者。
利用Hadoop的MapReduce技術(shù),可以控制多臺(tái)PC服務(wù)器完成數(shù)據(jù)的并發(fā)運(yùn)算。例如,讀者在前端的一個(gè)檢索請(qǐng)求,會(huì)觸發(fā)MapReduce發(fā)起云計(jì)算,MapReduce將調(diào)用多臺(tái)PC服務(wù)器參與運(yùn)算,然后將每臺(tái)服務(wù)器的運(yùn)算結(jié)果匯總并返回給檢索系統(tǒng)。