省域?qū)m棓?shù)據(jù)建設(shè)及智能化應(yīng)用

2022/09/05-17:24 來源:

一、 引言

隨著全國新基建產(chǎn)業(yè)按下快進鍵,新技術(shù)支撐體系下的媒體形態(tài)將充分融合。其中,涉及信息與融合基礎(chǔ)設(shè)施建設(shè)的三大核心技術(shù)為:以5G為代表的通信網(wǎng)絡(luò)基礎(chǔ)設(shè)施、以數(shù)據(jù)中心、智能計算中心為代表的算力基礎(chǔ)設(shè)施、以人工智能、云計算、區(qū)塊鏈等為代表的新技術(shù)基礎(chǔ)設(shè)施。

在剛剛落幕的第二屆中國廣電媒體融合發(fā)展大會上,北京北大方正電子有限公司的“基于方正數(shù)據(jù)&AI雙中臺體系支撐的智能區(qū)域數(shù)據(jù)中心建設(shè)”項目成為“2021年度媒體融合創(chuàng)新技術(shù)與服務(wù)應(yīng)用新入庫項目”,并在安徽等地落地應(yīng)用。

二、 省域?qū)m棓?shù)據(jù)管理

省域?qū)m棓?shù)據(jù)治理是聚合和治理跨域數(shù)據(jù),為智能經(jīng)濟的底層基礎(chǔ),是產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型的必然要求。通過數(shù)據(jù)中臺技術(shù),對海量數(shù)據(jù)進行采集、計算、存儲、加工,同時統(tǒng)一數(shù)據(jù)標準,再進行組織存儲,形成大數(shù)據(jù)資產(chǎn)層,進而為客戶提供高效的省域?qū)m棓?shù)據(jù)服務(wù)。利用在媒體行業(yè)深耕多年的經(jīng)驗積累,形成得天獨厚的數(shù)據(jù)采集優(yōu)勢,具備前后端分離、組件化、微服務(wù)、彈性可擴展的應(yīng)用架構(gòu)體系,通過對多機構(gòu)、多源數(shù)據(jù)接入管理,數(shù)據(jù)質(zhì)量控制,數(shù)據(jù)組織存儲和對外多維服務(wù)輸出,從而實現(xiàn)從數(shù)據(jù)到數(shù)據(jù)服務(wù)的能力。

圖片6.png

1 省域數(shù)據(jù)資源建設(shè)彈性架構(gòu)體系

1. 省域?qū)m棓?shù)據(jù)標準管理體系

作為數(shù)據(jù)管理的核心要求,在建設(shè)之初的數(shù)據(jù)規(guī)劃層面就要確定。首先與建設(shè)單位一起梳理和確認數(shù)據(jù)中臺數(shù)據(jù)標準,是實現(xiàn)多源數(shù)據(jù)接入和多維輸出的基礎(chǔ)。數(shù)據(jù)標準包括業(yè)務(wù)術(shù)語標準、數(shù)據(jù)項標準、屬性數(shù)據(jù)標準,同時針對數(shù)據(jù)質(zhì)量評估也制定標準規(guī)范,包括數(shù)據(jù)的精確性、唯一性、完整性、一致性、關(guān)聯(lián)性、及時性。具體在實施中依據(jù)管理數(shù)據(jù)對應(yīng)已明確的應(yīng)用,針對媒體主要的數(shù)據(jù)組織和應(yīng)用場景,數(shù)據(jù)中臺已經(jīng)植入新聞領(lǐng)域相關(guān)的數(shù)據(jù)標準和規(guī)范,便于數(shù)據(jù)的調(diào)用、共享和流通。并為省域數(shù)據(jù)生態(tài)持續(xù)建設(shè)提供擴展性支撐。

依托數(shù)據(jù)中臺,依據(jù)省域?qū)m棊斓慕ㄔO(shè)規(guī)范,完成了數(shù)據(jù)質(zhì)量標準和規(guī)范的制定,包括數(shù)據(jù)的接入和輸出標準。在數(shù)據(jù)質(zhì)量管理方面提供開放域、智能、業(yè)務(wù)三類標簽體系管理。涵蓋省自治區(qū)標準地域信息標簽體系;行業(yè)領(lǐng)域信息標簽體系;針對文本、圖片、音視頻等的智能標簽體系;涵蓋屬地黨政領(lǐng)導(dǎo)干部的人物屬性標簽體系;通過海量數(shù)據(jù)訓(xùn)練,實現(xiàn)智能自動標引。

 

2. 省域多源異構(gòu)專項數(shù)據(jù)的匯聚

在數(shù)據(jù)接入層面為了支撐省域?qū)m棓?shù)據(jù)分析應(yīng)用,需要將散落在各機構(gòu)單位的合作數(shù)據(jù)源、以及媒體各業(yè)務(wù)系統(tǒng)數(shù)據(jù),之前都相對獨立的“數(shù)據(jù)孤島”的異構(gòu)數(shù)據(jù)進行接入和統(tǒng)一管理,在此基礎(chǔ)上圍繞業(yè)務(wù)組織建設(shè)各業(yè)務(wù)數(shù)據(jù)中心并為上層應(yīng)用提供數(shù)據(jù)服務(wù)。

各機構(gòu)單位和各業(yè)務(wù)數(shù)據(jù)源具有如下特點。

1)分散性特點

省域各協(xié)作機構(gòu)單位分布于省域各地,媒體單位的各業(yè)務(wù)數(shù)據(jù)也分散在各業(yè)務(wù)系統(tǒng)中,無法進行數(shù)據(jù)連通和共享,新增數(shù)據(jù)的加入和應(yīng)用也比較困難。

2)異構(gòu)性特點

省域各協(xié)作機構(gòu)單位會根據(jù)自身需求開發(fā)了業(yè)務(wù)信息系統(tǒng),系統(tǒng)采用的開發(fā)語言、操作系統(tǒng)、架構(gòu)、數(shù)據(jù)管理系統(tǒng)、數(shù)據(jù)存儲模式、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)類型以及語義并不完全一致。因此,省域機構(gòu)間數(shù)據(jù)源多類異構(gòu)。

3)動態(tài)性特點

由于省域內(nèi)各機構(gòu)單位,在運行過程中,機構(gòu)間復(fù)雜的協(xié)作關(guān)系、協(xié)作任務(wù)、數(shù)據(jù)源、相關(guān)配置都動態(tài)變更,因此,數(shù)據(jù)集成的內(nèi)容和對象都具有動態(tài)性特征。

4)標準不統(tǒng)一,接口參差不齊

目前,各機構(gòu)單位針對單個業(yè)務(wù)或?qū)m棙I(yè)務(wù)單獨開發(fā)接口,沒有統(tǒng)一的標準和規(guī)范體系、種類繁多復(fù)雜、參差不齊、無法統(tǒng)一管理,導(dǎo)致互操作困難復(fù)雜。

針對省域多機構(gòu)分布性、多端異構(gòu)性、協(xié)作動態(tài)性和接口繁多,以及數(shù)據(jù)單條上傳和批量接入?yún)R聚的應(yīng)用場景。本文提出省域環(huán)境下面向省直單位、地市、區(qū)縣單位或者垂直子機構(gòu)媒體應(yīng)用領(lǐng)域提供開放的多源異構(gòu)數(shù)據(jù)采集、大數(shù)據(jù)并發(fā)流處理、微服務(wù)計算、消息隊列、消息協(xié)同處理等技術(shù)框架,實現(xiàn)多源異構(gòu)數(shù)據(jù)單條和批量數(shù)據(jù)采集、上傳,流式并發(fā)清洗轉(zhuǎn)換、松散耦合式數(shù)據(jù)銜接等特征功能。解決面向省域環(huán)境下媒體自身、地市區(qū)縣媒體單位、合作機構(gòu)信息系統(tǒng)數(shù)據(jù)匯聚、管理、應(yīng)用場景。

多源異構(gòu)數(shù)據(jù)接入?yún)R聚由數(shù)據(jù)源管理、數(shù)據(jù)字段映射、轉(zhuǎn)換清洗規(guī)則定義、接入任務(wù)管理、以及數(shù)據(jù)流轉(zhuǎn)狀態(tài)監(jiān)控組成。具體通過接入數(shù)據(jù)源和目標數(shù)據(jù)源的管理,提供多數(shù)據(jù)源的連接參數(shù)設(shè)置視圖管理功能,提供數(shù)據(jù)源連接參數(shù)的增刪改查,規(guī)范統(tǒng)一數(shù)據(jù)源批量接入。數(shù)據(jù)源支持關(guān)系型數(shù)據(jù)源、非關(guān)系型數(shù)據(jù)源、消息隊列、文本數(shù)據(jù)集的參數(shù)配置:包括數(shù)據(jù)庫標志、數(shù)據(jù)源類型、數(shù)據(jù)服務(wù)訪問方法、主機名、端口號、用戶名、密碼等。數(shù)據(jù)源管理通過提供對數(shù)據(jù)庫源連接信息的添加、刪除和修改等管理操作,將多源異構(gòu)數(shù)據(jù)源連接信息存入目標業(yè)務(wù)數(shù)據(jù)庫,以支撐互聯(lián)網(wǎng)下多數(shù)據(jù)庫服務(wù)器源連接的統(tǒng)一管理和透明接入功能。

對于散落在省域范圍內(nèi)各機構(gòu)單位個人PC或服務(wù)器中零散的異構(gòu)復(fù)雜數(shù)據(jù),提供包括文本、圖片、音頻、視頻、書籍文件、影視作品等獨立數(shù)據(jù)上傳接入工具實現(xiàn)數(shù)據(jù)各種數(shù)據(jù)的匯聚集成。

 

3. 基于分布式的省域?qū)m棓?shù)據(jù)分析與組織存儲

基于場景化驅(qū)動數(shù)據(jù)業(yè)務(wù)智能封裝,對入庫數(shù)據(jù)進行智能分析,包括地域、領(lǐng)域、情感、實體、自動摘要等,并實現(xiàn)智能打標。通過分步式的數(shù)據(jù)存儲系統(tǒng)實現(xiàn)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等多源異構(gòu)數(shù)據(jù)的存儲管理,在此基礎(chǔ)上構(gòu)建業(yè)務(wù)數(shù)據(jù)庫或?qū)m棓?shù)據(jù)庫。在數(shù)據(jù)管理方面,對入庫的數(shù)據(jù)量、各業(yè)務(wù)數(shù)據(jù)標簽、數(shù)據(jù)的數(shù)據(jù)規(guī)模、數(shù)據(jù)內(nèi)容進行維護管理,并且能支持業(yè)務(wù)應(yīng)用的數(shù)據(jù)查詢?yōu)g覽與有效利用。具體應(yīng)用以下核心技術(shù):

(1) 采用分布式隨機樣本劃分算法

按照使用場景可以分為批量數(shù)據(jù)轉(zhuǎn)化算法和流式數(shù)據(jù)轉(zhuǎn)化算法,按照數(shù)據(jù)的格式又可以分為針對結(jié)構(gòu)化數(shù)據(jù)、時間序列數(shù)據(jù)、文檔式數(shù)據(jù)、圖數(shù)據(jù),分類方式如下圖所示。

圖片7.png

2 RSP轉(zhuǎn)化算法

(2) Hadoop平臺多引擎技術(shù)

省域數(shù)據(jù)中心融合數(shù)據(jù)多引擎技術(shù)、Hadoop/HDFS分布式并行計算和多副本機制、Facebook/Cassandra對等節(jié)點機制等先進技術(shù),避免單點故障并支持系統(tǒng)性能線性擴展。Hadoop 平臺最核心的兩個組件分別為:Map Reduce 分布式計算框架和 HDFS 分布式存儲系統(tǒng),其分別對應(yīng)與 Hadoop 的兩個層次:數(shù)據(jù)處理層和文件存儲層。其中,HDFS主要面向超大型的文件承載量的應(yīng)用,其設(shè)計目標在于: 

a) 硬件錯誤

硬件發(fā)生錯誤屬于常態(tài)現(xiàn)象,硬件組件出現(xiàn)問題常常存在于現(xiàn)實生活當中,硬件損壞是不可避免的。因此,硬件等相關(guān)組件的錯誤檢測和快速、自動恢復(fù)是分布式架構(gòu)的核心設(shè)計目標。 

b) 流式數(shù)據(jù)訪問

較之傳統(tǒng)的應(yīng)用系統(tǒng)側(cè)重用戶交互方面,基于 HDFS 的應(yīng)用側(cè)重點在于數(shù)據(jù)的批處理方面,需要能夠流式訪問其數(shù)據(jù)集。其不是特別注重和要求數(shù)據(jù)訪問時的響應(yīng)時間,而注重于數(shù)據(jù)傳輸?shù)母咚俾?、?shù)據(jù)訪問的高吞吐量以及數(shù)據(jù)的批處理。 面向數(shù)據(jù)分析的分布式數(shù)據(jù)管理系統(tǒng)。

c) 大規(guī)模數(shù)據(jù)集

基于 HDFS 的應(yīng)用面向的是大數(shù)據(jù),因此其應(yīng)用都是具有很大的數(shù)據(jù)集,這也就要去該框架能夠給予較大的數(shù)據(jù)傳輸帶寬。 

d) 簡化一致性模型

基于 HDFS 的應(yīng)用所需要建立的模型具有“一次寫入多次讀取”的特點,其文件一旦經(jīng)過寫入操作之后,數(shù)據(jù)一般不需要進行更改。正是由于這一特點,便可簡化數(shù)據(jù)一致性問題,從而也使得數(shù)據(jù)傳輸?shù)母咚俾?、?shù)據(jù)訪問的高吞吐量以及數(shù)據(jù)的批處理等目標具有實現(xiàn)的可能。 

e) 可移植性

任何框架在設(shè)計初始階段就會考慮平臺的可移植性,框架的可移植性不僅有利于開發(fā)各類型的應(yīng)用,而且也有利于自身開源框架的發(fā)展和推廣。

(3) 分布式存儲監(jiān)控與管理

滿足用戶可持續(xù)發(fā)展需要的數(shù)據(jù)管理需求,支持對集群整體和每個節(jié)點運行情況的秒級監(jiān)控,監(jiān)控維度至少包括:每節(jié)點分區(qū)數(shù)、內(nèi)存使用情況、存儲空間使用情況、數(shù)據(jù)文件、記錄數(shù)、IO、CPU、網(wǎng)絡(luò)等。

(4) 節(jié)點管理靈活動態(tài)擴容擴展

支持動態(tài)集群擴容,至少包括節(jié)點列表、主節(jié)點管理、內(nèi)存大小、集群IP、自動安裝目錄配置等;

(5) 數(shù)據(jù)庫數(shù)據(jù)倉庫初始化

通過數(shù)據(jù)庫新建、可配置按指定字段分區(qū)與分庫,支持副本數(shù)選擇,支持指 定數(shù)據(jù)庫類型,包括但不限于:節(jié)點數(shù)據(jù)庫、虛擬數(shù)據(jù)庫、鏡像數(shù)據(jù)庫、自分裂視圖等類型;

(6) 節(jié)點任務(wù)管理

通過節(jié)點任務(wù)管理,按節(jié)點進行任務(wù)情況查看,包括開始時間、持續(xù)時間及客戶端IP等,任務(wù)類型支持:檢索、分類統(tǒng)計、統(tǒng)計檢索、裝庫、刪除記錄、修改記錄、副本同步等;

(7) 數(shù)據(jù)清洗映射

通過省域?qū)m棓?shù)據(jù)中心日常運維作業(yè)管理功能,作業(yè)類型包括數(shù)據(jù)排重、記錄拷貝、對數(shù)據(jù)庫配置信息管理等;

(8) 數(shù)據(jù)自動分區(qū)混合存儲

通過多種存儲混合使用:支持SSD、非SSD、HDFS等多種存儲混合使用。支持冷熱數(shù)據(jù)自動分區(qū)管理。

(9) 地域/領(lǐng)域分類標引

構(gòu)建一套標準地域和領(lǐng)域主題信息知識庫體系,并通過海量數(shù)據(jù)訓(xùn)練,獲得可以自動標引文章所屬地域的訓(xùn)練集;

(10) 自動摘要提取

通過智能的手段為省域?qū)m棓?shù)據(jù)自動形成摘要的技術(shù)。摘要提取技術(shù)采用抽取式摘要生成方法,融入篇章分析與指代消解中的最新研究成果,利用數(shù)據(jù)挖掘的相關(guān)算法與模型,通過智能的手段自動提取文檔句子并形成摘要;

(11) 關(guān)鍵詞提取、實體識別

通過將省域?qū)m棓?shù)據(jù)中的關(guān)鍵詞和包括人名、地名、機構(gòu)名等各維度實體屬性進行提取,形成描述文本特征的結(jié)構(gòu)化數(shù)據(jù);

(12) 情感分析

情感分析技術(shù)結(jié)合情感詞、情感程度詞典,引入情感塊的概念,利用支持向量機模型等分類算法對收集的省域?qū)m棓?shù)據(jù)進行各粒的情感判定。同時提出了利用情感模式進行分析的技術(shù),真正實現(xiàn)了對文本的深入理解,使情感分析的性能進一步提高。方正智能分析系統(tǒng)的情感分析涵蓋了詞語、短語、句子、篇章等不同粒度,對其標注相應(yīng)的情感傾向和情感屬性,實現(xiàn)對指定文本或文本集進行全方位的分析。

4. 基于多級機構(gòu)組織省域?qū)m棓?shù)據(jù)分級授權(quán)

    數(shù)據(jù)訪問控制策略是數(shù)據(jù)安全防范和保護的主要策略,其任務(wù)是保證數(shù)據(jù)資源不被非法使用和非法訪問。各種網(wǎng)絡(luò)安全策略必須相互配合才能真正起到保護作用,而訪問控制(Access—Contr01)是保證數(shù)據(jù)安全最重要的核心策略之一,是對省域?qū)m棓?shù)據(jù)資源進行保護的重要措施,是通過某種途徑顯式地準許或限制訪問能力和訪問范圍的一種方法。

除了必須的系統(tǒng)及數(shù)據(jù)安全管理外,系統(tǒng)支持多級機構(gòu):可按省、市、縣等多級創(chuàng)建機構(gòu)。各機構(gòu)數(shù)據(jù)隔離,可對數(shù)據(jù)接入、審核、查看等分級授權(quán),如區(qū)縣可查看和使用本區(qū)縣以及被授權(quán)的數(shù)據(jù)資源

圖片8.png

3 省市區(qū)縣多級機構(gòu)管理

5. 開放靈活的省域?qū)m棓?shù)據(jù)輸出和服務(wù)

提供開放的數(shù)據(jù)輸出和服務(wù)。省域數(shù)據(jù)中心核心目標是為各地市、區(qū)縣,各類應(yīng)用提供統(tǒng)一、開放的數(shù)據(jù)輸出和服務(wù)。針對省域?qū)m棓?shù)據(jù)中心提供跨模態(tài)檢索服務(wù),可以方便的查詢數(shù)據(jù)相關(guān)信息。實現(xiàn)對外的數(shù)據(jù)推送,數(shù)據(jù)展示和應(yīng)用的多樣性,提供開放的數(shù)據(jù)API,供三方機構(gòu)二次開發(fā)和應(yīng)用。針對數(shù)據(jù)的未來應(yīng)用,在統(tǒng)一框架內(nèi)以微服務(wù)方式來實現(xiàn)省域其他業(yè)務(wù)應(yīng)用的聯(lián)動例如數(shù)據(jù)提供全省市、區(qū)縣機構(gòu)單位使用,支撐二次開發(fā)應(yīng)用。

圖片9.png

4 開放靈活的省域?qū)m棓?shù)據(jù)輸出和服務(wù)

 

三、 省域?qū)m棓?shù)據(jù)智能化應(yīng)用

數(shù)據(jù)建設(shè)的目的是為了更好的數(shù)據(jù)服務(wù)和應(yīng)用,基于省域數(shù)據(jù)資源建設(shè)和管理,結(jié)合應(yīng)用場景可提供省域?qū)m?/span>數(shù)據(jù)的智能化應(yīng)用。

1.提供媒體智能生產(chǎn)

省域數(shù)據(jù)中心集合更廣泛的數(shù)據(jù)源和素材,專項數(shù)據(jù)還具有獨特的數(shù)據(jù)特征,智能生產(chǎn)輔助能力沉浸在業(yè)務(wù)場景中,向新聞采編業(yè)務(wù)提供更豐富的供稿服務(wù)。滿足信息全面和及時,新媒體稿件資源匱乏、輔助各個站點人員對稿件的編輯, 轉(zhuǎn)載和使用。

(1) 提供統(tǒng)一的數(shù)據(jù)資源查詢和檢索

針對省域數(shù)據(jù)中心所管理的來自各源的稿件數(shù)據(jù)、圖片數(shù)據(jù)、音視頻數(shù)據(jù)、分析結(jié)果數(shù)據(jù)可以進行統(tǒng)一的查看,可以按照開放域標簽、關(guān)鍵詞等檢索,并實現(xiàn)文、圖、等跨模態(tài)檢索。

(2) 專項內(nèi)容數(shù)據(jù)供給

省域?qū)m棓?shù)據(jù)可媒體生產(chǎn)提供針對媒體篩選后的專項內(nèi)容參考,并在專項數(shù)據(jù)標簽基礎(chǔ)上進行專項數(shù)據(jù)內(nèi)容的分級分類處理,以應(yīng)用于信息檢索,生產(chǎn)選用,大屏展示等不同應(yīng)用需求。

(3) 媒體行業(yè)內(nèi)容生產(chǎn)編輯器調(diào)用

省域?qū)m棓?shù)據(jù)中心在媒體行業(yè)實現(xiàn)與生產(chǎn)系統(tǒng)的打通,在各編輯查看專項數(shù)據(jù)內(nèi)容信息,也可以在生產(chǎn)編輯器內(nèi)直接檢索及其結(jié)果的有效利用、利用語義分析技術(shù)根據(jù)稿件內(nèi)容生成合理的關(guān)鍵字和摘要等功能。而每個編輯記者都可以訂閱不同的專項信息內(nèi)容瀏覽到有價值的內(nèi)容,可以一鍵式選用到生產(chǎn)流程中編輯。

2、數(shù)據(jù)資源的可視化展示

   根絕省域資源管理的各種數(shù)據(jù)進行可視化展示,形成數(shù)據(jù)地圖和數(shù)據(jù)看板,全面體現(xiàn)目前數(shù)據(jù)的整體規(guī)模,各類數(shù)據(jù)狀況,新增情況,使用狀況,為數(shù)據(jù)資產(chǎn)建設(shè)和應(yīng)用提供直觀的體現(xiàn)。省域?qū)m棓?shù)據(jù)中心借助數(shù)據(jù)輸出服務(wù),可為大屏可視化展示提供數(shù)據(jù)的支撐。

 

圖片10.png

5 數(shù)據(jù)資源的可視化展示

3.智能風控審核平臺

在蓬勃發(fā)展的網(wǎng)絡(luò)時代及多變的傳媒格局中,監(jiān)管工作面臨著媒介傳播方式趨向融合傳播立體化、業(yè)務(wù)類型逐步走向更加多元化、多終端的局面?;谑∮?qū)m棓?shù)據(jù)建設(shè)可構(gòu)建智能風控審核平臺,提供從內(nèi)容監(jiān)管、到渠道監(jiān)管,再到傳播監(jiān)管,逐步實現(xiàn)多終端覆蓋,對本省、市、合作單位或者下屬子機構(gòu)的提供數(shù)據(jù)、報刊、新媒體、圖書、網(wǎng)絡(luò)文學(xué)等內(nèi)容進行內(nèi)容風控審核;提供各機構(gòu)內(nèi)容提供智能審核手段和自檢、監(jiān)測服務(wù)。

針對省域各機構(gòu)上傳、各系統(tǒng)采集以及互聯(lián)網(wǎng)采集接入的審核監(jiān)管數(shù)據(jù)進行統(tǒng)一管理,形成監(jiān)管數(shù)據(jù)庫,在此基礎(chǔ)上提供智能審核和審讀工作,支持條和批量處理,最終形成審核報告。

系統(tǒng)提供多級多租戶管理,分為上傳機構(gòu)、審讀員、總部等角色,按角色定義權(quán)限和查看內(nèi)容,基于省域專項數(shù)據(jù)資源建設(shè),可實現(xiàn)對監(jiān)管內(nèi)容的批量自動匯聚,及手動上傳圖文、圖集、音視頻、PDF文檔等多種類型數(shù)據(jù)。結(jié)合屬地熱點、重點事件、重點主題等監(jiān)測內(nèi)容的訂閱,輔助審讀員快速掌握市場熱點和宣傳狀況,支持對審讀稿件、重大主題的傳播影響力分析,從而掌握監(jiān)管內(nèi)容的傳播影響力狀況。

(1) 文本智能分析和審核

可以對文本中的實體、關(guān)鍵詞、情感、地域、領(lǐng)域進行智能分析和打標,提供單文本和多文本自動摘要,快速了解稿件的核心內(nèi)容。利用的文本智能審校技術(shù),是方正公司完成國家級項目的產(chǎn)品成果,審校內(nèi)容全面,除錯別字、敏感詞、標點符號等較為通用的審校功能外,智能審校還可對稿件中的相似及重復(fù)內(nèi)容、圖表公式序號及參見落空、列表序號、歷史紀年、公元紀年、干支紀年等錯誤進行檢查。針對文本稿件涉及新華社禁用詞、敏感詞、領(lǐng)導(dǎo)人、語義歧義、領(lǐng)導(dǎo)人排序等內(nèi)容進行智能審校,滿足不同用戶類型需求,提高稿件的審稿效率及質(zhì)量。針對意識形態(tài)以及最新網(wǎng)絡(luò)用語等,系統(tǒng)面向機構(gòu)用戶和個人用戶提供自定義詞庫服務(wù),通過詞庫語句,規(guī)則?充和維護,屬于案例庫或語料庫的累積過程。語料達到一定程度,機器便可深度學(xué)習(xí)。

(2) 圖片智能分析和審核

針對新媒體涉及的圖片進行智能打標,識別政治敏感、公眾人物、廣告、惡心圖像、涉黃、暴恐,對于內(nèi)容中包含的圖片,識別圖片中的文字,并對文字進行審核,是否包含垃圾信息、敏感詞,保證內(nèi)容安全性。使用人工智能鑒黃、鑒暴恐等技術(shù),智能識別圖片和視頻中的色情、性感、暴恐等內(nèi)容,遠離違規(guī)風險。

(3) 音視頻智能分析和審核

針對音視頻內(nèi)容可智能識別、解析視頻里面的文字、畫面和語音,識別包含政治敏感、違禁品、廣告內(nèi)容、色情、暴恐的視頻,保證內(nèi)容的安全性。同時對視頻中的語音、畫面進行檢測和過濾,識別視頻中出現(xiàn)的動作、事件,以及其出現(xiàn)的時間片段,方便鎖定問題出現(xiàn)的地方。

(4) 屬地領(lǐng)導(dǎo)人物庫建設(shè)和審核

基于所涉重點人物,如領(lǐng)導(dǎo)人物,構(gòu)建基本信息、新聞報道、參與相關(guān)話題、事件、資訊等相關(guān)信息系統(tǒng)建設(shè)和管理,實現(xiàn)領(lǐng)導(dǎo)人信息及關(guān)聯(lián)信息的快速查詢,領(lǐng)導(dǎo)軌跡和相關(guān)報道追蹤。提供屬地領(lǐng)導(dǎo)人物圖片、音頻、視頻打標,風控提示,包括屬地領(lǐng)導(dǎo)人物變更、落馬官員檢查等維護服務(wù)。

四、 省域?qū)m棓?shù)據(jù)建設(shè)和應(yīng)用開拓媒體的數(shù)據(jù)服務(wù)

面向媒體行業(yè),即將迎來“信息隨心至,萬物皆可及”的智媒時代。瞄準新基建帶來的紅利,享受大數(shù)據(jù)與人工智能的服務(wù),是新時代智慧媒體建設(shè)的最優(yōu)路徑。“大帶寬、高速率、低時延”的5G,使媒體享受到最直接的技術(shù)紅利伴隨著業(yè)務(wù)發(fā)展,新增數(shù)據(jù)和應(yīng)用成為常態(tài),省域數(shù)據(jù)資源建設(shè)提供開放的數(shù)據(jù)平臺,將數(shù)據(jù)與業(yè)務(wù)前后端分離、打通數(shù)據(jù)帶脈,實現(xiàn)數(shù)據(jù)統(tǒng)一集中管理。在數(shù)據(jù)應(yīng)用層面,針對不同業(yè)務(wù)場景和應(yīng)用提供微服務(wù)形式數(shù)據(jù)輸出,建設(shè)和孵化多種數(shù)據(jù)服務(wù)產(chǎn)品和數(shù)據(jù)應(yīng)用。數(shù)據(jù)與業(yè)務(wù)松耦合,不僅保障數(shù)據(jù)管理的統(tǒng)一,又保障業(yè)務(wù)應(yīng)用的靈活性。

基于數(shù)據(jù)中臺架構(gòu)支撐的省域?qū)m棓?shù)據(jù)中心治理平臺,以安全可靠、穩(wěn)健成熟的實用主義為指導(dǎo),現(xiàn)有省域業(yè)務(wù)開展提供強有力技術(shù)支撐,并為業(yè)務(wù)創(chuàng)新提供土壤。在此基礎(chǔ)上建設(shè)的專項信息服務(wù)平臺、智能風控監(jiān)管審讀平臺等基于省域數(shù)據(jù)建設(shè)的應(yīng)用,有效把控新聞輿論及社會宣傳導(dǎo)向,面向省域媒體政務(wù)、垂直領(lǐng)域、企業(yè)院校等用戶實現(xiàn)低成本、高效率、高精準度的內(nèi)容合規(guī)性保障,使媒體角色從“咨詢內(nèi)容提供者”向“城市信息服務(wù)者”轉(zhuǎn)變

五、 結(jié)語

在省域數(shù)據(jù)中心和智能化應(yīng)用支撐下,建設(shè)單位可以建設(shè)媒體機構(gòu)內(nèi)部資源的管理以及面向全省的專項數(shù)據(jù)管理服務(wù)開發(fā)。針對媒體業(yè)務(wù)系統(tǒng)、高頻的數(shù)據(jù)服務(wù)更具特色,可以一鍵實現(xiàn)業(yè)務(wù)數(shù)據(jù)接入和輸出聯(lián)動。為滿足數(shù)據(jù)應(yīng)用不斷發(fā)展和變化需要,采用組件化、微服務(wù)、彈性可擴展的數(shù)據(jù)產(chǎn)品架構(gòu)和先進的數(shù)據(jù)管理基礎(chǔ)以滿足未來數(shù)據(jù)發(fā)展需要,以應(yīng)對數(shù)據(jù)結(jié)構(gòu)復(fù)雜、變化頻繁等問題,根據(jù)服務(wù)需求選擇資源的彈性擴展,更簡單的管理和維護,以滿足各領(lǐng)域數(shù)據(jù)服務(wù)和智能化能力的擴展,打造全省融媒體樞紐級信息集散平臺,持續(xù)構(gòu)建數(shù)據(jù)服務(wù)生態(tài)。

 

參考文獻:

[1] 基于“數(shù)據(jù)+AI”雙中臺技術(shù)打造智慧媒體新基建“ 劉長明 盧嵐 徐建

[2] 面向異構(gòu)數(shù)據(jù)源的分布式集成工具研究與設(shè)計 劉海 張矚熹 任雯 肖巖平