人民日報社融媒體數(shù)據(jù)庫運維體系建設(shè)探討

2022/09/05-17:15 來源:

0  

推動傳統(tǒng)媒體和新興媒體融合發(fā)展,是落實中央全面深化改革部署的重要任務(wù),是適應(yīng)媒體格局深刻變化、提升主流媒體傳播力公信力影響力的重要舉措。媒體深度融合寫入“十四五”規(guī)劃,意味著推進媒體深融發(fā)展已經(jīng)成為迫在眉睫的工作重心。人民日報社較早的開展了報業(yè)媒體融合轉(zhuǎn)型之路的探索,如今已形成報網(wǎng)端微多平臺融合發(fā)展的全媒體矩陣。然而,報社核心工作區(qū)機房建設(shè)年代早,設(shè)備老舊資源有限,目前僅對傳統(tǒng)紙媒業(yè)務(wù)提供技術(shù)服務(wù)。按照報社在建項目規(guī)劃,新數(shù)據(jù)中心機房即將建成,設(shè)備資源充足,將搭建專有云平臺,且將新建、改造、整合傳統(tǒng)媒體和新媒體業(yè)務(wù)應(yīng)用系統(tǒng),打造全報社業(yè)務(wù)互聯(lián)、數(shù)據(jù)互通的新型融媒體平臺。

數(shù)據(jù)庫的可靠性和性能,直接關(guān)系到業(yè)務(wù)系統(tǒng)的運行狀態(tài),數(shù)據(jù)庫運維工作至關(guān)重要。融媒體業(yè)務(wù)數(shù)據(jù)庫相較于傳統(tǒng)媒體業(yè)務(wù)數(shù)據(jù)庫,運維需求根據(jù)業(yè)務(wù)特點有所不同;業(yè)務(wù)系統(tǒng)上云相較于傳統(tǒng)物理機環(huán)境,給數(shù)據(jù)庫運維帶來一些便利,但運維操作難度也有所提升。本文在報社新型融媒體平臺建成上線之前,總結(jié)過去數(shù)據(jù)庫運維經(jīng)驗,分析新平臺新架構(gòu)環(huán)境對數(shù)據(jù)庫運維帶來的便利和挑戰(zhàn),對未來報社融媒體數(shù)據(jù)庫運維體系構(gòu)建進行探討。

 

1  人民日報社傳統(tǒng)業(yè)務(wù)數(shù)據(jù)庫運維現(xiàn)狀

人民日報社現(xiàn)機房建設(shè)于2000年,機房面積較小,硬件設(shè)備資源有限,所能承載的業(yè)務(wù)系統(tǒng)數(shù)量有限,目前僅采編系統(tǒng)、投稿系統(tǒng)、公共稿庫等傳統(tǒng)紙媒業(yè)務(wù)系統(tǒng)運行在該機房。這些系統(tǒng)建成較早,均采用物理機架構(gòu)部署,且機房現(xiàn)有空間及配置無法搭建云平臺,無法將其改造部署在云平臺上。每日出報任務(wù)必須保障平穩(wěn)安全完成,因此數(shù)據(jù)庫故障須在短時間內(nèi)修復(fù),運維人員全天候監(jiān)控值守。

根據(jù)以往的數(shù)據(jù)庫運維工作總結(jié),報社數(shù)據(jù)庫運維內(nèi)容主要包括監(jiān)控及告警通知、風(fēng)險和故障排查及修復(fù)、日常運維及巡檢、高可用配置管理、備份與還原策略、漏洞修復(fù)與版本升級、文件存放與清理、賬號權(quán)限與運維人員管理、新增數(shù)據(jù)庫搭建等?,F(xiàn)有數(shù)據(jù)庫均為關(guān)系型數(shù)據(jù)庫,僅存儲結(jié)構(gòu)化文本數(shù)據(jù),數(shù)據(jù)量不大;非結(jié)構(gòu)化數(shù)據(jù)主要為圖片,直接拷貝到硬盤保存。

數(shù)據(jù)庫運維目前存在的問題一部分是由于當(dāng)前機房環(huán)境和系統(tǒng)架構(gòu)所致:新增數(shù)據(jù)庫搭建需要同時調(diào)配物理機資源、網(wǎng)絡(luò)資源、軟件資源和存儲資源,準(zhǔn)備工作復(fù)雜,搭建周期長;各業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫均以雙機物理機架構(gòu)部署,配置為雙活或者主備模式,每日進行全量邏輯備份做冷備庫,高可用和備份策略比較簡單,若雙機集群宕機則業(yè)務(wù)中斷,恢復(fù)或者重新搭建數(shù)據(jù)庫集群需要一定的時間,啟用冷備庫也會導(dǎo)致部分?jǐn)?shù)據(jù)的丟失,可靠性低;沒有足夠資源搭建測試環(huán)境,無法測試評估數(shù)據(jù)庫數(shù)據(jù)恢復(fù)、漏洞修復(fù)和版本升級、性能調(diào)優(yōu)等一系列運維操作是否正確、是否影響業(yè)務(wù)正常運行,也就無法在生產(chǎn)環(huán)境中實現(xiàn);因安全方面的要求,數(shù)據(jù)庫服務(wù)器運行在內(nèi)網(wǎng)環(huán)境中,數(shù)據(jù)庫運維需要的軟件工具、操作系統(tǒng)插件、補丁包等無法在線安裝,運維人員各自在互聯(lián)網(wǎng)下載后導(dǎo)入到內(nèi)網(wǎng)服務(wù)器中進行手動安裝,且每臺服務(wù)器需要分別安裝,大大影響運維效率。

除環(huán)境影響之外,數(shù)據(jù)庫運維機制本身也存在一些問題,總結(jié)如下。

1)規(guī)范性文檔資料少

因數(shù)據(jù)庫搭建年份較早,當(dāng)時還未有規(guī)范化的文檔管理要求,數(shù)據(jù)庫相關(guān)文檔存放較分散,不方便查閱。目前已整理了各數(shù)據(jù)庫所在服務(wù)器地址、賬號密碼、啟停操作等數(shù)據(jù)形成運維手冊,但日常運維還涉及到數(shù)據(jù)庫安裝目錄、配置文件和各類日志存放位置、高可用配置機制和備份還原機制、日常故障處理流程、日常運維操作和巡檢流程等。一切有章可循才能在風(fēng)險和故障告警第一時間進行快速、正確的運維處理。

2)數(shù)據(jù)庫運維管理分散

各業(yè)務(wù)子系統(tǒng)的數(shù)據(jù)庫沒有統(tǒng)一的運維管理平臺,無法便捷掌握各數(shù)據(jù)庫運行狀態(tài)、配置信息和資源占用情況,只能手動分別查看;運維人員一般通過自己下載的各種第三方數(shù)據(jù)庫圖形化管理工具,或者直接遠(yuǎn)程到數(shù)據(jù)庫所在服務(wù)器上進行指令操作、腳本運行來完成運維工作,每個人有各自的運維方式,運維經(jīng)驗和運維工具未得到共享,且運維日志分散在各管理工具及各臺服務(wù)器中,不方便集中查看,影響數(shù)據(jù)庫日常運維效率;第三方運維人員皆使用各數(shù)據(jù)庫管理員賬號登錄進行運維操作,權(quán)限不受限制且日志無法區(qū)分,只能對其操作進行人工監(jiān)視,存在運維安全隱患。

3)部分重復(fù)性工作由人工完成

數(shù)據(jù)庫運維有不少重復(fù)性工作,比如日常啟停操作、例行巡檢、補丁更新、主備切換、日常備份、部分日志及備份文件清理、告警日志信息排查等,這些工作部分由運維人員各自編寫的定時腳本完成,其余由人工指令操作完成。重復(fù)性工作造成人力資源的浪費。

4)無風(fēng)險提示和故障預(yù)警

目前對于數(shù)據(jù)庫的監(jiān)控僅測試其連接是否成功,發(fā)現(xiàn)問題時數(shù)據(jù)庫已宕機,業(yè)務(wù)中斷,需要一定時間來修復(fù)。應(yīng)及時獲取數(shù)據(jù)庫運行狀態(tài)參數(shù)、日志中的各類告警信息,通過算法模型分析,預(yù)測數(shù)據(jù)庫的潛在風(fēng)險,及時調(diào)整修復(fù)這些問題,盡可能減少數(shù)據(jù)庫宕機的發(fā)生。

5)無直觀的數(shù)據(jù)庫信息展示平臺

目前只有簡易的監(jiān)控界面顯示數(shù)據(jù)庫是否宕機,對于數(shù)據(jù)庫配置信息、運行狀態(tài)、告警信息、分析報告以及一些敏感操作沒有直觀的展示界面,不能及時發(fā)現(xiàn)數(shù)據(jù)庫的風(fēng)險隱患,且在對每個數(shù)據(jù)庫進行運維操作之前都要手工檢查其運行狀態(tài)和日志信息,影響運維效率。

 

2  人民日報社融媒體數(shù)據(jù)庫運維難點

新建融媒體平臺將部署在新機房專有云平臺,結(jié)合云平臺對資源池和虛擬機的靈活操作,當(dāng)前數(shù)據(jù)庫運維的很多問題將得到解決。云平臺中將劃分?jǐn)?shù)據(jù)庫資源池,可通過模板方便快捷的搭建新數(shù)據(jù)庫;結(jié)合虛擬機本身的鏡像和快照模式,故障恢復(fù)更加快捷和多樣化,可靠性增強;基于云管理平臺可以進行一些批量操作,如批量關(guān)啟數(shù)據(jù)庫所在虛擬機,批量打補丁等;可快捷搭建測試環(huán)境,模擬生產(chǎn)環(huán)境進行一些數(shù)據(jù)庫運維測試操作;運維人員各種操作均有日志記錄且可監(jiān)控錄像,風(fēng)險行為可追溯,安全防控力度得到加強。

然而,云平臺雖然給運維帶來了一些便利,但并不能解決數(shù)據(jù)庫運維機制本身存在的問題;融媒體相較于傳統(tǒng)媒體有著不同的特點,其數(shù)據(jù)庫架構(gòu)及運維需求也不同以往,可預(yù)見的運維難點總結(jié)如下。

1)融媒體平臺涉及業(yè)務(wù)系統(tǒng)多、數(shù)據(jù)類型多,數(shù)據(jù)庫種類和數(shù)量隨之增多

新建融媒體平臺包括融媒體資源庫、融媒體采編、融媒體線索匯聚、融媒體報道指揮、傳播力和輿情分析、融媒體績效考核等一系列業(yè)務(wù)系統(tǒng),數(shù)據(jù)量將會迅速增加,數(shù)據(jù)類型多樣化,按數(shù)據(jù)結(jié)構(gòu)劃分可分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),按過程劃分可分為爬蟲獲取原始數(shù)據(jù)、清洗后的中間數(shù)據(jù)以及算法分析后的結(jié)果數(shù)據(jù),按業(yè)務(wù)劃分可分為素材數(shù)據(jù)、半成品數(shù)據(jù)和成品數(shù)據(jù)等,相應(yīng)的數(shù)據(jù)庫的種類和數(shù)量會隨之?dāng)U大,包括關(guān)系型數(shù)據(jù)庫mySQL、非關(guān)系型數(shù)據(jù)庫mongoDB、內(nèi)存數(shù)據(jù)庫Redis等。不同的數(shù)據(jù)庫有不同的管理平臺和運維工具,數(shù)據(jù)庫類型和數(shù)量的增加會加重數(shù)據(jù)庫管理分散的問題;若不減少人工重復(fù)性操作,人力成本將會極大增加,運維效率也難以達(dá)到要求;大量的數(shù)據(jù)庫更需要規(guī)范化的文檔管理,包括日常的一些配置和運維流程、海量數(shù)據(jù)按類別的留存和清理時效等,降低溝通成本,避免大量運維工作無章可循的混亂。

2)融媒體平臺時效性要求高,數(shù)據(jù)庫可靠性需進一步提升

傳統(tǒng)紙媒業(yè)務(wù)需要每天按時完成出報任務(wù),而融媒體平臺的信息發(fā)布更注重時效性,業(yè)務(wù)系統(tǒng)運行中斷、數(shù)據(jù)丟失等會造成嚴(yán)重的后果。報道指揮、線索匯聚、傳播力和輿情分析等系統(tǒng)業(yè)務(wù)也需要不間斷的運轉(zhuǎn),因此,融媒體數(shù)據(jù)庫可靠性要求更高。因此,可根據(jù)各業(yè)務(wù)系統(tǒng)的特點和需求擬制不同的高可用配置機制、備份機制,根據(jù)不同的故障情形擬制不同的故障恢復(fù)機制,故障發(fā)生時可隨時參考實施,而不是由運維人員臨時根據(jù)現(xiàn)場狀況進行方案制定;需引入數(shù)據(jù)庫風(fēng)險故障預(yù)警能力,盡可能提前發(fā)現(xiàn)風(fēng)險并阻止數(shù)據(jù)庫故障的發(fā)生;采用全面直觀的數(shù)據(jù)庫信息展示平臺,一目了然掌握各數(shù)據(jù)庫運行狀態(tài),及時發(fā)現(xiàn)數(shù)據(jù)庫風(fēng)險隱患,提升運維效率。

3)業(yè)務(wù)系統(tǒng)上云后,數(shù)據(jù)庫運維便捷度提升,運維復(fù)雜度也相應(yīng)提升

新業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫部署在專有云平臺虛擬機中,因此數(shù)據(jù)庫運維人員需同時掌握數(shù)據(jù)庫運維技術(shù)和一定程度的云平臺運維技術(shù),運維復(fù)雜度提升。例如,虛擬機自身的鏡像、快照提升了數(shù)據(jù)庫可靠性,但這伴隨著更加復(fù)雜的備份機制和故障恢復(fù)機制;利用虛擬機模擬生產(chǎn)環(huán)境搭建測試平臺,進行數(shù)據(jù)庫測試的一系列操作;生產(chǎn)環(huán)境數(shù)據(jù)庫打補丁全過程對虛擬機進行的快照備份以及可能的回滾工作等,運維效率依賴于運維人員個人的技術(shù)能力和熟練程度。因此,針對各種常用的配置和運維操作,需要制定規(guī)范化的運維流程指導(dǎo),并不斷更新記錄文檔,方便追溯和借鑒歷史運維經(jīng)驗和解決方案,保障運維效率和質(zhì)量。

 

 人民日報社融媒體數(shù)據(jù)庫運維體系建設(shè)探索

經(jīng)過多年的信息化建設(shè),人民日報社數(shù)據(jù)庫運維已積累了大量的經(jīng)驗,結(jié)合對即將建成的融媒體平臺數(shù)據(jù)庫運維難點的分析,本文認(rèn)為,可制定一系列規(guī)范化管理文檔來約束和指導(dǎo)數(shù)據(jù)庫運維操作,建設(shè)集中統(tǒng)一的運維管控平臺來整體把控數(shù)據(jù)庫運維工作運轉(zhuǎn),建設(shè)全面直觀的數(shù)據(jù)庫信息展示平臺來清晰呈現(xiàn)數(shù)據(jù)庫實時運行狀態(tài),搭載自動化運維引擎減少人工作業(yè)、提升運維效率,搭載智能化運維引擎提升風(fēng)險預(yù)知、故障研判和運維方案制定的能力,來構(gòu)建“事前預(yù)防、事中快速響應(yīng)、事后可追溯”的規(guī)范化、統(tǒng)一化、智能化、自動化、可視化的融媒體數(shù)據(jù)庫運維體系,如圖1所示。



圖片1.png

1 人民日報社融媒體數(shù)據(jù)庫運維體系


 

1)規(guī)范化

規(guī)范化是一切運維工作的基礎(chǔ),即是將日常運維中的碎片化經(jīng)驗集中梳理,成為指導(dǎo)運維工作的指南和規(guī)則。根據(jù)運維工作總結(jié),規(guī)范化管理內(nèi)容可包括文件管理、配置管理、策略管理及安全管理,如圖2所示。各業(yè)務(wù)子系統(tǒng)數(shù)據(jù)庫的安裝目錄、配置文件目錄,各類日志文件、備份文件、所在虛擬機鏡像及快照文件、常用運維工具和補丁包的存放位置及清理機制,可進行規(guī)范化指定和記錄,方便管理和查找,運維工具和補丁包也應(yīng)時常更新維護;配置管理包括數(shù)據(jù)庫的網(wǎng)絡(luò)、實例名等基本配置,以及高可用配置和告警閾值的配置規(guī)則及信息記錄;策略管理包括數(shù)據(jù)庫啟停、主備切換等日常運維策略,以及巡檢策略、備份策略、漏洞修復(fù)策略,事件處理策略應(yīng)包括告警甚至故障發(fā)生時的標(biāo)準(zhǔn)化處理流程,總結(jié)經(jīng)驗化的事件處理方案并不斷更新積累,后續(xù)運維可直接參考;安全管理必不可少,要細(xì)化數(shù)據(jù)庫運維賬號的權(quán)限分配,限制各類運維人員的操作范圍,對運維人員的值班、事件記錄、操作規(guī)范等制訂明確的管理規(guī)則。


圖片2.png


2 人民日報社融媒體數(shù)據(jù)庫運維規(guī)范化管理內(nèi)容


 

2)統(tǒng)一化

統(tǒng)一化是將各業(yè)務(wù)子系統(tǒng)、各異構(gòu)數(shù)據(jù)庫進行集中管理,建立統(tǒng)一運維管控平臺,提高運維效率和安全性。該平臺可分為用戶管理模塊、信息獲取模塊以及操作下發(fā)模塊,如圖3所示。運維人員統(tǒng)一登陸該平臺進行信息查看和運維操作,可根據(jù)其負(fù)責(zé)的業(yè)務(wù)子系統(tǒng)和數(shù)據(jù)庫運維內(nèi)容進行權(quán)限控制,并對其操作進行詳細(xì)的日志記錄。采集各異構(gòu)數(shù)據(jù)庫原始數(shù)據(jù)之后,可將其解析為該平臺所需信息,并統(tǒng)一數(shù)據(jù)格式,為后續(xù)集中展示和分析預(yù)測提供支持。在該平臺可進行大部分常規(guī)的數(shù)據(jù)庫操作,方便快捷,平臺將自動將根據(jù)數(shù)據(jù)庫不同類型解析為其適用的指令并下發(fā)。

圖片3.png 

3 人民日報社融媒體數(shù)據(jù)庫統(tǒng)一運維管控平臺

 

3)智能化

數(shù)據(jù)庫故障風(fēng)險預(yù)知需要智能化數(shù)據(jù)分析來實現(xiàn),通過對歷史數(shù)據(jù)訓(xùn)練建模,也可對故障原因進行智能化分析并尋求解決方案,對日志數(shù)據(jù)的智能化分析可形成各種運維報告。構(gòu)建智能化運維引擎供運維平臺調(diào)用,可提前預(yù)防一些潛在故障,有效協(xié)助運維人員進行判斷實施。如圖4所示,對歷史數(shù)據(jù)進行清洗得到訓(xùn)練集,進行不同的算法訓(xùn)練之后可得到風(fēng)險預(yù)測模型、巡檢結(jié)果分析模型、事件分析研判模型及事件處理模型等。導(dǎo)入數(shù)據(jù)庫實時數(shù)據(jù)信息,便可通過各類模型得到分析結(jié)論或者解決方案。結(jié)論和方案在實際實施中可得到驗證,包括人工干預(yù)等過程生成的日志可回溯到歷史數(shù)據(jù)中,更新訓(xùn)練集數(shù)據(jù),使模型的智能化能力不斷得到提升。驗證成功的結(jié)論和方案可記錄歸檔,日后運維遇到同樣的問題可參考實施。

圖片4.png



4 人民日報社融媒體數(shù)據(jù)庫智能化運維引擎


4)自動化

過去的數(shù)據(jù)庫運維工作積累了大量的碎片化運維經(jīng)驗和運維工具,運維經(jīng)驗經(jīng)規(guī)范化整理可形成一系列運維策略,而實現(xiàn)各種功能的運維命令、腳本、數(shù)據(jù)庫自帶的運維組件及第三方運維插件等工具可形成共享的運維工具庫,供各類運維操作隨時調(diào)用。這些經(jīng)驗和工具便可構(gòu)建自動化運維引擎供運維平臺調(diào)用,盡可能減少重復(fù)性人工作業(yè),提高運維效率。如圖5所示,自動化運維可由計劃觸發(fā)或事件觸發(fā)。計劃包括人工設(shè)定的巡檢、備份、漏洞修復(fù)等任務(wù),這些任務(wù)啟動將自動按照規(guī)范化的策略進行實施,調(diào)用共享的運維命令、腳本等工具完成任務(wù)。告警、故障等事件發(fā)生時,可參照規(guī)范化的事件處理策略,自動化查找記錄中有無相同事件的解決方案可用,若有則按其執(zhí)行,若無可參考智能化運維引擎給出的解決方案,必要時結(jié)合人工干預(yù)完成事件處理,全程可調(diào)用運維工具庫快捷執(zhí)行運維操作。



圖片5.png

        圖5 人民日報社融媒體數(shù)據(jù)庫自動化運維引擎

 

5)可視化

數(shù)據(jù)庫運維可視化包括數(shù)據(jù)庫基本信息、運行狀態(tài)以及分析報告等的可視化呈現(xiàn),即本文所描述“統(tǒng)一運維管控平臺”中的信息獲取模塊的可視化展示,是運維人員全面、直觀、實時掌握數(shù)據(jù)庫運行狀態(tài)的窗口。數(shù)據(jù)庫運行狀態(tài)是否正常,一目了然的集中可視化展示是最基本的要求,若有告警信息、風(fēng)險預(yù)警、敏感操作等運行隱患,需及時、準(zhǔn)確地以醒目的方式呈現(xiàn)出來;數(shù)據(jù)庫基本配置、資源占用、性能指標(biāo)等的可視化呈現(xiàn),可以幫助運維人員直觀地發(fā)現(xiàn)數(shù)據(jù)庫風(fēng)險隱患以及影響數(shù)據(jù)庫性能的因素;數(shù)據(jù)庫每日將會產(chǎn)生各類分析報告,如每日運維報告、事件分析報告、備份報告、漏洞修復(fù)報告等,這些報告的可視化呈現(xiàn)幫助運維人員快速掌握報告重點內(nèi)容,提煉需要解決的問題。

 

4  結(jié)束語

人民日報社新型融媒體平臺的建成,將為報社新聞事業(yè)進一步發(fā)展提供堅實的技術(shù)支撐。融媒體業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫的平穩(wěn)、持續(xù)運轉(zhuǎn)是業(yè)務(wù)工作正常發(fā)揮效用的基本要求,因此對數(shù)據(jù)庫的運維工作應(yīng)格外重視。本文所提出的規(guī)范化、統(tǒng)一化、智能化、自動化、可視化運維體系構(gòu)建理念,改變了傳統(tǒng)的運維方式,對運維工作面臨的難點提出了解決思路,為運維效率、運維質(zhì)量及運維安全的提升提供參考。

在今后的融媒體數(shù)據(jù)庫運維平臺實際建設(shè)過程中,應(yīng)廣泛調(diào)研數(shù)據(jù)庫運維最新技術(shù)和優(yōu)秀案例,汲取適用于報社數(shù)據(jù)庫運維模式的技術(shù)要點,不斷填充本文提出的運維體系使其具體化,最終形成融媒體數(shù)據(jù)庫運維平臺的技術(shù)架構(gòu)和建設(shè)方案。

 

 

參考文獻:

[1] 萊恩·坎貝爾,夏麗蒂·梅杰斯.數(shù)據(jù)庫可靠性工程—數(shù)據(jù)庫系統(tǒng)設(shè)計與運維指南.第1版.北京:人民郵電出版社;2020.