數(shù)字信息時代,數(shù)據(jù)對經(jīng)濟建設(shè)、社會生活和企業(yè)管理等產(chǎn)生了重要影響。根據(jù)高德納(Gartner)公司分析,企業(yè)近80%的數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù)。隨著數(shù)據(jù)爆炸式增長,非結(jié)構(gòu)化數(shù)據(jù)將成為數(shù)據(jù)增長主力。實施非結(jié)構(gòu)化數(shù)據(jù)治理、提升數(shù)據(jù)質(zhì)量、挖掘數(shù)據(jù)價值是企業(yè)邁入數(shù)字化時代的關(guān)鍵。對電網(wǎng)企業(yè)而言,海量智能終端所生成的文檔、圖像、語音、視頻等非結(jié)構(gòu)化數(shù)據(jù)量已達到PB級。加強非結(jié)構(gòu)化數(shù)據(jù)治理,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)解析與價值挖掘,對電網(wǎng)企業(yè)發(fā)展具有重要的意義。
何為非結(jié)構(gòu)化數(shù)據(jù)及數(shù)據(jù)治理
非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義模型的數(shù)據(jù)。在企業(yè)的整體數(shù)據(jù)架構(gòu)中,非結(jié)構(gòu)化數(shù)據(jù)往往是指不適用于數(shù)據(jù)庫二維關(guān)系邏輯表表達的數(shù)據(jù),包括所有格式辦公文檔、工程圖紙、圖像和音視頻文件等。在國家電網(wǎng)有限公司數(shù)據(jù)資產(chǎn)中,非結(jié)構(gòu)化數(shù)據(jù)包括由地理信息系統(tǒng)、95598客服系統(tǒng)、項目管理系統(tǒng)、電子商務(wù)平臺等產(chǎn)生的地理信息數(shù)據(jù)、客服語音、項目資料、物資采購信息等數(shù)據(jù)。
數(shù)據(jù)治理是指在管理數(shù)據(jù)資產(chǎn)過程中行使權(quán)力,包括計劃、監(jiān)控和實施三個步驟。數(shù)據(jù)治理聚焦如何制訂有關(guān)數(shù)據(jù)的決策、人員在數(shù)據(jù)管理方面的行為方式,確保根據(jù)數(shù)據(jù)管理制度和最佳實踐正確地管理數(shù)據(jù)。
非結(jié)構(gòu)化數(shù)據(jù)治理統(tǒng)籌和協(xié)調(diào)非結(jié)構(gòu)化數(shù)據(jù)各項管理工作有序開展,核心要素體現(xiàn)在組織、制度、文化和考核四個方面,這些是開展非結(jié)構(gòu)化數(shù)據(jù)管理工作的關(guān)鍵。
電網(wǎng)企業(yè)非結(jié)構(gòu)化數(shù)據(jù)治理的前景和挑戰(zhàn)
公司于2019年開展數(shù)據(jù)中臺建設(shè),2022年數(shù)據(jù)中臺邁入深化運營階段,非結(jié)構(gòu)化數(shù)據(jù)通過非結(jié)構(gòu)化組件基本實現(xiàn)了集中存儲,滿足基于文檔全周期的存、取、用需求。電網(wǎng)企業(yè)的非結(jié)構(gòu)化數(shù)據(jù)貫穿于發(fā)電、輸電、變電、配電、用電和調(diào)度所有環(huán)節(jié),也幾乎存在于企業(yè)經(jīng)營管理的所有業(yè)務(wù)應(yīng)用當中。隨著人工智能等信息處理技術(shù)發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)管理的內(nèi)涵及外延都在發(fā)生深刻變化,有必要重新審視當前企業(yè)非結(jié)構(gòu)化數(shù)據(jù)管理現(xiàn)狀,規(guī)劃新時期非結(jié)構(gòu)化數(shù)據(jù)管理體系及實施路徑。電網(wǎng)企業(yè)非結(jié)構(gòu)化數(shù)據(jù)治理工作主要面臨著以下挑戰(zhàn):
存在信息孤島。電網(wǎng)企業(yè)在日常經(jīng)營管理和業(yè)務(wù)管理過程中使用功能各異的應(yīng)用系統(tǒng)或信息化管理平臺,產(chǎn)生各種非結(jié)構(gòu)化數(shù)據(jù)。這些非結(jié)構(gòu)化數(shù)據(jù)具有來源多、格式多、涉及專業(yè)多等特點,這一方面是由于信息系統(tǒng)的建設(shè)具有階段性,另一方面是由于各個系統(tǒng)自成體系,導致系統(tǒng)之間的數(shù)據(jù)呈現(xiàn)孤立狀態(tài),數(shù)據(jù)標準不統(tǒng)一,缺少數(shù)據(jù)貫通接口。
管控體系不完善。電網(wǎng)企業(yè)部分系統(tǒng)之間實現(xiàn)了文件之間的流轉(zhuǎn),但是非結(jié)構(gòu)化數(shù)據(jù)管理方法和制度仍然不夠完善,如部分文件在各個系統(tǒng)內(nèi)歸檔管理、流轉(zhuǎn)主要基于數(shù)據(jù)導出方式,難以進行統(tǒng)一檢索和共享利用。
存在數(shù)據(jù)黑盒。當前電網(wǎng)企業(yè)文檔管理制度并非建立在徹底理清數(shù)據(jù)的基礎(chǔ)上。非結(jié)構(gòu)化數(shù)據(jù)缺少必要的分類和元數(shù)據(jù)項,缺乏清晰和規(guī)范的管理流程和要求,數(shù)據(jù)量和數(shù)據(jù)內(nèi)容難以掌握,影響非結(jié)構(gòu)化數(shù)據(jù)價值發(fā)揮。
電網(wǎng)企業(yè)非結(jié)構(gòu)化數(shù)據(jù)治理工作探索與實踐
國網(wǎng)大數(shù)據(jù)中心遵循公司數(shù)據(jù)發(fā)展戰(zhàn)略,以充分發(fā)揮數(shù)據(jù)作用、驅(qū)動企業(yè)數(shù)字化轉(zhuǎn)型為目標,按照“基于中臺、統(tǒng)籌推進、統(tǒng)一納管、安全共享”的工作原則,把核心非結(jié)構(gòu)化數(shù)據(jù)資源匯聚至數(shù)據(jù)中臺,形成全生命周期和全業(yè)務(wù)系統(tǒng)端到端非結(jié)構(gòu)化數(shù)據(jù)治理思路,建立從非結(jié)構(gòu)化元數(shù)據(jù)體系研究與數(shù)據(jù)資源目錄構(gòu)建到非結(jié)構(gòu)化數(shù)據(jù)協(xié)同治理的工作模式,推動中臺非結(jié)構(gòu)化數(shù)據(jù)質(zhì)量提高,為業(yè)務(wù)工作賦能。
非結(jié)構(gòu)化數(shù)據(jù)的全生命周期管理包括非結(jié)構(gòu)化數(shù)據(jù)采集、傳輸、存儲、交換等各個環(huán)節(jié)的數(shù)據(jù)集整體管理,以及各個數(shù)據(jù)項處理方法。
基于數(shù)據(jù)中臺開展非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一存儲?;跀?shù)據(jù)中臺非結(jié)構(gòu)化組件集中存儲和管理所有接入業(yè)務(wù)應(yīng)用系統(tǒng)的非結(jié)構(gòu)化數(shù)據(jù)。將非結(jié)構(gòu)化存儲空間劃分為存儲區(qū)和共享區(qū),其中存儲區(qū)用于接入、存儲源業(yè)務(wù)系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù),相關(guān)數(shù)據(jù)滿足各專業(yè)系統(tǒng)對本系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)全生命周期的存、取、用需求。共享區(qū)匯聚具有高共享價值的非結(jié)構(gòu)化數(shù)據(jù),相關(guān)數(shù)據(jù)經(jīng)數(shù)據(jù)盤點、業(yè)務(wù)部門確認,用于跨專業(yè)跨系統(tǒng)數(shù)據(jù)共享和構(gòu)建數(shù)據(jù)服務(wù),并在數(shù)據(jù)資源目錄可視可查。
建立元數(shù)據(jù)管理體系。將非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)分為基礎(chǔ)元數(shù)據(jù)和增強元數(shù)據(jù),梳理形成非結(jié)構(gòu)化數(shù)據(jù)元數(shù)據(jù)體系。其中基礎(chǔ)元數(shù)據(jù)參考國家標準《信息與文獻都柏林核心元數(shù)據(jù)元素集》(GB/T25100-2010),實現(xiàn)對非結(jié)構(gòu)化數(shù)據(jù)對象的規(guī)范定義,如標題、來源、摘要等。增強元數(shù)據(jù)依據(jù)應(yīng)用業(yè)務(wù)需求進行設(shè)計,包含源端系統(tǒng)業(yè)務(wù)元數(shù)據(jù)、管理元數(shù)據(jù)及操作元數(shù)據(jù)。采用統(tǒng)分統(tǒng)管原則,基礎(chǔ)元數(shù)據(jù)統(tǒng)一管理,增強元數(shù)據(jù)按需設(shè)計,形成一套完整的元數(shù)據(jù)管理體系。
打造中臺非結(jié)構(gòu)化數(shù)據(jù)共享區(qū),實現(xiàn)文件流轉(zhuǎn)與共享。新建應(yīng)用系統(tǒng)基于數(shù)據(jù)中臺建設(shè),存量業(yè)務(wù)應(yīng)用系統(tǒng)逐步按需將非結(jié)構(gòu)化數(shù)據(jù)遷移至數(shù)據(jù)中臺,基于數(shù)據(jù)中臺非結(jié)構(gòu)化組件,統(tǒng)籌不同應(yīng)用系統(tǒng)的文件在數(shù)據(jù)中臺流轉(zhuǎn)與共享。通過數(shù)據(jù)中臺構(gòu)建文件智能分析能力,使各使用方可以快速檢索并在不同應(yīng)用系統(tǒng)之間傳遞所需文件,保證文件的準確性、一致性、及時性、安全性等,支撐非結(jié)構(gòu)化數(shù)據(jù)在不同專業(yè)之間、端到端有序高效地傳遞和交互。
開展質(zhì)量管理。依據(jù)數(shù)據(jù)在生命周期各個階段的特性,建立數(shù)據(jù)質(zhì)量控制機制,及時發(fā)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)質(zhì)量問題,提升數(shù)據(jù)可用性。數(shù)據(jù)使用方在使用過程中提出數(shù)據(jù)質(zhì)量需求或數(shù)據(jù)質(zhì)量問題,協(xié)同數(shù)據(jù)管理方、數(shù)據(jù)提供方進行數(shù)據(jù)質(zhì)量治理,開展非結(jié)構(gòu)化數(shù)據(jù)治理流程管控,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)治理閉環(huán)管理。
建立常態(tài)運營機制,建設(shè)多元化應(yīng)用樣板間。完善非結(jié)構(gòu)化數(shù)據(jù)運營機制,常態(tài)開展非結(jié)構(gòu)化數(shù)據(jù)需求受理、解決方案制訂、數(shù)據(jù)接入、數(shù)據(jù)溯源、數(shù)據(jù)共享等工作。專項推進建設(shè)多元化應(yīng)用樣板間,聚焦制度標準管理體系開展數(shù)字化賦能建設(shè),擴大技術(shù)資料、標準制度等公開數(shù)據(jù)接入范圍,滿足基層用戶查數(shù)據(jù)、用數(shù)據(jù)需求;圍繞項目中臺智能化提升工作,構(gòu)建非結(jié)構(gòu)化數(shù)據(jù)提取功能和專題檢索服務(wù),輔助項目過程材料智能審查,改變現(xiàn)有線下傳遞、低效審閱的局面。
?。ㄗ髡邌挝唬簢译娋W(wǎng)有限公司大數(shù)據(jù)中心)
評論