上海外國(guó)語(yǔ)大學(xué):數(shù)據(jù)中臺(tái)幫高校實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)化
隨著商業(yè)環(huán)境的不斷發(fā)展,企業(yè)間的競(jìng)爭(zhēng)越來(lái)越激烈,如何利用現(xiàn)有的數(shù)據(jù)快速地定位問(wèn)題、分析問(wèn)題和解決問(wèn)題,成為企業(yè)間競(jìng)爭(zhēng)的焦點(diǎn)。為了應(yīng)對(duì)復(fù)雜多變的市場(chǎng)環(huán)境,為企業(yè)各層決策者提供數(shù)據(jù)支持,從而贏得核心競(jìng)爭(zhēng)力,阿里集團(tuán)首先提出了“中臺(tái)”的概念。
數(shù)據(jù)中臺(tái)系統(tǒng),就是對(duì)海量數(shù)據(jù)進(jìn)行采集、計(jì)算、存儲(chǔ)、加工,形成標(biāo)準(zhǔn)的大數(shù)據(jù)資產(chǎn)層,為組織的內(nèi)外部客戶(hù)提供高效數(shù)據(jù)服務(wù)。數(shù)據(jù)中臺(tái)能夠降低數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的重復(fù)建設(shè),減少煙囪式協(xié)作的成本,幫助組織構(gòu)建新型的差異化競(jìng)爭(zhēng)優(yōu)勢(shì)。
數(shù)據(jù)中臺(tái)是涵蓋了數(shù)據(jù)資產(chǎn)、數(shù)據(jù)治理、數(shù)據(jù)模型、垂直數(shù)據(jù)中心、全域數(shù)據(jù)中心、萃取數(shù)據(jù)中心、數(shù)據(jù)服務(wù)等多個(gè)層次的體系化建設(shè)方法。“讓一切業(yè)務(wù)數(shù)據(jù)化,一切數(shù)據(jù)業(yè)務(wù)化”是對(duì)數(shù)據(jù)中臺(tái)系統(tǒng)功能的簡(jiǎn)要概括。
數(shù)據(jù)中臺(tái)系統(tǒng)的特點(diǎn)
數(shù)據(jù)中臺(tái)與傳統(tǒng)的業(yè)務(wù)前臺(tái)和后臺(tái)有顯著的區(qū)別,與傳統(tǒng)的數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)既有一定的聯(lián)系,又有很大的區(qū)別。
數(shù)據(jù)中臺(tái)與前后臺(tái)
組織中的前臺(tái)是指各類(lèi)數(shù)據(jù)應(yīng)用,這些應(yīng)用可能是管理流程的配置、支持決策的數(shù)據(jù)和報(bào)表的提供、各種數(shù)據(jù)查詢(xún)服務(wù),也可能是支持業(yè)務(wù)工作的軟件開(kāi)發(fā)等。
后臺(tái)是指對(duì)原始數(shù)據(jù)的管理,這些數(shù)據(jù)可能是關(guān)系型數(shù)據(jù)庫(kù)中的靜態(tài)實(shí)體數(shù)據(jù)或者業(yè)務(wù)數(shù)據(jù);也可能是服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備等生成的各類(lèi)日志數(shù)據(jù);或者是人工填報(bào)和上傳的半結(jié)構(gòu)化或非結(jié)構(gòu)化的圖表、文本、音頻、視頻等數(shù)據(jù)。
介于前臺(tái)數(shù)據(jù)應(yīng)用層和后臺(tái)原始數(shù)據(jù)管理層的中間層就是數(shù)據(jù)中臺(tái)。數(shù)據(jù)中臺(tái)主要是為了支持前端各類(lèi)數(shù)據(jù)服務(wù)而對(duì)后臺(tái)原始數(shù)據(jù)進(jìn)行加工和整合后生成的各類(lèi)數(shù)據(jù)集合。這些數(shù)據(jù)集合可能有明確的服務(wù)對(duì)象,也可能尚無(wú)明確的服務(wù)對(duì)象。
數(shù)據(jù)中臺(tái)與數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)中臺(tái)不同于數(shù)據(jù)庫(kù)。目前,高校各部門(mén)使用的業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)主要是關(guān)系型數(shù)據(jù)庫(kù),聚焦于對(duì)人、財(cái)、物的管理。而數(shù)據(jù)中臺(tái)中的數(shù)據(jù),不遵循范式要求,并不針對(duì)某類(lèi)具體實(shí)體或者聯(lián)系的管理,主要是面向應(yīng)用;而且數(shù)據(jù)中臺(tái)中的數(shù)據(jù)不僅包括實(shí)體和聯(lián)系數(shù)據(jù),還包括各類(lèi)日志數(shù)據(jù)、圖表、文本、音視頻資料等半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。
數(shù)據(jù)中臺(tái)的概念也不同于數(shù)據(jù)倉(cāng)庫(kù),主要體現(xiàn)在以下三個(gè)方面:
1.數(shù)據(jù)來(lái)源不同。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要來(lái)源于各類(lèi)業(yè)務(wù)數(shù)據(jù);而數(shù)據(jù)中臺(tái)的數(shù)據(jù)除了各類(lèi)業(yè)務(wù)數(shù)據(jù)外,還包括各類(lèi)日志、IOT(Internet of Things)數(shù)據(jù)、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)等。
2.對(duì)數(shù)據(jù)實(shí)時(shí)性要求不同。數(shù)據(jù)倉(cāng)庫(kù)主要是為了支持決策,因此,并不要求數(shù)據(jù)達(dá)到實(shí)時(shí)更新,一般能做到T+1就可以;但數(shù)據(jù)中臺(tái)由于要進(jìn)行實(shí)時(shí)的業(yè)務(wù)支持和快速的問(wèn)題分析,因此對(duì)數(shù)據(jù)的實(shí)時(shí)性要求更高。
3.服務(wù)對(duì)象不同。數(shù)據(jù)倉(cāng)庫(kù)的服務(wù)對(duì)象主要是企業(yè)經(jīng)營(yíng)的決策者;而數(shù)據(jù)中臺(tái)的服務(wù)對(duì)象不僅包括決策者,還包括業(yè)務(wù)人員、運(yùn)維人員、各類(lèi)應(yīng)用系統(tǒng)開(kāi)發(fā)人員以及合作伙伴等。
此外,相比較于數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)中臺(tái)離業(yè)務(wù)更近,對(duì)需求的響應(yīng)更迅速。組織中現(xiàn)有的數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)都可以成為中臺(tái)系統(tǒng)的數(shù)據(jù)來(lái)源。
數(shù)據(jù)中臺(tái)系統(tǒng)的建立,可以降低數(shù)據(jù)服務(wù)的門(mén)檻,讓數(shù)據(jù)真正實(shí)現(xiàn)資產(chǎn)化和業(yè)務(wù)化,成為組織新型核心競(jìng)爭(zhēng)力的來(lái)源。
建立數(shù)據(jù)中臺(tái)系統(tǒng)的動(dòng)因
目前,高校信息化管理部門(mén)同時(shí)肩負(fù)管理(主要是IT設(shè)備和應(yīng)用系統(tǒng)管理)和IT服務(wù)兩種職能,按照網(wǎng)絡(luò)、應(yīng)用系統(tǒng)開(kāi)發(fā)、數(shù)據(jù)整合、多媒體教室設(shè)備管理、實(shí)驗(yàn)室管理、網(wǎng)絡(luò)安全管理、一卡通系統(tǒng)管理、有線電視網(wǎng)絡(luò)管理等“塊狀”業(yè)務(wù)設(shè)計(jì)組織架構(gòu)。但是,隨著用戶(hù)需求的變更和技術(shù)的發(fā)展,這種“塊狀”的業(yè)務(wù)劃分方法將面臨變革,轉(zhuǎn)變?yōu)閳D1所示的層次狀架構(gòu)。
高效IT服務(wù)
隨著技術(shù)的發(fā)展,各類(lèi)IT服務(wù)在前端技術(shù)上慢慢趨同,面向師生的各種網(wǎng)絡(luò)服務(wù)、校園卡服務(wù)、電教服務(wù)等所需的技能差異逐漸縮小,此類(lèi)服務(wù)在客觀上可以整合在一個(gè)服務(wù)團(tuán)隊(duì)中完成,通過(guò)工單系統(tǒng)快速響應(yīng)、定位、診斷并處理用戶(hù)提出的問(wèn)題,這套工單系統(tǒng)需要完整的師生數(shù)據(jù)、設(shè)備臺(tái)賬數(shù)據(jù)、各類(lèi)設(shè)備和系統(tǒng)日志數(shù)據(jù)的支持。
高質(zhì)量設(shè)備和資產(chǎn)管理
隨著師生對(duì)校園網(wǎng)絡(luò)和各類(lèi)應(yīng)用系統(tǒng)的依賴(lài)越來(lái)越深,“網(wǎng)絡(luò)不間斷”和“業(yè)務(wù)不中斷”成為廣大師生對(duì)信息化的基本訴求,這在客觀上要求高校信息化管理部門(mén)能夠持續(xù)提供高質(zhì)量的IT運(yùn)維,能夠預(yù)防并快速解決軟硬件系統(tǒng)中出現(xiàn)的任何問(wèn)題。這些都在客觀上需要完整的設(shè)備資產(chǎn)、臺(tái)賬、日志及知識(shí)庫(kù)等數(shù)據(jù)的支持。
流程與決策支持
隨著高校之間競(jìng)爭(zhēng)的加劇,高校行政系統(tǒng)運(yùn)行效率和決策質(zhì)量成為高校之間競(jìng)爭(zhēng)的一個(gè)焦點(diǎn)。“一站式網(wǎng)上服務(wù)”、“一網(wǎng)通辦”成為高校各部門(mén)提供高效、高質(zhì)量服務(wù)的客觀要求。此外,校各級(jí)管理部門(mén)也常常需要快速、完整、多維度的數(shù)據(jù)報(bào)表,以便輔助決策。這些流程配置和決策支持功能的實(shí)現(xiàn),都依賴(lài)于對(duì)各類(lèi)業(yè)務(wù)數(shù)據(jù)和日志的實(shí)時(shí)采集、加工和分析。
綜上,在高校信息化管理部門(mén)的IT服務(wù)、IT設(shè)備及資產(chǎn)管理以及流程與決策支持三大業(yè)務(wù)逐漸分離的趨勢(shì)下,一套強(qiáng)大的數(shù)據(jù)中臺(tái)系統(tǒng)成為高校信息化業(yè)務(wù)開(kāi)展的基礎(chǔ)。
上海外國(guó)語(yǔ)大學(xué)數(shù)據(jù)中臺(tái)系統(tǒng)
建設(shè)方案
考慮到系統(tǒng)功能的持續(xù)擴(kuò)展性,為防止系統(tǒng)由于過(guò)分依賴(lài)廠商或太過(guò)封閉造成今后的持續(xù)開(kāi)發(fā)風(fēng)險(xiǎn),本中臺(tái)系統(tǒng)由校方大數(shù)據(jù)項(xiàng)目團(tuán)隊(duì)自主進(jìn)行整體架構(gòu)設(shè)計(jì),在綜合權(quán)衡學(xué)校的數(shù)據(jù)規(guī)模和應(yīng)用需求后,采用開(kāi)源和自主開(kāi)發(fā)相結(jié)合的方式進(jìn)行建設(shè)。系統(tǒng)架構(gòu)如圖2所示。
數(shù)據(jù)采集層采集人員數(shù)據(jù)、教務(wù)數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)庫(kù)、科研數(shù)據(jù)庫(kù)、人事檔案數(shù)據(jù)、學(xué)科數(shù)據(jù)庫(kù)、日志事件庫(kù)等業(yè)務(wù)基礎(chǔ)數(shù)據(jù),支持離線和實(shí)時(shí)兩種數(shù)據(jù)采集方式。離線數(shù)據(jù)采集主要支持MySQL、SQL Server、Oracle、離線文件等;實(shí)時(shí)數(shù)據(jù)采集主要支持 MySQL、日志等,并支持API接口實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)上報(bào)。實(shí)時(shí)數(shù)據(jù)采集對(duì)于其他類(lèi)型的實(shí)時(shí)數(shù)據(jù)提供“邊緣數(shù)據(jù)采集工具集”,邊緣數(shù)據(jù)采集工具采用GO語(yǔ)言開(kāi)發(fā),直接部署在數(shù)據(jù)產(chǎn)生節(jié)點(diǎn)上,避免了集中處理數(shù)據(jù)的壓力。采集來(lái)的數(shù)據(jù)都被放入一個(gè)基于Apache Kafka 的消息隊(duì)列中,該消息隊(duì)列只投遞一次,避免因后續(xù)數(shù)據(jù)加工平臺(tái)和數(shù)據(jù)采集工具的處理能力不匹配而丟失數(shù)據(jù)。
對(duì)于業(yè)務(wù)數(shù)據(jù),利用ETL工具定期從業(yè)務(wù)系統(tǒng)里抽取數(shù)據(jù)放到臨時(shí)數(shù)據(jù)庫(kù),同時(shí)進(jìn)行一些數(shù)據(jù)整合操作,再利用工具將臨時(shí)數(shù)據(jù)庫(kù)里的數(shù)據(jù)存入Kafka里。這些數(shù)據(jù)中,大部分是Syslog形式的,直接存入Kafka里即可;另外有些數(shù)據(jù)需要利用廠商提供的API導(dǎo)入Kafka里;還有一些手工填報(bào)的數(shù)據(jù),需要利用Excel文件導(dǎo)入Kafka里。
在數(shù)據(jù)加工層,有數(shù)個(gè)數(shù)據(jù)處理節(jié)點(diǎn)不間斷地從Kafka里將數(shù)據(jù)取出,并完成兩項(xiàng)工作,一是將部分決策支持模型需要的原始數(shù)據(jù)轉(zhuǎn)存到6個(gè)月存儲(chǔ)期的集群中;二是抽取需要的數(shù)據(jù)到上層的查詢(xún)分析集群。
在數(shù)據(jù)服務(wù)層,提供基于Elastic Stack的大數(shù)據(jù)查詢(xún)和分析,方便用戶(hù)快速獲得所需數(shù)據(jù);提供運(yùn)行于ES數(shù)據(jù)集群之上、用戶(hù)自定義模型的各類(lèi)預(yù)警和決策參考工具,利用ELK的預(yù)警模塊,通過(guò)“Push”和“Pull”兩種方式提供給用戶(hù);提供開(kāi)放的數(shù)據(jù)集、開(kāi)放API以及標(biāo)簽工廠等資源,在保證數(shù)據(jù)安全的前提下,方便用戶(hù)獲取數(shù)據(jù)和重新定義數(shù)據(jù),讓用戶(hù)享受快速便利的數(shù)據(jù)服務(wù)。
問(wèn)題與不足
數(shù)據(jù)中臺(tái)系統(tǒng)匯集了學(xué)校各業(yè)務(wù)系統(tǒng)的業(yè)務(wù)數(shù)據(jù)和硬件資源的日志數(shù)據(jù),是一個(gè)集中的校園數(shù)據(jù)平臺(tái),但也存在一定的問(wèn)題與不足。首先本系統(tǒng)的安全性和權(quán)限管理是個(gè)非常重要的問(wèn)題;其次數(shù)據(jù)分析所需的技能與高校信息化管理部門(mén)傳統(tǒng)的技能要求不同,因此,高校信息化管理部門(mén)的人員技能更新和人才引入也是一個(gè)亟需關(guān)注的問(wèn)題;第三,決策支持模型的設(shè)計(jì)中,有價(jià)值的模型是要有充足的理論依據(jù)的,因此,決策支持模型的設(shè)計(jì)需要在理論層面獲得支持。(責(zé)編:付涵)
(作者單位為上海外國(guó)語(yǔ)大學(xué)信息技術(shù)中心)