
一尧引言
广州大学的信息化建设经历了基础建设阶段尧数字校园建设阶段后袁目前已步入智慧校园阶段遥学校在日常教学尧学习尧科研尧管理和校园生活过程中形成的各式各样数据将成为智慧校园的基础遥但是袁目前广州大学数据质量总体处于较为低下的水平袁各业务系统数据存在数据缺失尧错误数据尧重复数据各种问题袁没有进行有效的数据治理袁也没有针对未来需求主动采取数据质量保障措施袁一直疲于应对存量数据产生的数据质量问题遥主要表现是院淤数据多头管理且缺少专门对数据进行监督和控制的组织曰于数据多系统分散建设没有规范统一的校级数据标准和数据模型曰盂数据缺少统一的关键数据视图和缺乏对关键数据的管理曰榆没有建立数据质量管理平台遥
为解决数据治理存在的诸多问题袁我们从企业数据资产管理的角度定义智慧校园中的数据资产管理袁并在此基础上提出高校的数据治理五星模型遥以一个具体的应用场景阐述高校数据治理平台以实现数据治理可视化尧流程化和自动化的技术实现遥通过整体数据治理五星模型管理袁持续梳理学校数据资产袁促进高校管理模式从业务驱动到数据驱动的转变袁进一步推动高校信息化水平的提升袁实现数据转换为智慧遥
二尧国内外数据治理研究动态
数据治理概念最先产生于企业领域袁后逐渐在银行尧保险尧电信尧教育等行业得到应用遥国内外学者围绕着数据治理进行过多方面的研究遥[1]其中国外学术界涉及的研究领域有治理概念尧治理要素尧治理模型尧治理框架袁其中在这几方面有代表性的成果是院P.Sonla[2]指出数据治理是一个有机组合的系统袁它包括决策尧职责及流程曰
S.Stockdale[3]在论文中提出数据治理有五要素袁分别是治理架构尧相关角色和职责尧治理数据分类尧治理标准尧治理实施曰S.Kim[4]提出商业和IT联盟的数据治理模型曰DGI[5]提出DGI数据治理框架和数据生命周期理论遥国外学者研究的领域较宽袁涉及的治理内容丰富袁但最终都是对相应职责以及角色的分配遥
国内学者主要从治理体系尧治理保障袁及实践应用方面展开了研究遥治理体系集中于对治理模型和框架的研究曰治理保障主要研究数据的质量安全曰治理应用集中在图书馆尧银行尧电力等以数据为核心的行业遥目前袁高校数据中心的建设尧医疗大数据等也得到了很高的重视遥[6]在这三方面袁产生了有代表性的研究成果遥童楠楠等探索了卡内基窑梅隆大学于2014年提出的数据管理成熟度模型渊Data Management Maturity袁DMM冤的逻辑架构尧要素构成和应用实践遥包冬梅等研究了国际数据管理协会渊Global Data Management Community冤框架和国际数据治理研究所渊Data Governance Institute冤的数据治理框架遥包冬梅等分析了两个框架之间的差异袁并提出具体业务领域的数据治理框架遥严昕等[7]从城镇信息化角度袁探索这两种框架对城镇信息化数据治理构建与实施的意义遥数据质量管理的目标是通过数据分析提高数据质量遥续瑾成[8]和张琼文[9]分别在质量管理和质量评估上做了相应的研究遥李冬等[10]对数据传输中的安全和赵
*
李爱凤淤袁刘葵袁王挺袁廖宏建袁谷岩
渊广州大学网络与现代教育技术中心袁广东广州510006冤
摘要院数据是一所学校的重要资产遥科学规划数据和进行有效的治理袁对数据资产的应用发挥最大价值具有重要意义遥文章首先采用文献调研法系统梳理了国内外数据治理的相关研究动态曰然后提出了高校数据治理五星模型曰最后袁以具体业务场景教师一张表信息为数据治理对象进行了实践分析与研究遥结果表明袁业务驱动是推进高校数据治理方案的关键遥
关键词院大数据曰数据治理曰五星模型曰业务驱动
中图分类号院G7文献标志码院A文章编号院1673-8454渊2020冤13-00-04
*基金项目院本文系广州市教育科学规划2016年度面上课题野数据挖掘技术在数字化校园共享数据中心的应用研究冶渊1201534833冤的研究成果遥
淤李爱凤为本文通讯作者遥
刚等[11]对国家层面的网络空间问题进行了研究袁主要包括数据安全尧隐私保护尧访问权限管理尧安全审计尧制度及流程五大方面遥在应用实践数据治理方面袁有谈韵[12]在电力行业袁王宏宇等[13]尧许晓东等[14]在高校方面袁常朝娣等[15]在医疗领域的研究遥
三尧业务驱动的高校数据治理平台
为帮助企业管理海量数据并从中快速获取真正有用的信息袁数据资产管理应运而生遥
[16]
在高校教育大数
据背景下袁越来越多的学校在建设高校数据中心平台袁构建基于数据治理的数据中心五星模型遥数据治理的五星功能模块如图1所示遥其中元数据管理平台如同人体的血管深入到学校每个系统内部袁通过每个系统的关联关系袁构建了学校的数据地图信息遥其中包含的数据基因可以形成单个数据单元的血缘分析和影响分析袁在数据质量管理过程中袁沿着元数据的脉络找到数据存在的问题袁补充完善数据质量袁从源头上做好数据规范抽取遥在下游袁做好数据质量清洗袁形成一个良性循环的体系遥在业务场景驱动下袁通过ETL 工具的可视化将各业务系统的数据存储到同一个大库里袁获得一个完整的物理数据库袁以便构建主题进行数据分析遥数据质量的实施针对的是系统可能还会存在一些问题遥例如袁同步异常或者人为失误等情况形成的脏数据袁这时候袁需要一个逐步完善的阶段袁分析问题尧改进相关数据清洗规则袁实现对数据整体质量控制曰根据改进的规则定义袁又可以反馈到数据标准上完善袁把数据质量与数据标准有机结合在一起遥数据的安全管理对数据安全策略进行管理袁包括定义及维护数据敏感性尧敏感数据的定义尧敏感数据的发现并提供发现报告及敏感信息维护遥几大子平台是紧密相关并互为补充袁其核心都是围绕数据治理遥现结合具体的业务场景以教师一张表为对象描述数据治理活动遥
以教师为主题袁首先分析与教师主题相关的所有业务系统数据遥其中包括几大核心业务系统如人事尧教务尧科研尧研究生尧财务等管理系统以及一卡通和图书管理系统遥对接入数据治理平台的业务系统进行特征构造袁即把每个系统与教师主题相关的具体指标信息进行有效的清洗和整合袁加以重组并进行数据仓库建模袁以实现教师主题的相关数据集成及特征数据汇聚遥整个过程如图2所示遥图2以思维导图的形式展现了教师一张表实现的过程袁图2中的第三部分是数据仓库分层建模袁在数据仓库实施过程中将数据仓库系统的数据划分为原始数据层渊ODS冤尧数据仓库层渊DW冤和公共数据集市层渊ADS冤遥图3是ETL 示意图袁图3表明袁其中将业务系统的数据原封不动地抽取至原始数据层渊ODS冤袁避免数据仓库直接调用业务系统的数据遥数据仓库层渊DW冤是面向主题的基础数据表和代码表遥基础数据表是一个包涵主题的通用集合遥通过对原始数据层渊ODS冤的数据进行清洗和转换形成特定主题的简明视图遥代码表用于定义常规的尧可枚举的数据值袁同时帮助用户明确这些数据的含义遥公共数据集市层渊ADS冤以某一主题分析为出发点进行建设袁只关心主题需要的数据袁因此袁结构清晰尧针对性强尧扩展性好遥该层数据一般是对数据仓库层
渊DW冤的数据进行汇聚后形成特定的主题视图遥在高校
数据治理管理平台中袁一般在公共数据集市层渊ADS冤包括教职工主题域和学生主题域两个大的主题域遥再根据
业务应用需要袁以教职工主题域为例可分为学科建设分析尧教学管理分析尧科研活动与成果分析等子主题进一步分析曰以学生主题域为例可在招生就业分析尧学生管理分析等子主题进一步分析袁为学校的管理提供决策支持遥教师一张表通过一个可视化的图形界面展示了教师在校的主数据袁图4展示了人事信息的部分数据曰除此之外还有教职工的教学教研信息尧科研信息尧资产信息尧其他信息等栏目遥通过该应用场景实现了一次采集尧统一管理尧多业务应用遥但也要求教职工各项数据必须准确且具备唯一属性遥然而在实际应用中发现各业务系统作为教职工相关数据产生的源头袁还存在大量的脏数据袁图4所示的高层次人才信息的批准时间99999999就是一个无效的时间格式袁必须对数据进行治理以便从数据产生的源头上提升数据质量遥
合理的组织架构设置是进行数据治理工作的必要
条件遥根据学校实际袁学校组织架构由决策管理层尧组织
图1高校数据治理五星模型
图4教师一张表部分信息
协调层尧执行层组成遥决策管理层是学校数据治理领导小组袁由学校主管信息化的副校长尧网络中心主任尧各业务部门负责信息化的领导代行其职责曰组织协调层是数据治理管理办公室袁由数据质量管理员代行其职责曰执行层包括数据治理小组尧业务部门尧网络中心等部门及外部厂商遥数据治理组织架构设置如图5所示袁各工作人员的职责如下遥
淤数据治理领导小
组院定义数据治理愿景和
目标袁设置数据治理计划
的总体方向曰组织跨业务
部门协调曰审核和批准数
据治理相关制度和报告袁
负责重大数据质量问题
的解决遥
于数据质量管理员院负责数据治理的牵头尧组织尧指导和协调数据治理工作曰数据治理管控办法尧数据质量管理流程等有关规则制度的牵头制定和修改曰数据治理相关系统和工具的管理使用袁跟踪数据治理过程改进遥盂业务汇总统计机构院负责各业务数据汇总统计口径业务的对接和确定袁协调处理数据汇总口径的问题遥榆数据治理小组院负责分析评估数据质量袁出具各业务系统数据质量报告曰负责数据的剖析尧清洗匹配合并等曰定义数据的转换规则遥
虞数据源负责教师院遵循数据野一数一源冶原则负责处理系统数据质量问题曰按照数据管理办法及数据标准执行数据的日常维护曰提出业务数据使用需求遥
愚数据治理技术支持人员院负责数据治理中系统和工具的开发与维护遥
渊2冤教师一张表数据治理实施
通过梳理教师主题业务场景的构建发现袁从各业务系统集成的数据存在各种数据质量问题遥图6所示是数据主要问题及占比遥要让数据成为学校资产并有效应用袁数据治理刻不容缓遥因此袁广州大学以业务场景驱动
图2教师一张表实现流程
图3ETL目录示意图图5数据治理组织架构
面向学校全量数据尧增量数据和未来数据积极开展数据全生命周期质量管理规划设计工作袁规划成果指导学校业务数据质量管理工作的开展袁促进学校数据质量持续提升遥教师数据主题数据治理总体流程设计如图7所示遥从图7可以看出袁教师一张表数据治理分两轮进行院第一轮治理通过数据质量管理模块进行数据质量自动探查袁汇总出教师主题疑似错误数据尧异常数据尧重复数据和缺失数据遥并将存在质量问题的数据批量反馈业务部门并限期处理遥第二轮治理则开放教师一张表信息系统供教职工使用袁教职工使用过程中发现数据问题可通过电话尧邮件尧现场反馈等方式联系数据质量管理员或者业务数据负责人进行数据核查尧补录尧修正等遥经过业务部门批量处理以及教师个人纠错两轮数据治理后袁将各业务系统的数据再次同步到教师一张表袁即可以提升教师一张表数据质量袁并应用到其他各个场景遥
四尧结论与展望
在高校数据治理的实践中可得出以下结论院淤数据治理是对数据进行全生命周期管理曰其最终目标是提高数据的质量尧保证数据的安全性尧实现数据资源在各组织机构部门共享尧提升数据的服务能力以实现数据价值的最大化遥于数据治理是一个长期而非一蹴而就的浩大工程曰数据治理应成为高校管理中常态化工作遥盂数据治理是自上而下的袁数据治理的推进以业务驱动将事半
功倍遥榆数据治理是一项先管理后技术的问题遥主体在数据责任部门袁以技术部门为辅助遥数据治理在高校大数据生态建设中有举足轻重的地位袁寻求适合高校数据治理的流程和策略值得深入和持续的探讨遥
参考文献院
[1]刘桂锋,钱锦琳,卢章平.国内外数据治理研究进展:内涵尧要素尧模型与框架[J].图书情报工作,2017(21):
137-144.
[2]P.Sonla.Six critical success factors for data gover鄄nance-viewpoint son innovation[EB/OL].http://viewpoints.io/entry/six -critical -success -factors -for -data -gover鄄nance.
[3]S.Stockdale.Deconstructing data governance[EB/OL].https://repository.unm.edu/Handle/1928/31583.
[4]S.Kim.The analysis of data governance model for business and ITalignment[J].Journal of the Korea Society of Computer and Information,2013,18(7):69原78援
[5]Data governance framework[EB/OL].http://www.datagovernance.com/the-dgi-Framework.
[6]孙嘉睿.国内数据治理研究进展:体系尧保障与实践[J].图书馆学研究,2018(16):2-8.
[7]严昕,孙红蕾,郑建明.城镇信息化中的数据治理
问题研究[J].情报科学,2017(9):30-35.
[8]续瑾成.浅谈企业数据治理及其统一流程[J].中国管理信息化,2016(16):57.
[9]张琼文.试论数据治理在数据质量管理中的作用[J].通讯世界,2017(3):140-141.
[10]李冬,万磊,费建章.大数据治理中的安全问题研究[J].信息与电脑(理论版),2017(6):192-193.
[11]赵刚,王帅,王碰.面向数据主权的大数据治理技术方案探究[J].网络空间安全,2017(Z1):36-42.
[12]谈韵.电网大数据治理体系初探[J].电子技术与软件工程,2017(5):182-183.
[13]王宏宇,陈冬梅.行政院校系统信息化建设中的数据治理浅析[J].辽宁行政学院学报,2017(4):92-96.
[14]许晓东,王锦华,卞良,孟倩.高等教育的数据治理研究[J].高等工程教育研究,2015(5):25-30.
[15]常朝娣,陈敏.大数据时代医疗健康数据治理方法研究[J].中国数字医学,2016(9):2-5.
[16]程永新.大数据时代的数据资产管理方与实践[J].计算机应用与软件,2018(11):326-329援
渊编辑院王天鹏冤
图6教师一张表数据主要问题及占比
图7教师一张表数据治理总体流程设计
