
元数据编写规范(讨论稿)
目 录
1 制定本规范的目的
2 本规范中基本术语定义
3 元数据内容规范
3.1 数据集名称规范
3.1.1 要求
3.1.2 范例
3.2 数据集摘要规范
3.2.1 要求
3.2.2 范例
3.3 元数据其它条目的规范
4 元数据编写粒度规范
5 几点说明
1 制定本规范的目的
元数据是数据发布、数据管理和数据服务的桥梁和纽带,在数据管理与共享中具有重要作用。元数据同时也是数据文档的精简版本。为进一步规范元数据的编写,根据目前元数据编写中存在问题,在《地球系统科学数据共享平台元数据标准》的基础上,特制定本规范。
2 本规范中所用基本术语的定义
(1)数据实体:记录数据的最基本单元,例如,一个ARC/INFO-COVERAGE,GRID,一个EXCEL文件,一幅数字遥感影像文件等称为一个数据实体。
(2)数据集:在数据的专题内容、数据源、数据格式、数据加工整理方法等方面具有一定关联的数据实体的集合。一个数据集可以包含一个或多个数据实体。
(3)数据库:具有相同内容要素的数据实体或数据集的集合。
(4)元数据:描述数据的数据,即关于数据内容、质量、用途和其它相关特征的信息。
3 元数据内容规范
3.1 数据集名称规范
3.1.1 要求:
数据集名称必须包含时间、区域、精细程度、专题要素等内容,但它们的顺序可根据习惯排列。其中时间是指原始数据获取的时间,而不是数据发表或发布的时间。
3.1.2 范例
例1:全国1:10万土地利用数据(1980s,1995,2000)。其中“全国”为数据的区域;“1:10万”为数据的精细程度;“土地利用”为专题要素;“1980s,1995,2000”表示数据的时间。
例2: 全国草地资源分县数据(1980s)
其中“全国”为数据的区域;“分县”为数据的精细程度;“草地资源”为专题要素;“1980s”表示数据的时间。
例3: 黄土高原重要水文站降雨过程数据(1950-1990)
其中“黄土高原”为数据的区域;“(重要)水文站”为数据的精细程度;“降水过程”为专题要素;“1950-1990”表示数据的时间。
例4 全国1266块森林样地主要森林类型数据(1993-1996)
其中“全国”为数据的区域;“(1266块)森林样地”为数据的精细程度;“森林类型”为专题要素;“1993-1996”表示数据的时间。
例5 全国公里网格多年平均气温数据(1961-1990)
其中“全国”为数据的区域;“公里网格”为数据的精细程度;“多年平均气温”为专题要素;“1961-1990”表示数据的时间。
3.2 数据集摘要规范
3.2.1 要求:数据集的摘要部分必须包含以下内容:
(a)数据来源。数据源描述应当说明原始数据的出处。
⏹数据如果来自正式出版的文献,应当说明文献的名称、出版单位、出版时间;
⏹数据如果来自非正式出版的文献,应当说明文献的名称、时间;
⏹数据如果来自未正式出版的课题成果,应当说明课题的名称、性质、课题的执行时间;
⏹数据来源于其它渠道(机构、网络),应当详细说明。数据源的说明应具备可复查性,不能笼统地以“科学考察”、“课题研究”等方式说明。
(b)数据的加工生产与整理方法
描述在数据源的基础上进行了那些加工,使用户了解数据的形成过程,在此基础上用户认识数据对其研究的可用性。一般加工方法的描述应简单、明了,方法应当具备可操作性和可重复性,特别复杂的方法同时应当指明相关的参考文献。
3.2.2 元数据摘要范例
例1.数据集名称: 全国公里网格历年月平均气温数据集(1951-1990)
数据集摘要:该数据集是根据气温与经纬度、海拔高度之间存在的线性相关关系,通过“回归计算+残差”的方法,对全国600多个气象台站四十年的月平均气温进行空间化得到。所用的原始数据包括:(1)中国1:100万国界数据,由国家测绘局提供(电子版);(2)中国1公里分辨率DEM数据,地球系统科学数据共享平台提供;(3)全国600多个气象站的位置和1951-1990四十年的月平均气温数据,由中国气象局提供。具体加工方法是:第一步,用全国600多个气象站的月平均气温数据与气象站的经纬度和海拔高度数据进行多元回归分析并建立回归方程,在ARC-GIS中用该回归方程计算每个栅格的月平均气温,形成结果1;第二步,用每个气象站的实际气温值减去通过回归方程计算得到的气象站的理论气温值得到每个气象站的气温残差,通过克里格插值方法对残差进行内插形成结果2;第三步,将结果1与结果2相加即得到所需要的结果。
例2 数据集名称:中国城市发展统计数据集(分城市,1950-1998)
数据集摘要:该数据集包括全国350个主要(地级以上)城市的人口、劳动力与就业、科研、教育、卫生、金融、邮电通信、城市用地、供水供电等15大类、125个具体指标的数据。各城市数据的时间序列不同,最长的为1950-1998,最短的为1990-1998。数据来源于《中国城市统计年鉴》(中国统计出版社,2000)。
数据加工:包括数据录入、校对和建库。
3.3 元数据其它条目的规范
请参照《地球系统科学数据共享平台-元数据标准》的要求编写。
4 元数据粒度规范
元数据粒度是指元数据编写的粗细程度,即在哪个层次上(数据实体、数据集、数据库)编写元数据。地球系统科学数据共享平台具有数据来源复杂、数据内容、类型多等特点,为了有效地描述数据,同时避免元数据信息的重复,规定以数据集为基本单位进行元数据的编写。在编写过程中遵循以下几条原则:
(1)数据实体的内容、来源、格式及数据产生方法完全相同,只是区域、时间上的差异,应将这些数据实体组织成一个数据集编写一条元数据。有新的数据实体增加时,更新元数据,而不是新增元数据。
(2)数据内容相同,但格式、加工方法不同:如矢量格式的土地利用数据、分县土地利用数据、公里网格土地利用数据等,应分别按不同的数据集编写元数据。
(3)数据内容不同,但数据来源、数据格式相同,且这些数据是围绕某个相同的主题(如港口数据、岛屿数据、定位观测数据、某些出版物(不含统计年鉴)中的数据),可视为一个数据集,编写一条元数据。
(4)……
5 几点说明
(1)本元规范中的“数据集名称规范”适用于地球系统陆地表层相关学科元数据的编写,其它学科(如空间、天文、地球物理等)可参考执行;其它规范指标适用于所有参加单位和课题元数据的编写。
(2)对各单位提交的元数据,总中心将组织相关工作人员进行检查,不合格的元数据不予发布,提交单位必须进行修改,直到合格,总中心才予正式发布。
(3)项目将把“合格的元数据与合格的数据”作为课题检查、验收的重要依据。
(4)请各单位在一周时间内对此标准规范提出修改意见和建议,项目组将根据所提意见、建议,在进一步修改和完善后发给各单位。
地球系统科学数据共享平台项目组
2007年4月20日
