开放政府数据平台元数据标准研究进展
作者简介:武琳,中山大学资讯管理学院副教授,博士,研究方向:数字信息资源管理、网络信息组织与检索、政府开放数据和科学数据管理;黄颖茹,墨尔本大学信息学院硕士研究生。
内容提要:开放政府数据平台的元数据标准是构建数据平台的重要基础,是保证数据质量的关键因素。通过国内外的文献调研和国际知名的开放数据平台的实践分析,详细梳理美、英、澳、加和欧盟的相关元数据政策和标准,对元数据格式、元数据框架、元素、数据目录词表、受控词表等方面进行比较分析。指出我国在平台建设中设计元数据标准时需要关注的3个关键要素,即数据目录词表的支持、受控词表的有效使用,以及面向元数据关联本体。
关 键 词:开放政府数据 元数据标准 数据目录词表 关联开放数据
标题注释:本文系国家社科基金青年项目:Lib2.0信息服务体系重构实证研究(项目编号:09CTQ002)的研究成果之一。
0 引言
2015年,国务院印发了《促进大数据发展行动纲要》①,并以“加快政府数据开放与共享”作为主要任务之一。2016年1月,广东省经济和信息化服务中心委托广东省标准研究院制定了《数据开放和共享标准》,致力于构建大数据产业标准体系,推进开放政府数据(Open Government Data,简称OGD)采集、管理、共享、交易等标准规范的制定和实施,制定大数据相关地方标准,并支持其上升为国家标准②。OGD强调“开放”,意味着可被任何人自由获取、免费使用、重用以及再发布,可能的限制是要求署名和以相同授权方式发布③。传统的政府数据资源的元数据存在形式不同,可机读和不可机读的文件并存,不利于计算机应用寻找、交换和加工数据④;国内外政府数据的描述层次和粒度不一致;数据集的描述信息缺乏标准,选用的词汇不同,或是对同一词汇的理解方式不同⑤,分散、异构的元数据导致了OGD之间互操作和共享的困难。数据标准化决定开放数据的元数据准则,规范OGD的描述,揭示其产生背景和基本特征,帮助用户查询和发现数据或数据集,促进用户对数据的理解与使用,提升数据资源驱动价值创新。
1 OGD元数据标准研究现状
数据联盟在The State of the Union of Open Data中指出,数据标准化可以带来的益处有4个⑥:(1)生产和消费的效率。标准化的数据集可以通过自动化过程和非定制工具更容易地生成和使用。(2)提高可比性。标准化数据集可以与不同程序和字段的其他数据集进行比较,从而提供新的见解。(3)提高一致性。标准可以为数据元素提供明确定义的含义,并有助于在手动转录不可避免时减少人为错误的范围。(4)更大的投资吸引力。如果分析或处理数据的项目和公司能够通过数据标准化实现规模化,投资者更有可能提供资本。开放数据国际(Open Data International)认为,如果政府数据开放门户中的数据均有标准的元数据,则任何类型的用户,包括人类或某些类型的网络应用,都能更充分地理解数据并马上利用其进行可视化或其他用途。如果数据被完整地记录,不同来源的数据将可以用于比较和整合⑦。
1.1 国外研究现状
2012年,Rothenburg的研究提出两种意见,一种是先开放原始数据再考虑元数据的问题,另一种观点则认为应该首先提供充分的元数据使得OGD不至于被误用甚至滥用,他还对英美加新四国的开放数据元数据标准做了案例分析⑧。之后,Zuiderwijk和Jassen设计出荷兰政府不同层级开放数据的政策框架,其中一项重要的内容就是元数据,分为3种类型,描述型、背景型和详细型⑨。Parycek⑩和Vetrò(11)等学者则认为缺失的或有限的元数据会阻碍用户对数据的理解。上述都是较为宏观层面的政策框架分析与设计,2013年之后,国外的些学者开始研究开放数据的元数据的质量标准或评价,Reiche和Ezard认为元数据的质量可以从5个方面谈起,分别是完整性、加权完整性、准确性、信息丰富程度和易获得程度(12)。Martin和Turki等3位学者则主张利用元数据的5星评价体系来探究元数据的作用,研究方面包括许可、文件格式和开放程度等(13)。
1.2 国内研究现状
2015年10月,复旦大学数字与移动治理实验室和开放数据中国联合推出了“中国开放数据探显镜”报告发现(14),目前各地方对于开放的数据都能提供基本的元数据信息,包括数据名称、发布单位、数据分类以及数据描述等,但平台的元数据并没有统一的标准,著录的元素、元素的取值范围和元数据文件格式等等都不尽相同,多样化的标准和广泛、差异的命名实践都阻碍着元数据基础设施的形成。周志峰和黄如花认为国内的OGD平台建设缺乏通用的、统一的元数据标准(15)。林玉探讨数据复用元数据的构建方法,提出用“合并、删除和修改保留”三种方法对现有的元数据标准进行参考和整合(16)。2016年2月,欧俐伶和杨东谋综合观察并整合美国、英国与加拿大的开放数据元数据框架的元素,提出初始的元数据框架,结合元数据生命周期模型(Metadata Lifecycle Model,MLM),进一步深化元数据基本框架的建构过程,最后通过访谈的方式获得实践数据,分析和调整后最终得出共31个元素的元数据框架(17)。
2 国外OGD元数据标准的相关政策
国外政府纷纷在建立OGD平台的同时开始制定OGD的元数据标准,以提高开放数据的效率和利用率,保证数据开放的高质量,增强公众对数据的理解与获取。以下分别对美国、英国、澳大利亚、加拿大和欧盟的开放平台的元数据标准及相关政策进行比较分析。
2.1 OGD元数据标准政策特色
(1)美国:开放数据项目主导
美国真正将开放数据的元数据落实到政策中是在2013年5月,奥巴马总统签署《开放政策——管理作为资产的信息》备忘录(18)。其中第一部分提及要“使用共享核心和可扩展的元数据”,并规定了政府机构必须使用共享核心的元数据描述信息,并与开放数据项目中数据创建和收集的最佳实践保持一致。2015年2月1日,美国政府更新了《开放数据项目元数据模式V1.1》(19),对元数据标准有了更详细的注释。2016年5月参众两院审议《开放政府数据法案》,该《法案》对于公开的数据规定了机器可读性、可检索性和开放性格式3项要求,以及受控词表、元数据文件格式、著录对象、分类和属性、元数据的扩展等相关规定(20)。
(2)英国:数据发布前标准先行
英国一向被视为OGD运动的先驱之一,开放数据支持者们重视标准的建立,他们更认为元数据标准是开放数据发布前期阶段中最有价值的标准。2013年10月,英国内阁办公室发布了政策白皮书《国家信息基础建设》(National Information Infrastructure,下文简称为“NII”)(21),旨在推动国家开放数据的力度,明确政府的责任。这份行动方案最新更新于2015年3月,文件不仅在第七原则中提到了“相互关联的数据要以标准化的记录方式识别并与其他数据建立联系”,更强调了并非所有的NII数据都会公布或称为开放数据,但是所有的NII数据都必须在元数据中清晰说明,包括开放政府许可下该数据的用途和属性。英国OGD元数据标准尚未发布综合性的文件,但是相关的元数据框架和标准均在其开放数据平台有说明[22],包括解释、元素来源、范例等。