常见问题与解答
1.DOI是什么
DOI(Digital Object Identifier)意为“数字对象标识符”,是一种对包括互联网信息在内的数字信息进行标识的工具。在传统的实体出版物中,无论是书刊,还是磁带、光盘,都会被赋予ISBN、ISSN、ISCN等国际标准编号及其条形码,作为出版物在书海刊林中的唯一性标识。这些标识使出版物得到有效的管理,便于人们查找和利用。而网上的文档一旦变更了网址(URL),就消失得无影无踪,让人无从追索。如果给数字信息加上DOI,就如同出版物贴上了条形码一样,无论走到哪里都有踪迹可寻。因而DOI被形象地称为数字资源的条形码。
2.科学数据是什么
科学数据是人类社会科技活动所产生的基本数据、资料,以及按照不同需求而系统加工的数据产品和相关信息,具有明显的潜在价值和可开发价值,并在应用过程中得以增值,是信息时代最基本、最活跃、影响面最宽的科技资源。从类型上,科学数据可以分成文本型、数值型、矢量型、栅格型、多媒体五种类型。
3.科学数据DOI标识的对象
科学数据DOI标识的对象是原始科学数据(primary scientific data),主要有数据库(database)和数据集(dataset)两个层次。数据集是科学数据DOI标识的最小单元。
数据集定义:数据集是为特定目的而收集的、具有特定主题的一组数据,是若干个数据元组成的集合体。
4.科学数据DOI的编码方式
DOI的结构式为: <DIR>.<REG>/< DSS>,DO1分为前缀和后缀两部分,中间用一斜杠分开。前缀中又以小圆点分为两部分,<DIR>为DOI的特定代码,其值为10,用以将DOI与其他应用Handle System(句柄系统)技术的系统区别开。<REG> (Registrant Code)是DOI注册代理机构的代码,由DOI的管理机构IDF(International DOI Foundation,国际DOI基金会)负责分配,由四位阿拉伯数字组成。后缀<DSS> (DOI Suffix String)由DOI注册代理机构——目前主要是学术出版商自行给出,规则不限,只要在该出版商的所有产品中具有唯一性即可。
科学数据DOI编码示例:
doi:10.1594/WDCC/IPCC_EH4_OPYC_SRES_B2_MM
doi:10.1594/EURORAD/CASE.1113
doi:10.1594/ecrystals.chem.soton.ac.uk/145
5.科学数据DOI研究现状
DOI作为为数字物体提供唯一标识的技术,其在科学数据上的应用还处在发展阶段,并取得了一定的成效。Crossref开始在生物数据库中应用DOI技术,对蛋白质结构进行标识,并且规定只有将数据进行标识后传到蛋白质数据库,才能发表相关文章;同时CrossRef参考文献DOI元数据提出了科学数据DOI元数据的参考框架,但并不能对数据DOI进行解析和查询;SDDB(ICDP Scientific Drilling Database)在网上发布科学钻探工程的数据,其标识对象是一次钻探实验形成的钻孔数据的集合,同时提供数据标识规范,能对标准引用数据进行下载,便于用户引用,其钻点数据能在Google Earth中进行展示。
TIB德国国家科学技术图书馆是世界上首个将DOI应用在科学数据标识中的机构,2005年正式称为科学数据的DOI注册中心(RA for scientific dataset),截止到07年10月份,TIB已经注册了475,276个数据集,12,546个科学电影剪辑,6302个医学案例,342个技术报告和112个学习对象,未来科学内容(scientific content机构研究成果)将是TIB的主要工作,它的注册对象包括各种不同的内容类型,如晶体结构、地球模型和3-D模型等。
6.科学数据DOI元数据
科学数据DOI标识元数据主要是基于DC的元数据框架,与现有系统的元数据相比,该元数据具有最小数据单元,是抽象程度最高、最简洁的元数据,DOI和DOI元数据共同构成了对科学数据的描述。考虑到科学数据的复杂性的问题,在标识科学数据时会采取两种机制:对于内部保密性要求高的数据可以只发布其DOI号及资源的获取地址,对于公开程度较高、具有基础性、引用程度高的数据发布DOI号及相应的元数据,便于用户进行查询和访问。在系统设计的过程中将采用CrossRef提供的元数据方案,其主要分为数据库和数据集两个层次,每一层除了常规的名称、时间等元数据项之外,增加了引用列表和内容列表两个部分,其中引用列表包括文献引用列表和数据引用列表两部分,内容列表主要是对与数据集相关的多媒体的描述信息。
7.DOI在科学数据领域中应用
DOI在科学数据领域中的应用主要体现在:促进科学数据知识产权保护,科学数据资源长期保存,建立科学数据引用规范等方面。
|