2007年第6期总第142期
图书馆工作与研究
TuShuGuanGongZuoYuYanJiu
No.6SerialNo.142
XML著录古籍元数据初探
山川,罗晨光(北京大学,北京
100871)
[摘要]Internet所提供的网络信息环境构成了一个分布式的超媒体信息库。本文应用XML和XMLSchema语言来描述古籍元数据,并且以此为框架提供了一种著录古籍元数据的方案,同时对基于本体论语义的古籍元数据著录雏形进行初步的探索。
[关键词]DC;古籍元数据;XML;XMLSchema;本体
[中图分类号]G2551[文献标识码]B[文章编号]10056610(2007)060053041引言
古籍是中华民族悠久历史和古代文明的象征,记录了我国五千年文明史的发展,是中华民族宝贵的文化遗产,也是现代图书馆文献体系的重要组成部分。随着Internet的兴起,逐渐产生了一系列新的研究热点,网络信息资源的描述与组织就是其中之一。文献信息的网络化也给中国古籍文献的著录带来了新的挑战,如何在网络环境中对古籍文献信息进行有效的组织,描述并发布其数据,是图书馆编目人员乃至整个图书情报界研究的一个重大课题。针对这个问题,一种可行的解决方案是用Internet所提供的一些机制和工具来编制一套著录古籍数据的新体系。目前,这种方案有一种发展比较成熟且得到广泛认可的文献著录标准为代表,即DC元数据标准。文章将从它入手来探索古籍元数据的著录。2DC元数据标准的结构与特点
DC(DublinCore)即都柏林核心元数据标准,是由其委员会所制订的一个用于描述当代(正式)出版物和文献信息的元数据标准。它主要从资源内容、知识产权、外部属性三个方面对文献信息进行描述。其各个组成部分如下所示:
[1]资源内容描述类元素:(1)题名:如古籍中的正题名、並列題名、版心题名、内封题名、卷端题名等;(2)主题;(3)描述;(4)来源;(5)语言如古籍语种;(6)关联:古籍中的相关文献、丛編等;(7)覆盖范围。
[2]知识产权描述类元素:(1)创造者:如古籍中的主要责任者、其他责任者;(2)出版者:如古籍中的出版者名称、出版地、印刷地;(3)其它参与者;(4)权限管理。
[3]外部属性描述类元素:(1)日期:如古籍的时空范围中的年号纪年、公元纪年;(2)类型:如古籍善本、拓片、稿本、刻本等;(3)格式:如古籍中的标识符,ISBN等;(4)标识。
在互联网众多的元数据标准中,DC是最为成熟的一个,也是使用最为广泛的一个。DC元数据是在充分吸收了图书馆界所具有的编目、分类、文摘等经验的基础上,积极利用了网络的自动搜索、编目、索引、检索等研究理论成果所发展起来的,它对文献资源的描述涵盖了多数人们所关心的信息。在未来的网络环境下,数字图书馆对信息资源进行有序化组织的一个趋势是采用元数据编目,它适宜出版物信息在互联网上的发布和共享,也为搜索引擎的工作提供了便利。3用XML著录古籍元数据3.1XML与XMLSchema
本节将说明如何在DC的基础上,用XML著录古籍的元数据。XML的全称为eXtensibleMarkupLanguage,即可扩展的标记语言 。其主要用途是各种数据及其元数据的存储和交换。
就古籍文献资源信息的著录而言,XML具备两个重要的特性。其一是它采用树状格式来描述数据,即,可以把待著录的元数据分成多种不同层次和粒度的类别,并著录于其对应的类别中。这使得XML能很好地适应古籍元数据类别的划分,从而准确地对其实现归类和描述。
同时,XML的另一个重要特性是其可扩展性。即无论是何种元数据,XML都允许定义相应的标记来描述和表示它们。古籍有大量的元数据是DC所难以描述的(因为标准中没有相应的字段或元数据格式),而XML允许使用者随时根
53据需要定义新的元数据标记,这样就可以处理古籍的多样性以及不规范性的情况。利用XML的这种特性,使它在处理古籍文献数据的著录中灵活自如。在说明具体解决方案之前还要介绍另一个工具,即XML的结构定义语言XMLSchema。XMLSchema是XML的元语言,提供了用于定义和描述XML文档的一系列基本规则和标记工具,可定义XML文档的结构、数据类型、元素类型、元素属性以及属性取值规定等。从古籍文献著录的角度来看,XMLSchema为古籍文献的著录提供了一种规范的模式,其作用类似于DC的15个核心元素。
运用XMLSchema来规定古籍文献著录的模式有诸多优点。首先,XMLSchema利用了XML自身的特性,用XML的基本语法规则来定义XML文档的结构,实现了由内到外的统一。其次,XMLSchema允许使用名字空间,这为可扩展性带来了极大的方便,也使得一个XML文档可以用多个XMLSchema验证。再次,XMLSchema支持多种数据类型,并且允许用户自定义数据类型。最后,XMLSchema可利用XSL技术将古籍文献数据的存贮与显示分开,实现书目数据的展示。
根据上述分析,XML和XMLSchema的组合运用是当今网络信息环境下古籍文献著录的一个可行的解决方案。下文就将对具体的著录方式进行阐释,并辅以相关实例加以说明。3.2用XMLSchema规定古籍元数据模式
组合运用XML和XMLSchema著录古籍元数据主要分为两个步骤。首先,用XMLSchema对古籍元数据模式作规定;然后根据此模式生成对应的XML文档,在各元数据项中填入对应的古籍数据即可。如果需要,还可再定义一定的格式,将此XML文档显示在浏览器上供使用者浏览。
在方案实现中,采用了XMLSpy软件来规定XMLSchema的模式以及生成XML文档。下文的图例和代码均由XMLSpy制作生成。
经许多学者研究,提出了古籍元数据的一个基本结构。其中包括典藏号、ISBN价格、标识符、題名、责任者、日期、出版者、版本类別、载体形态、相关资源、附注、主題、古籍语种、时空范围、收藏历史、馆藏信息和权限等17个类,每类中又分有若干小类,如图一所示。
上述图例即直观地展示了古籍元数据的XMLSchema模式。图中以实线框表示此元数据项是必需的,以虚线框表示此元数据项是可选的。部分实线框下方标有1..! ,意为此元数据可出现任意多次,但至少出现一次(如古籍语种 即表明一种古籍可有多种语种,但至少应有一种语种);而标有0..! 的虚线框表示此元数据可出现任意多次,也可缺省(如收藏历史 即表明一种古籍可有多段收藏历史,但也可以没有)。部分元数据的方框后以加号标记,说明该元数据类别下还有更为详细的小类(如題名 就包括正題名、並列題名、版心題名、內封題名、书衣題名、卷端題名等类别),这里就不再详细讨论。
至此,古籍元数据的XMLSchema模式就基本规定完毕。该模式有两个优点是DC所不具备的:其一,根据需要,部分元数据可以多次出现(如标有1..! 及0..! 的元数据);其二,如果日后发现该模式有疏漏或者错误不妥之处,可随时对其进行添加修改,且以往著录的古籍数据仍保持有效(即向前兼容性)。这样就实现了XML著录古籍元数据的第一步。
3.3用XML著录古籍元数据
在上述XMLSchema模式的基础上,可以方便地用XMLSpy软件产生该模式所对应的XML文档,即具体某种古籍的元数据。在产生的文档中,各元数据模式信息就无须人工再次录入,而可根据XMLSchema规定的模式自动置标,用户只要在图形界面中输入各元数据项对应的值。
下为一个XML文档著录的实例,展示了∀景宋咸淳本李翰林集#的著录情况。
在XML文档中,以尖括号包围的标记即为古籍的元数据类别标记,如典藏号、题名、责任者等;而在元数据类别标记之中的内容,即为该类别具体的值,如∀景宋咸淳本李翰林集#的典藏号为X/810.423/4026.9。有些元数据类别标记中又有其它元数据类别标记作为其内容,如责任者就包括主要责任者和其他责任者,即为前述大的类别和更细致的类别间的关系。这些标记的嵌套就形成了上述层次状的XML语法结构。
当然,在这种著录方案的实施过程中,如果感觉XML文档的格式不利于用户的浏览,则还可以使用XSL技术将XML文档转换成网络浏览器可以显示的格式,如图二所示。
图一
54图二
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
?xmlversion=1.0 encoding=UTF-8 ?>
?xml-stylesheettype=text/xsl href=lib.xsl ?>
書xmlns:xsi=http://www.w3.org/2001/XMLSchema-instance >典藏號>X/810.423/4026.9典藏號>
題名正題名=景宋咸淳本李翰林集 拼音=jingsongxianchunbenlihanlinji />责任者>
主要责任者责任者名稱=李白(唐) 拼音=libai(tang) 责任方式=撰 />
其他责任者其他责任者名稱=李陽冰(明) 拼音=liyangbing(ming) 责任方式=編 />/责任者>日期>
出版日期年號紀年=清光緒34年至宣統元年[1908-1909] />/日期>出版者>
出版者名稱>貴池劉氏出版者名稱>/出版者>版本類別>
曬印本>曬印本曬印本>/版本類別>
載體形態裝訂方式=綫裝 數量=30卷6冊(1函) />相關資源>叢編>
題名正題名=貴池劉氏玉海堂景宋叢書 拼音=guichiliushiyuhaitangjingsongcongshu />/叢編>
/相關資源>附註>
责任者附註>李白字太白责任者附註>/附註>
古籍語種>漢語古籍語種>
館藏信息>北京大學圖書館古籍特藏庫館藏信息>權限>館內閱覽權限>/書>
以上就是基于XML和XMLSchema的古籍元数据著录方案。它利用网络数据存储与交换语言XML及其模式语言XMLSchema规定了一整套针对古籍文献的元数据著录模式。方案的优点在于结构严谨而不失简单灵活性,可同时面向数字图书馆和网络搜索引擎使用,并且可根据需要进行增补和删改。总之,随着网络信息环境的发展,采用XML对古籍文献的元数据进行著录,将成为未来数字图书馆的一个发展趋势。4基于本体论语义的古籍元数据著录雏形的初步探索
本节将对基于本体论语义的古籍元数据著录进行试探性的研究。本体论是哲学的一个分支,其研究方法是将世界诸个体根据一定的准则进行分类,探讨各类所具备的独特的属性,以及各个类之间的关系。语义网(SemanticWeb)是下一代互联网的发展方向,其目的是增强网络资源内容和功能的语义表示,以满足分布式计算环境语义互操作的需要。语义网所使用的语义就是基于本体论的语义,可描述任何人们所关心的事物以及它们之间的关系。
55和XML相比,语义网是一种更为高级的描述形式,它所表示的元数据带有基于本体论的语义。如果用语义网所提供的描述机制来著录古籍文献元数据,则得到结果的语义将更为明确,能够更好地支持文献的分类、归档和检索。下面将简述如何利用语义网这个工具来规定古籍元数据模式,并最终实现对元数据的著录。
用语义网实现对古籍文献元数据的著录可以分为两个步骤。首先要根据本体论的语义,建立针对古籍元数据的词汇模型,即,在古籍这个领域中将不同的事物根据一定的规则划分成不同的类,明确各个类所包含的属性,以及各个类之间的(继承)关系;然后再将每组具体的古籍元数据作为个体,分别将其归到上述划分的类中去,同时确定它在该类中各个属性的值。
第一个步骤同样是根据前述古籍元数据的基本结构,对古籍元数据所涉及的信息进行分类。大的类别仍为17个;而每个类都有自己相应的子类,如主要責任者和其他責任者就分别继承了責任者,而版本类別则被多个类如稿本、写本、抄本、绘本等所继承。每个类又分别构成了古籍的属性的取值范围,如古籍的責任者 属性就应当在主要責任者和其他責任者当中取值,等等。利用SemanticWorks软件进行各类的划分后得到如下的(部分)结构图。(见图三)
实现了第一个步骤,则第二步就相对容易。只要声明属于各个类的个体(如∀景宋咸淳本李翰林集#为古籍类的个体,而李白为主要責任者类的个体等),并在这些个体之间定义对应的属性关系(如声明上述两个体间有主要責任者的属性关系)即可。
以上是从模型的角度去考虑元数据著录的问题。为了实现该模型,语义网提供了两种基于本体论语义的元数据描述语言,分别是RDF(ResourceDescriptionFramework)和OWL(WebOntologyLanguage)。它们的关系类似于XML和XMLSchema的关系,即,RDF用于对资源的元数据进行描述,而OWL则用于对RDF描述元数据的模式加以规定。在方案的实施中,第一步是利用OWL对古籍元数据信息作分类描述,而第二步则根据OWL所规定的分分别以OWL和RDF的格式来实现的。
基于本体论语义的元数据著录的优势是明显的。首先,XML本身只是一种数据存储和交换的格式,并没有携带语义;而语义网所提供的工具不仅实现了对古籍元数据的著录,同时还对古籍的元数据给出了概念的词汇表,使古籍元数据的语义更为明确。其次,语义网支持搜索引擎进行基于概念的检索,将古籍元数据用语义网工具描述出来,也就意味着搜索引擎能够基于古籍的各种概念(而非关键字)对其进行检索。这样,用户就可以针对古籍的概念并结合逻辑的方式构造更为复杂的检索,其效率和准确度都会大幅度提高。最后,语义网强调概念的全局性和唯一性,为古籍元数据制订一个基于本体论语义的标准,将其与语义网相结合,有利于古籍元数据标准的共享和推广。
应当指出的是,上述方案只是一个简化了的情况;在实际应用中,基于本体论语义的元数据著录远比以上的叙述要复杂。在定义语义网的古籍元数据模式时,必须声明这些类别是不同的且互不相交的,否则就可能导致一些不可预料的错误。因此,利用语义网实现的古籍元数据著录的许多细节性问题还需要深入探讨。5总结与展望
古籍文献的数字化,就是利用现代计算机技术对古籍文献进行科学系统的分类和整理,以解决其存储与检索等问题。本文利用目前网络数据存储和交换的标准∃∃∃XML语言提出了一套完整的古籍元数据著录方案,具有简单方便、用途广泛和灵活多样等优点。最后,文章还就基于本体论语义的古籍元数据著录进行了实验性的探讨,并给出了一种试探性著录模式。然而,在古籍元数据的著录工作中,其多样性、复杂性和不规范性始终是值得重视的问题,即使是语义网这样最新的概念和工具,一旦和古籍元数据著录相结合,也会产生很多麻烦,需要设法来处理。总之,要在网络信息环境下实现古籍文献元数据的著录,对其进行编目和整理,还待进一步研究。
[参考文献]
[1]吴建中.DC元数据[M].上海:上海科学技术文献出版社,2000.
[2]方威明,吴宏.XML之DTD与Schema比较分析∃∃∃以DC元数据为例[J].情报科学,2004,(4).[3]姚伯岳等古籍描述元数据标注的设计及其系统实现[J]大学图书馆学报,2003,(1).[4]Rijk,L.Aristotle:semanticsandontology.Boston:Brill,Leiden,2002.
[作者简介]山川(1968-),女,北京大学信息管理系;罗晨光(1983-),男,北京大学数学科学学院。
图三
类模式,用RDF对具体古籍元数据作进一步声明。实际上,SemanticWorks所生成的类别划分模式和元数据声明,就是
56