维普资讯 http://www.cqvip.com Computer Engineering and Applications计算机工程与应用 基于本体的向量空间模型的压缩算法 袁铭蔚’,蒋平1,2 YUAN Ming-wei .JIANG Ping’, 1.同济大学电信学院控制理论与控制科学系,上海200092 1.Department of Control Theory and Control Science,Tongji University,Shanghai 200092,China 2.Department of Cybernetics and Virtual Systems,University of Bradford,Bradford,UK E—mail:yuanmingwei@yahoo.com.cn —YUAN Ming-wei,JIANG Ping.Compression algorithm for ontology based Vector Space Mode1.Computer Engineering and Applications,2007,43(24):12-14. Abstract:In this paper,ontology based VSM is used to provide detailed and dependable concept space.With the support of on- tology,two concepts are not standalone terms but meaning related.In this paper,the detailed and dependable ontology is the presup- position and HCA(Hiemrchical Clustering Algorithm)is proposed to deal with computation complex and difficulty because of high dimensions of the vector space. Key words:ontology;Vector Space Model(VSM);Hierarchical Clustering Algorithm(HCA);semantic distance 摘要:采用本体(Ontology)为向量空间模型提供更为丰富、详细的概念空间,在本体的支持下,文档中的术语不再被孤立地看成 关键词,而是彼此间有了一定的语义联系。以已获得丰富而详细的本体为前提,考虑当本体空间很大时,解决向量空间的高维数给 计算带来复杂性与难度这一问题,提出基于HCA(Hierarchical Clustering Algorithm) 向量空间压缩算法。 关键词:本体;向量空间模型;分层聚类算法;语义距离 文章编号:1002—8331(2007)24—0012—03 文献标识码:A 中图分类号:TP182 1引言 向量空间模型:帔广泛地应用在信息提取(IR)领域。基于 法(Linguistic Conceptualization),基于辞典或分类等方法,但是 这些方法中考虑的概念关系简单而稀少[61。随着语义网络技术 的发展,采用语义网络技术为信息提取提供共享的知识背景, 也就是本体(ontology),来为向量空间模型提供更为丰富、详细 的概念空间。在本体的支持下,文档中的语义相关的术语不再 被孤立地看成关键词,而是彼此间有了一定的语义联系,这种 向量空间模型的信息提取的主要思想是将用户的查询和文档 集都表示成特征向量 =( X ,…, ),所有的文档集的特征 向量共同组成了向量空间x , …, }。所有文档中的术语(t , t 一,t )成为向量空间的基,每个£ 对应于向量空间中的坐标 系 。特征向量Xi=( …, )的元素薯表示与向量空间中的 术语tj相对应的权重,蕾的计算方法大多基于TFIDF方法。当 将文档或查询转变成向量后,用户的查询或文档的分类、比较 都可以通过计算向量空间中两个特征向量的相似程度来获得。 目前向量相似性函数的计算方法包括:内积法(Cosine函数)、 最近邻法(Max)、Minkowski距离、Eculidean距离等。 向量空间模型在当今网络挖掘、文本挖掘领域仍占有重要 的地位。向量空间模型不仅可以用于文档问的相似比较也可以 用在段落问的比较以及句与句间的比较[81。许多的搜索引擎都 曾使用这种模型来分类网络文档。任何事物都具有两面性,向 量空间模型方法也不例外。其最显著的缺陷是基于关键词的向 量空间模型无法反应术语问的语义关系,例如当两篇文档意思 相同但因为使用了不同的术语而使汁算结果出现很大的偏差。 考虑了术语问语义联系的方法能够提高文档相似性比较的精 确程度。本文探讨的基于本体的向量空间模型的压缩算法就是 以这样的研究观点为基础的。 获得丰富而详细的本体是基于本体的向量空间模型的前 提,目前本体的获得方法概括起来包括两大类,手工方法以及 自动/半自动化方法。手工方法以众多领域专家的参与为主,由 专家手工建立本体的术语表,并描绘出本体中概念问的关系, 比较著名的方法:METHONTLOGy[41、SENSUS[”、On—To—Knowl— edge ̄ 01等。手工生成方法容易实现,是目前构造本体最常用的方 法,但是要耗费大量的人力、物力、时间,并且人工定义的本体 总免不了带有专家的主观倾向性,容易出错。自动,半自动的方 法主要是由机器学习或人与机器相结合的方法构造本体,例如 字典法、相关规则法、知识库法 I、基于层次法 I等等。自动/半 为解决这一问题,许多学者将概念问的语义相关性考虑进来, 例如潜在语义素引法(Latent Semantic Indexing),语言概念化 自动方法成为近年来研究的热点,这种方法能够生成大规模的 本体,但是本体中概念间的语义关系比较松散,很难满足应用 基金项目:国家自然科学基金(the National Natural Science Foundation of China under Grant);英国皇家学会国际合作项目(No.(2006)国科金外 资助字第6061 l130271) 作者简介:袁铭蔚,博士生;蒋平,教授,博士。 维普资讯 http://www.cqvip.com 袁铭蔚,蒋平:基于本体的向量空间模型的压缩算法 的要求。本文并不讨论本体的构建方法,而是以已获得丰富而 详细的本体为前提,考虑当本体空间很大时,解决向量空间的 变化,语义的相关性使得向量空间不再正交,原来的那些基于 统计的方法不再起作用。 众所周知,网络信息包含了丰富的个人用语习惯,不同个 体存在概念理解粒度差异,例如对于一个精通Java的面向对 象编程的程序员,可以声称自己是一个Java程序员,也可以声 称自己是一个面向对象程序员。另一方面,本体具有天然的层 次结构,不同层次的概念具有不同的抽象程度,越往高层越抽 象。从这两方面考虑,本文将采用基于HCA方法的聚类算法, 高维数给计算带来复杂性与难度这一问题,提出基于HCA (Hierarchical Clustering Algorithm)的降维方法。 2基于本体的向量空间模型 本体是对客观存在的—个系统的解释或说明,涉及到一个 领域里的概念、术语和关系,它为机器间以及机器与人提供了 知识共享的基础。基于本体的向量空间模型时将本体引入到向 量空间模型中,从而实现基于语义的信息提取。 按照语义距离对概念进行挖掘的物理意义为每步聚类过程是 获得更加抽象概念的过程。概念抽象的过程具有现实意义,例 如由用户来确定信息提取过程中的概念表达的粒度,一方面有 本体模型定义:12=-R(e ,e ,…,e ),e (i=1,…,Ⅳ)表示实体 (概念,对象,术语,属性), 表示实体间的关系。 基于本体的向量空间模型定义:网络上获得的信息(网络 文档、段落、句子、自然语言查询语句等)组成信息对象集合D= {dil1≤ ≤ },M为信息对象的总数。根据向量空间模型,每条信 息 都可以用一个特征向量 (s)=is ,s ,…,sIY1来表示。s 对应 于本体中的实体 表示某个信息对象中术语e 的权重。所有 的信息对象表示成的特征向量就构成了向量空间 ={ (s), : ( ),…, s)}。 通过下面的算法将实现基于本体的向量空间模型: 步骤1首先基于传统的TFIDF方法计算每个术语在 情况下的权重: .1。g d 表示术语e (e ∈ ,1≤i≤Ⅳ)在本文档中出现的频率;N表 示文档集中文档的数量,d 表示包含了术语e 的文档的数量, log(N/d )表示从文档集中选取包含了术语e 的文档的概率。这 里权重的计算按照传统的TFIDF方法进行计算,不过术语不 再是从文档中提取而是由本体直接给定。 步骤2为避免传统的TFIDF方法不考虑术语间语义相关 性的缺陷,特征向量的计算应该把相对的语义关系包括在计算 中,由此获得考虑了向量空间语义相关性的特征向量权重的计 算公式: vd(s)= d( ) R(e ej) (2) Vd(X)= ,…, 表示文档d的语义的特征向量,其权 重的计算依赖于公式(1)。关系矩阵R(e ej)表示语义相似矩 阵,表达了术语间的语义相关程度,也可以通过语义距离矩阵 D(e ,ej)获得。定义rl,j=e ,其中的 . 表示R( ej)中的元素, d 表示D(e ,ej)中的元素一d,采用基于本体的语义距离计算 方法获得 。 通过上面的算法可以建立基于本体的向量空间模型,将本 体中的概念作为向量空间模型中的术语,这就要求本体的概念 空间要足够大,才能够充分的描述领域知识。 3基于HCA的概念挖掘算法 本体的概念空间越大,所能表达的知识越丰富。基于本体 的信息提取系统,向量空间的维数依赖于本体中实体的数量。 随着本体概念的增加,向量空间的维数上升,带来了新的问题, 向量空间的高维数带来计算上的难度与复杂性。这样的问题也 存在于传统的向量空间模型的计算过程,现有的解决方法包括 随机映射(RP)、隐含语义分析(LSA)、概念索引(CI)等【llJ。但是 当将本体中的术语作为向量空间模型中的术语时,情况发生了 助于实现符合用户习惯的软件,另一方面实现了向量空间模型 的降维。 算法描述: 步骤1采用基于本体的语义距离计算方法[71获得本体中 术语间的语义距离,可以使用语义矩阵表示。 步骤2采用聚类算法挖掘不同理解粒度下的概念关系。 步骤3按照用户设置的期望理解粒度计算降维的特征 向量。 步骤4根据特征向量间的相似度,提取信息。 上面步骤2是核心算法,这一步使用自下而上的方法 HcA(Hierarchical Agglomerative Clustering)算法按照概念间的 语义距离进行分层。 HCA算法伪代码: 1:let each entity e be in a singleton group{e} 2:let G be the set of groups 3: whilelGl>l do 4: choose,。A∈G according to some measure of similarity s(F,A) 5:let =,U△ 6: remove,,A from G 7: insert into G 8:end while 初始状态将本体中每个概念看成是的聚类{eJe , 1≤ ≤Ⅳl。两个最相近的类将被聚合成一个更高层次的新类, 表示的更加抽象的概念,这一过程将被反复地执行直到系统只 有—个聚类。s(F,A)的计算方法包括:single linkage,COmplete linkage,centroid,average等。 聚类的结果产生系统树图,不同的层次对应着概念的不同 抽象程度也对应着用户的不同理解粒度。 图1对具有7O个概念的本体进行概念挖掘获得的系统树 图(这里选择average方法来计算s(F,A))。 图 本体中的7O个概念根据语义相关程度被聚合成23层不 同粒度的概念集合。最底层(£=O)对应于最细的粒度,也就是概 维普资讯 http://www.cqvip.com 14 2007,43(24) Computer Engineering and Applwations计算机工程与应用 向量空间模型中的术语时,语义的相关性使得向量空间不再正 交,原来的那些降维方法不再适用。本文提出了根据用户理解 程度使用HCA方法压缩向量空间模型,一方面满足了用户个 性化的要求,另一方面也有利于减轻计算量。 (收稿日期:2007年5月) 念全空间。最高层(L=23)对应于最粗的粒度,概念空间只包含 了一个概念。根据用户的理解粒度将概念空间进行压缩例如, 如果用户期望的概念抽象粒度设置为£=20,那么就可以获得 包含了3个聚类的概念集合,这3个聚类对应着3个更加抽象 的概念,即: [({{e28}&({e27}&({e26}&({e25}&({e8}&{e24}】}】}】&({{e23}&({e22} &({e2}&fe7}j}j&({e32}&({e3l}&({e30}&({e9}&fe29}j}j}j},({({e36} &({e35}&({e34}&({e3}&{e 10}】}】}&({e56}&({e55}&({e54}&({e33}& {e53)】””&{{lie38}&{e1 1)&{e37)】)&“{e59)&{e60”&“e61)& 参考文献: [1]wartout B S,Ramesh P,Knight K,et a1.Toward distirbuted use of large—scale ontologies【C]//AAAI Symposium on Ontological Engi- ({e57}&{e58}】}】}&({{e47}&({e46}&({e45}&{e 13}&{e44}】}】}& neering,Stanford,1997. ({e43}&({e42}&{{e41}&({e40}&{e12}&{e39}】}】}】}】},({{{e65}& [2]Salton G.Introduction to modem information retireval[M].IS.1.]:Mc- ({e64}&{{e63}&({e48}&{e62}】}】}&({e69}&({e68}&({e67}&{{e49}& Graw—Hill,1983. {e66}】}】}】&“{e52}&{{e51}&{e15}&{e50}】}】&{{{e21}&{{e20l& [3]Khan L,Luo F.Ontology construction for information selection[C]// f el9}&f{P6}&fel8}】}】}&f{ l7}&f{P5}&fel6}】}&f{ O}&fel}】& Proceedings of 14th IEEE international conference on tools with artiifcial intelligence(ICTAI 2002),2002:122—127. ({e4}&{e 14}}}}}}}】。 合并的概念{e e,}对应的新概念的权重的计算方法为: [4]L6pez M F,G6mez—P ̄rez A,Sierra J P,et a1.Building a chemical ontology using METHONTOLOGY and the ontology design environ- S W1Si+W2Sj ment阴.IEEE Intelligent Systems and their applications,1999,4(1): 按照上式的计算,特征向量Vi(s)就被压缩成维数更低的向量, 37—46. 由此计算的语义相似性: [5]Lammari N,Metais E.Building and maintaining ontologies:a set of sim(d ,d:)= (3) algorithms[J].Data and Knowledge Engineering,2004,48:155-176. IVdl S J l lv ̄t,s l [6]Castells P,Fema’ndez M,Vallet D.An adaptation of the vector- 那么70维的向量空间,通过上面的用户设置的理解粒度Ⅳ= space model for ontology-based information retireval[J1.IEEE Trans— 20,转变成3维空间。计算特征向量间的语义相似性时,只需考 actions on Knowledge and Data Engineering,2007,19(2):261-272. 虑3维向量。 [7】Jiang P,Mair Q.A self-organizational management network based 给定n维向量空间,聚类算法进行n一1次合并需要的时间 on adaptive resonance theory,agent technologies,ifnrasturctures, 复杂度为O(n:logn),空间复杂度为O(n )。语义相似性计算的 tools,and applications for e—services[M].IS.1.]:Springer,2003:211— 算法复杂度与用户设置的期望理解粒度£相关。 225. [8]Baeza-Yates R,Ribeiro-Neto B.Modem information retireval[M]. 4结束语 [S.1_]:ACM Press,1999. 本文提出的基于本体的向量空间模型将本体中的术语作 [9]Chen R C.Using recursive ART network to consturction domain ontology based on term frequency and inverse document ffequen— 为向量空间模型中的术语,修改了传统的TF—IDF算法,将语 cy[C]//Expert Systems with Applications(2006),doi:10.1016 ̄.eswa, 义相关矩阵引入到特征向量的计算中来,解决了向量空问模型 2006—09. 的术语问语义关系被忽略的问题。 [10]Staab S,Schnurr H P,Studer R,et a1.Knowledge processes and 另一方面本体的概念空间越大,所能表达的知识越丰富, ontologies[J].IEEE Intelligent Systems,2001,16(1):26-34. 从而导致了因高维数带来的计算复杂性,现有的解决这一问题 [1 1]高茂庭,王正欧,几种文本特征降维方法的比较分析[JJ.计算机工 的方法大多是通过降低维数来实现,而当将本体中的术语作为 程与应用,2006,42(30):157—159. (上接6页) [7]Hayfron—Acquah J B,Nixon M S.Automatic gait recognition by sym— [3]Collins R,Gross R.Silhouette-based human identiifcation from body metyr analysis叽.Pattem Recognition Letters,2003,24:2175—2183. shape and gait[C]//Pine Int Conf Automatic Face and Gesture [8]Lu Ji-wen,Zhang E-rhu.Gait recognition using independent com— Recognition,Washington,DC,2002:366—371. ponent analysis[C]//LNCS 3497:ISNN 2005,2005:183—188. [4]王亮,胡卫明.基于步态的身份识别[JJ.计算机学报,2003,26(3): [9]NLPR步态数据库[DB/OL].[2006—05].http://www.sinobiometrics.com. 353—359. [10]Philips P J,Moon H.The feret evaluation methodology for face [5]Murat Ekinci.A new attempt to silh【)uette_based gait Recognition for human identiifcation『cFLNAI 4013:Canadian AI 2006,2006: recognition algorithms[J].IEEE Transactions on Pattem Analysis 443—454. and Machine Intelligence,2000。22(10):1090—1100. [6]Kale A,Rajagopalan A N.Gait-based recognition of humans using [1 1]Wang Liang,Tan Tie-niu.Silhouette analysis—based gait recogni— continuous HMMs[C]//Pmc the Fifth IEEE Int Conf on Automatic tlon for human identiifcation[J].IEEE Transactions on Pattern Face and Gesture Recognition,2002. Analysis and Machine Intelligence.2003.25(12):1505—1517.