总第280期 2013年第2期 计算机与数字工程 Computer&Digital Engineering Vol_4l No.2 196 IRT树索引结构的研究 朱德龙李松董义明籍祥李海岫 150080) (哈尔滨理工大学计算机科学与技术学院摘要哈尔滨论文针对R树在处理一些特定空间数据对象集时的不足,研究了基于最小外接直角等腰三角形(MIRT)的新的索引结构一 IRT树 探讨了IRT树的空间平面划分和空间数据结构特征,给出了IRT树的节点算法和搜索算法。进一步对IRT树和R树进行了 比较分析。由分析可知,对于一些特定数据集,IRT树在查询准确率、数据存储和空白空间冗余方面均有一定的优势。 关键词R树;空问索引;IRT树;节点 TP311 中图分类号Research of IRT Tree Index Structure ZHU Delong LI Song DONG Yiming J I Xiang LI Haishen (Department of Computer Science and Technology,Harbin University of Science and Technology,Harbin 150080) Abstract According to the deficiency of the R tree,the IRT tree was studied based on the minimum isosceles right triangle(MIRT). The spatial plane partition and the spatial data structure were discussed.The splitting algorithm and the search algorithm were given.Theat rica1 analysis and experimental results show that the IRT tree has advantages on search accuracy,data storage and blank redundancy for some datasets compared with R tree. Kay Words R tree,spatial index,IRT tree,node split Class Number TP31 1 1 引言 R树ll 及R树家族l2](in R*树、TPR树、SR树等)是 空问数据对象组织和查询的重要空间索引结构,近年来在 空间查询l3 和空间聚类分析_8]等领域起着日益重要的作 用。有关R树及其变种树的研究受到了大家广泛的重视。 R树的建树基础是最小外包矩形(MBR)。在R树中 存放的数据并不是原始数据,而是这些数据的最小外包矩 形(MBR),空间对象的MBR被包含于R树的叶节点中。R 树中的各层节点以递归的方式对数据集空间进行划分。其 环境和特定的查询需求,本文研究了一种空间索引树 IRT树,探讨了IRT树的空间组织和节点结构,给出了节 点算法和搜索算法。 2 IRT树索引结构与基本操作算法 2.1 IRT树索引结构 与R树类似,IRT树足一种多级高度平衡树。在IRT 树中存放的数据是最小外接等腰三角形(min isosceles right triangle,MIRT),叶子节点存放空间数据对象的 每一个非叶节点本身代表数据集空间中的一个矩形,该矩 形为其子节点所代表矩形的MBR。R树在数据组织和查 MIRT,中间节点存放包含MIRT的MIRT。IRT树中的各 层节点以递归的形式对数据对象空间进行划分。非叶节点 由多个形如(IRT,,ND )结构的数据项组成,其中,IRT 为与子节点相关的MIRT,IND 为指向子节点的指针; 而叶子节点由多个形如{IRT,P}结构的数据项组成,其中, 询方面对于空间许多数据集是高效的。尤其是对于大量形 状近似空间矩形的空间数据对象且大部分数据对象子集分 布区域近似为空间矩形的情况,R树的优势是明显的。但 在许多空间环境中,空间数据对象的形状往往近似为三角 形,大量空间数据对象的聚类子集的区域往往也经常近似 为三角形。此时,再用MBR进行数据对象的近似和聚类将 会产生大量的空白空间,R树节点中存储的空间信息与实 P为指向空间对象的具体数据指针,IRT为对象P的 MIRT。IRT树中的每个节点对应一个磁盘页面,IRT树的 平面划分与数据结构如图1所示。 与R树类似,IRT树自身主要具有以下特征: 际数据对象的空间信息偏差太大,从而导致利用R树及变 种树进行查询时会产生较大的误差,建树代价和查询代价 1)IRT树的每个等腰直角三角形(IRT)的两条直角边 均和一个全局坐标系的纵、横坐标轴平行,直角顶点处于左 下方。 均会急剧增大。为了弥补以上问题,针对一些具体的空间 *收稿日期:2012年8月30日,修回日期:2012年1O月5日 基金项目:计算机专业卓越工程师的研究和创新能力培养(编号:GBC1211062);哈尔滨理工大学大学生创新创业训练计划项目(编 号:2012);哈尔滨理工大学青年科学研究基金项目(编号:2011YF015);黑龙江省自然科学基金资助项目(编号:F201134)资助。 作者简介:朱德龙,男,硕士研究生,研究方向:算法设计与数据库。李松,男,博士,副教授,硕士生导师,研究方向:数据库原理及应 用。董义明,男,研究方向:数据结构。籍祥,男,研究方向:算法理论与设计。李海岫,男,研究方向:软件分析与程序设计。 2013年第2期 计算机与数字工程 197 (b)IRT树的数据结构 图1 IRT树的平面划分与数据结构示例 由该特征可知,MIRT的三个顶点的空间信息可表示 为(zo, ),(-z1, ),(zo,( o+z )/2)。节点所存的每个 MIRT空间信息仅为三个数据,所需空间存储较少。 2)IRT树的每个叶节点的每条索引记录形式为{IRT, P),IRT表示数据对象的最小外接等腰直角三角形,P为指 向空间对象的具体数据指针。 3)若IRT树的节点不是叶节点,则该节点至少有两个 子节点。 4)若IRT树的节点不是叶节点,则该节点的每个项的 记录形式为(IRT,INDa )。IRT表示包含其子节点最小 外接等腰直角三角形的最小外接等腰直角三角形。 5)除根节点外,每个节点包含的索引记录或包含的子 节点的个数均有上限和下限的。 2.2 IRT树索引结构的基本操作 在树索引结构的操作中,树节点的操作和树的查 询操作最为重要,本节重点给出了IRT树的操作算法 和IRT树的查询操作算法。 与R树类似,操作是当树的节点所包含的项的个 数超过上限后,按照一定的规则将该节点分为若干个部分。 子节点将会产生一些新的单元,使父节点包含的项的 数目增大,从而有可能引起父节点的溢出,利用规则继续对 父节点进行。显然,IRT树的操作是递归进行的。 算法1给出具体的算法如下: 算法1 IRT_Split(e)(IRT-树结点算法) 输入:需要的结点e; 输出:后的IRT-树; begin 判断节点e是否溢出; if e溢出then tl+一SPI IT1(P); tz ̄-SPLIT2(P); if P是根结点then 新建一个根节点E; IND ̄ila(E)一 1; IND (E)— 2; return(E): else 将e从e的父节点的项中删除; FatherItem(e) ̄--tl; FatherItem(e)+一 2; if FatherItem(e)>MK then IRT—Split(Father(e)); end. IRT树的查询操作即是给出待查区域,利用树索引结 构查出符合条件的数据项。算法2给出了IRT树的搜索算 法如下: 算法2 IRT_Search(IRT,T)(IRT-树搜索算法) 输入:IRT树,搜索三角形丁; 输出:符合查询条件的项; begin ifE是叶子节点then 遍历E中的每一项E ; if E 与搜索三角形T相交then return(E); else 遍历E中的每一项E.; ifE 与T相交then IRrr一以E为根节点的树; IRTSearch(IRT,T); end. 2.3性能分析 针对空间数据对象和空间数据集的空间分布在众多情 况下呈近似三角形和三角分布的特点,传统的以最小外接 矩形(MBR)为聚类近似手段的空间索引树(如R树)将具 有一些不足。为了弥补该缺点,2.2节研究了IRT树和相 应的操作算法。本节对IRT树进行性能分析。 利用算法复杂度分析技术对本文的IRT树的节点 算法和搜索算法进行算法分析。由算法1可知,算法在 最好的情况下的时间复杂度为O( ),最坏情况下的时间复 杂度为O(nlog ̄k),其中,,z表示叶子节点中包含数据对象的 个数;log ̄k为树的最大深度,k为空间对象个数。算法2的 时间复杂度为(1ogn),最坏情况下的时间复杂度为0( )。 进一步,表1给出了IRT树和R树的指标参数比较信 息。所用的空间数据对象数为950,其中78%的空间数据 对象呈近似三角形;73 的空间数据对象分布的子集合可 近似由一定数量的三角形进行聚类。由表1可知,处理该 空间数据集,IRT树在存储空间、查询误差,建树代价方面 都比R树少。其中,空间对象近似和数据聚类时所产生的 冗余空白空间信息仅为R树的86 。 表1基本性能指标比较 3 结语 由于在实际空间场景中,很多空间数据对象的形状是 近似三角形的,空间数据对象的聚集分类区域往往也近似 三角区域,用传统的R树索引结构进行数据组织和索引,所 产生的空白较多,影响建树和查询效果。本文研究了一种 新的空间索引树即IRT树,提出利用最小外接等腰直角三 角形代替最/J, ̄b接矩形对空间对象及对象集区域进行近 (下转第221页) 2013年第2期 计算机与数字工程 Engineering and Electronics,2005,27(5):841—843. 221 between alternatives with special type of incomplete in forma— tion[-J].European of Journal Operational Research,1997,96 (2):398 406. [12]吴江,黄登仕.区间数排序方法研究综述[J].系统工程,2004, (8):1-4. [6]华光旭.试论投资风险评估[n有色金属,2010,2:132—133. HUA Guangxu.Discussion on Investment Risk Evaluate[J]. Journal of XinJiang Nonferrous Metals,2010,2:132-133. WU Jiang,HUANG Dengshi.An Renew on Ranking Methods of Interval Numbers[J].Systems Engineering,2004,(8):1—4. [13]姜宁,李登峰.不完全信息多属性决策的集成模型与方法[J]. 系统工程与电子技术,2001,23(2):71—73. JIANG Ning,LID ̄ngfeng.AnIntegrate dModel andMethodfor [71樊治平,张权.一种不确定多属性决策模型的改进[J].系统工 程理论与实践,1999,19(12):42—47. FAN Zhiping,ZHANG QuarL The Revision for the Uncertain Multiattribute Decision Maikng With Incomplete Information[J]. Systems Engineenng and日ectronics,2001,23(2):71—73. Multiple Attribute Decision Making Models[J].Systems Engi— neering-theory&Practice,1999,19(12):42—47. L14]徐泽水,达庆利.区间数排序的可能度法及其应用[J].系统工 程学报,2003,18(1):67—7O. XU Zeshui,DA Qingli.Possibility degree method for ranking [8]达庆利,徐泽水.不确定多属性决策的单目标最优化模型i-j]. 系统工程学报,2002,17(1):50—55. DA Qingli,XU Zeshui.Singul o bjective optimization model in interval numbers andits application[J].Journal of Systems Engineering,2003,18(1):67—70. uncertain multi—attribute decision making[J].Journal of Sys— terns Engineering,2002,17(1):5O一55. [15]梁智学,郭俊颖.基于多源数据融合的网络风险评估_J].舰船 电子工程,2011,31(4). LIANG Zhixue,GUO Junying.Network Risk Assessment [9]徐泽水.对方案有偏好的三角模糊数型多属性决策方法研究 __J].系统工程与电子技术,2002,24(8):9-12. XU Zeshui.Study on Method for Triangular Fuzzy Number- Based Multi Attribute Decision Making With Preference Infor— Based on Multi—Source Data Fusion[J].Ship Electronic Engi— neering,2011,31(4). mairon on Altematives口].Systems Engineering and Electron— ics,2002,24(8):9-12. [16]陈华伟,陈生春,黄祥兵.风险矩阵方法在集体逃生舱释放过 程中的应用研究_J].舰船电子工程,2011,31(7). CHEN Huawei,CHEN Shengchun,HUANG Xiangbing. Appling Risk Matrix Method to Evaluate the Releasing [10]李汶华,郭军鹏.判断矩阵的区间权向量及其方案排序[J].哈 尔滨工业大学学报,2005,7(5):698—700. LI Wenhua,GU0 Junpeng.Interval weight vector of judg— Process of Collective Escape Capsule ̄J].Ship Electronic En— gineering,2011,31(7). ment matrix and ranking of the alternatives[J].Journal of Harbin Institute of Technology,2005,7(5):698—700. [17]徐泽水,达庆利.区间型多属性决策的一种新方法[J].东南大 学学报,2003,33(4):498—501. XU Zeshui,DA Qingli.New method for interval multi—attrib [11]熊文涛,刘三阳,史加荣.不确定性多属性决策的一种新方法 [J].系统工程与电子技术,2005,27(5):841—843. XIONG Wentao,LIU Sanyang,SHI Jiarong.Novel method ute decision—making[J].Journal of Southeast University(Nat ural Science Edition),2003,33(4):498—501. 不 乖 尔 希 乖 尜 筇 for the uncertain multi—attribute decision making[J].Systems !; !矫 . 坏 铞 不 : .希 (上接第197页) 似,给出了节点算法和搜索算法,最后对IRT树进行 了性能分析。分析表明,IRT树对一些特定数据对象集具 Press。20l1. [6]李松,郝忠孝.球面上最近邻空问关系处理方法[J].计算机工 程,2010,36(6):91—93. LI Song,HAO Zhongxiao.Methods for handling nearest 有一定的优势。下一步的研究重点主要在于IRT树的索 引优化及将IRT树用于空间查询的研究(如单纯型连续近 邻链查询 。 和球面上的K最近邻查询 等)。 参考文献 r1]GUTYMAN A Rtrees:A dynamic index structure for spatial neighbor spatial relations on spherical surface[J].Computer Engineering,2010,36(6):9卜93. [7]ZHANG Liping,LI Song.Simple continues near neighbor chain query of the datasets based on the R Tree[J].Journal of Computational Information Systems,2012,22:1-8. searching[C]//Proc.of ACM SIGMOD,Boston,MA,1984:47-57. [2]张明波,陆锋,申排伟,等.R_树家族的演变和发展[J].计算机 学报,2005,28(3):289—300. ZHANG Mingbo,LU Feng,SHEN Paiwei.The evolvement [8]孙殿柱,孙永伟.R*一树结点自适应聚类分簇算法IJ].北京航 空航天大学学报,2012,6:1-5. SUN Dianzhn,SUN Yongwei.Node splitting algorithm of R and progress of R-Tree family[J].Chinese Journal Of Comput ers,2005,28(3):289—300. *一tree based on self-adaptation clustering[J].Journal of Bei— jing University of Aeronautics and Astronautics,2012,6:1-5. [3]郝忠孝.时空数据库查询与推理[M].北京:科学出版社,2010. HAO Zhongxiao.Spatio temporal database query and reason— [9]李松,张丽平,蔡志涛,等.数据集中单纯型连续近邻链查询方 法[J].计算机工程,2012,38(4):82 83. LI Song,ZHANG Liping,CAI Zhitao.Query method of sim— ing[M].Beijing:Science Press,2010. [4]郝忠孝.移动对象数据库理论基础[ⅣI].北京:科学出版社,2012. HA0 Zhongxiao.Theoretical basis for moving objects database pie continus near neighbor chain in dataset[J].Computer Engi neering,2012,38(4):82—83. [M].Beijing:Science Press,2012. [5]李松,张丽平,孙冬璞.空间关系查询与分析[M].哈尔滨:哈尔 滨工业大学出版社,2011. LI Song,ZHANG Liping,SUN Dongpu.Spatial relation que— [1O]张丽平,李松,郝晓红.球面上的K最近邻查询算法[J].计算 机工程,2011,37(2):52—56 ZHANG Liping,LI Song,HA0 Xiaohong.Algorithms for K-Nearest neighbor query on sphere[J].Computer Engineer— ing,2011,37(2):52—56. ry and analysis[M ̄.Harbin:Harbin Institute of Technology