基于Web的可视化数据挖掘工具综述

来源：微智科技网

维普资讯 http://www.cqvip.com ２００６年ｌ２月　增刊　实验科学与技术　赣　基于Ｗｅｂ的可视化数据挖掘工具综述’　秦甲拓”，张浚　（电子科技大学成都６１００５４）　摘要：在互联网存储的信息中，对于含有有效信息的数据挖掘工作具有极高的价值，而数据　可视化工具又为挖掘工作以及对于信息的分析提供了更直观方便的方法。文章介绍了数据挖掘、　数据可视化、ｗｅｂ挖掘的基本概念、基本方法及流行技术；比较了常见的可视化数据挖掘工具，　并且对数据挖掘技术的发展做出了适当的展望。　关键词：数据挖掘；数据可视化；可视化数据挖掘；Ｗｅｂ数据挖掘；知识发现　中图分类号：ＴＰ３１１・１３　文献标识码：Ａ　文章编号：１６７２－４５５ｏ（￣ｏ６）０７一ＯＯ６５—０４　Ｏｎ　Ｖｉｓｕａｌ　Ｄａｔａ　Ｍｉｎｉｎｇ　Ｔｏｏｌｓ　Ｂａｓｅｄ　ｏｎ　Ｗｅｂ　ＱＩＮ　Ｊｉａ—ｔｕｏ，ＺＨＡＮＧ　Ｊｕｎ　（Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｅｌｅｃｔｒｏｎｉｃ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ　ｏｆ　Ｃｈｉｎａ　Ｃｈｅｎｇｄｕ　６１００５４）　Ａｂｓｔｒａｃｔ：Ｔｈｅ　ｗｏｒｋ　ｏｆ　ｍｉｎｉｎｇ　ｔｈｅ　ｄａｍ　ｈｔａｔ　ｃｏｎｔａｉｎｓ　ｖａｌｉｄ　ｉｎｆｏｒｍａｔｉｏｎ　ｏｎ　ｈｔｅ　ｉｎｔｅｒｎｅｔ　ｉｓ　ｈｉｇｈｌｙ　ｒｅｇａｒｄｅｄ　ｆｏｒ　ｉｔｓ　ｖａｌｕｅ．Ａｎｄ　ｔｈｅ　ｄａｍ　ｖｉｓｕａｌｉｚａｔｉｏｎ　ｔｏｏｌｓ　ｐｒｏｖｉｄｅ　ｖｉｓｕａｌ　ａｎｄ　ｃｏｎｖｅｎｉｅｎｔ　ｍｅｔｈｏｄｓ　ｔｏ　ｇｅｔ　ｄａｔａ　ａｎｄ　ｐｒｏｃｅｓｓ　ｉｎｆｏｒｍａｔｉｏｎ．　Ｉｎ　ｔｈｉｓ　ｐａｐｅｒ，ｔｈｅ　ｆｕｎｄａｍｅｎｔａｌ　ｃｏｎｃｅｐｔｓ，ｍｅｔｈｏｄｓ　ａｎｄ　ｐｏｐｕｌａｒ　ｔｅｃｈｎｏｌｏｇｙ　ｏｆ　ｄａｔａ　ｍｉｎｉｎｇ，ｄａｔａ　ｖｉｓｕａｌｉａｚｔｉｏｎ　ａｎｄ　Ｗｅｂ　ｍｉｎｉｎｇ　ａｒｅ　ｓｕｍｍａｒｉｚｅｄ；ｕｓｕａｌ　ｔｏｏｌｓ　ｏｆ　ｖｉｓｕａｌ　ａｄｔａ　ｉｍｎｉｎｇ　ａｒｅ　ｃｏｍｐａｒｅｄ；ａｎｄ　ｔｈｅ　ｐｒｏｓｐｅｃｔ　ｏｆ　ｄａｔａ　ｍｉｎｉｎｇ　ｔｅｃｈ—　ｎｏｌｏｇｙ　ｉｓ　ａｌｓｏ　ｐｒｅｓｅｎｔｅｄ　ｈｅｒｅ．　Ｋｅｙ　ｗｏｒｄｓ：ｄａｔａ　ｍｉｎｉｎｇ；ｄａｔａ　ｖｉｓｕａｌｉｚａｔｉｏｎ；ｖｉｓｕａｌ　ｄａｔａ　ｍｉｎｉｎｇ；Ｗｅｂ　ｍｉｎｉｎｇ；ｋｎｏｗｌｅｄｇｅ　ｄｉｓｃｏｖｅｒｙ　１　引　言　当中的变化趋势，还是气象预报的地形图，数据可　视化工具可以将那些复杂的数据直观地表示出来，　在２０世纪后期，计算产生大量的数据，其规　从而使得数据更容易被解释，并且提升用户的洞察　模巨大。在商业活动中，每一个记录所包含的数　力。直观的二维或者三维的数据可视化，可以更方　据，其价值则取决于对其理解的程度。利用数据挖　便地将数据集当中真正有价值的信息挖掘出来，帮　掘工具，可使这些数据具有应有的竞争价值。　助用户发现新的模式和趋势，并将发掘的结果与决　互联网络的规模在不断增长，早在２００４年底，　策人员沟通和交流。有效地将Ｗｅｂ数据挖掘与数　Ｇｏｏｇｌｅ就宣称索引了的有效网页数量突破了８０亿。　据可视化结合，可以更好地利用互联网络当中海量　将近百亿的网页使互联网本身成为了一个庞大的数　的数据，并将其转化为商业的赢利和投资回报率。　据库。Ｗｅｂ挖掘就是挖掘互联网当中的数据，使　这些有效存储的数据发挥其应有的价值。　２　Ｗｅｂ与可视化数据挖掘　当人类被数据包围时，在生活当中随处可见的　２．１数据挖掘　数据可视化则有利于数据的理解。无论是金融市场　数据挖掘就是对观测到的数据集（经常是很庞　・［收稿日期】２ＯＯ６—０ｒ７—２５　・・　［作者简介】秦甲拓（１９８５一），男，本科生，就读于计算机科学与工程学院。　一６５—　维普资讯 http://www.cqvip.com 大的）进行分析。　数据挖掘通过各种不同的算法来实现不同的任　务目标。其算法由模型、偏好和搜索三部分组成。　其中算法的目的就是找到适合于数据的模型。数据　挖掘模型在本质上分为预测性模型和描述性模型两　类：预测性模型利用从不同数据中发现已知的结　果，从而对数据进行预测；描述性模型则提供了一　种探索被分析数据的性质的方法，从而对数据中的　模式或关系进行辨识。另外，必须使用一些标准来　进行模型选择，而且所有的方法都要使用一些技术　对数据进行搜索。　数据挖掘的八个基本任务包括：分类、回归、　时间序列分析、预测、聚类、汇总、关联规则及序　列发现等。　数据库中的知识发现（Ｋｎｏｗｌｅｄｇｅ　Ｄｉｓｃｏｖｅｒｙ　ｉｎ　Ｄａｔａｂａｓｅｓ，ＫＤＤ）是一个包含了很多步骤的过程，　数据挖掘仅仅是其中一个基本步骤。数据库中的知　识发现（ＫＤＤ）是从数据中发现有用的信息和模　式的过程。数据挖掘则是使用算法来抽取信息和模　式，是ＫＤＤ过程的一个步骤。　数据挖掘过程当中，衡量其有效性和有用性是　比较困难的，在商业应用上，投资回报率（Ｒｅｔｕｒｎ　Ｏｎ　Ｉｎｖｅｓｔｍｅｎｔ，ＲＯＩ）用来衡量由于使用数据挖掘　而增加的收入与使用数据挖掘的成本之比，是一个　比较优秀的度量指标。　２．２可视化数据挖掘　数据可视化是将巨量数据转化为有意义的图像　的过程。数据可视化工具被用来创建业务数据集的　二维或三维的图形。可视化数据挖掘工具则帮助用　户创建可视化的数据挖掘模型，并且利用这些模型　发现业务数据集中存在的模式，从而辅助决策支持　以及预测新的商机。　数据可视化工具包括可视化和专门的层次　及地形可视化两类。其中，数据可视化工具能　够让用户直观地在空间坐标系上比较一个数据维和　其他数据维之间的关系。常用的可视化图表类型　有：柱形图和条形图、分布图和直方图、箱式图、　折线图、散点图和饼图。层次、地形和其他特殊的　数据可视化工具，是为了探索和提高对业务数据集　自身结构的理解，包括树型可视化和地图可视化。　２．３　Ｗｅｂ数据挖掘　Ｗｅｂ数据挖掘是挖掘跟万维网有关的数据，　～６６一　２０Ｏ６年ｌ２月　增刊　既可以是网页包含的数据，也可以是ｗｅｂ操作产　生的数据。ｗｅｂ挖掘活动的分类如图１所示：　Ｗｅｂ挖掘　Ｗｅｂ内容挖掘ｌ　Ｉ　Ｗｅｂ结构挖掘ｌ　ｌ　Ｗｅｂ应用挖掘　网页内容挖掘Ｉ　ｌ搜索结果挖掘Ｉ　Ｉ一般访问模式跟踪ｌ　Ｉ定制使用跟踪　图１　Ｗｅｂ挖掘活动的分类　２．３．１　Ｗｅｂ结构挖掘　Ｗｅｂ结构挖掘是从网页的实际组织结构中提　取网络的拓扑信息，即网页之间的链接信息。通过　对于链接的分析以及对于引用的计算，可以将网页　分类，并对网页建立相似性度量。其中比较流行的　技术有：　（１）ＰａｇｅＲａｎｋ　ＰａｇｅＲａｎｋ算法用于提高搜索引擎的搜索效果　和效率，度量网页的重要性以及为传统搜索引擎使　用关键字搜索的结果进行优先级排序。网页的Ｐａｇ－　ｃＲａｎｋ指通过指向它的网页计算，这实际上是基于　网页后向链接的一种度量。后向链接不是该网页链　出去的链接，而是指向该网页的链接。ＰａｇｅＲａｎｋ　值的计算不光考虑后向链接的数目，而是对来自重　要网页的链接给于更高的权值。给定网页Ｐ，用　Ｂｐ表示指向Ｐ的网页集合，Ｆｐ表示由Ｐ指向其他　网页的链接集合。网页Ｐ的ＰａｇｅＲａｎｋ值定义为：　（ｐ）＝ｃ∑　ｄ　“　这里Ⅳ口＝Ｉ　Ｉ。常数ｃ介于０和１之间，　用于归一化。　（２）Ｃｌｅｖｅｒ　ＩＢＭ公司开发的Ｃｌｅｖｅｒ系统，其目标是发现权　威网页和中心网页。权威网页支队请求的信息是“最　好的源”的网页，含有指向权威网页链接的是中心网　页。Ｃｌｅｖｅｒ系统用加权技术识别权威网页和中心网　页。搜索的目标可以看作是寻找最好的权威网页和　中心网页。该系统使用的是由Ｋｌｅｉｎｂｅｒｇ提出的ＨＩＴＳ　（Ｈｙｐｅｒｌｉｎｋ—Ｉｎｄｕｃｅｄ　Ｔｏｐｉｃ　Ｓｅａｒｃｈ）算法。　２．３．２　Ｗｅｂ应用挖掘　Ｗｅｂ应用挖掘用来提取关于客户如何运用浏览　器浏览和使用这些链接的信息。其研究对象就是　Ｗｅｂ使用数据或者Ｗｅｂ日志。Ｗｅｂ应用挖掘实际包　维普资讯 http://www.cqvip.com ２ＯＯ６年ｌ２月　增刊　实验科学与技术　含预处理、模式发现和模式分析三种类型的工作。　用于Ｗｅｂ挖掘的有效的最低级的数据就是点　（Ｍｕｌｉｔｐｌｅ　Ｌａｙｅｒｅｄ　ＤａｔａＢａｓｅ，ＭＬＤＢ）。ＭＬＤＢ为互联　网提供了一种抽象的精简视图，成为虚拟Ｗｅｂ视　击流。每次客户点击网站时生成的数据（也就是点　击流数据）可以被收集、存储、净化和管理，以用　于进一步的分析。通过分析客户的点击流数据，公　司可以很快了解到更多的客户行为——包括他们喜　欢或不喜欢的行为，从而提高其ｗｅｂ投资的有效　性。　点击流的分析始于网络日志。当服务器获得大　量的点击之后，还有许多过滤和整理的工作要做，　包括：过滤、反蜘蛛化、客户验证、会话、路径补　全。因此。应用挖掘可以帮助确定使用模式并且对　使用提出改进的建议，从而提高网站的可用性。　２．３．３　Ｗｅｂ内容挖掘　Ｗｅｂ内容挖掘通过研究网页本身的内容以及　ｗｅｂ搜索的结果来提取文字、图片或其他组成网　页内容成分的信息。可将其看作对基本搜索引擎所　完成工作的扩展。Ｗｅｂ挖掘的一种分类体系把　ｗｅｂ内容挖掘分为基于代理的挖掘和基于数据库　的挖掘。基于代理的挖掘有软件系统（代理）负　责内容挖掘；基于数据库的内容挖掘则把互联网上　的数据看作是属于数据库的数据。目前比较流行的　Ｗｅｂ内容挖掘技术有：　（１）爬虫　爬虫（又称机器人、蜘蛛）是指遍历网页超　文本结构的程序。由于互联网规模巨大，产生了专　用爬虫。专用爬虫只访问与特定主题相关的网页。　与传统的爬虫相比，使用许多专用爬虫能够覆盖更　多的网页，并且随着ｗｅｂ规模的增长有更好的扩　展性。专用爬虫结构包括超文本分类器、提取器和　爬虫三个主要组成部分。专用爬虫性能的目标是高　的准确率，或者称为收获率。　（２）Ｈａｒｖｅｓｔ系统　Ｈａｒｖｅｓｔ系统使用缓存、索引和爬虫技术，实　际上是一组工具，用于从众多来源收集信息。Ｈａｒ－　ｖｅｓｔ系统的设计集中在搜集器和代理的使用，其索　引和代理是面向特定主题的，用于搜索网页文本非　常有效。　（３）虚拟ｗｅｂ视图　对于互联网上大量无结构数据的处理，可以在　网页数据上建立规模宏大并且分布式的多层数据库　图（Ｖｉｒｔｕａｌ　ｗｅｂ　Ｖｉｅｗ，ＶＷｖ）。　（４）个性化挖掘　使用个性化挖掘，网页访问或者网页的内容可　以被更改从而更好地适应用户的需求。这种设计为　每个用户创建独特的网页或者根据用户的要求决定　搜索哪些网页。　３　常见Ｗｅｂ与可视化数据挖掘工具　通常情况下，数据挖掘工具一次一般只能解决　一个问题或者任务，例如分类、估计、预测、关联　分析、聚类和细分。通过解决不同类型的任务，可　以将数据挖掘工具分成两大类：有监督和无监督的　学习。　３．１有监督的学习工具　有监督的学习工具包括：（１）决策树和规则集　模型；（２）用于分类的神经网络模型；（３）线性回　归模型；（４）Ｌｏｇｉｓｔｉｃ回归。　３．２无监督的学习工具　无监督学习把一组记录的集合作为输入，然后　试图从中发现一些模式。各个工具之间的差别在于　发现的模式和搜索的过程，主要包括以下三种：　（１）关联规则；（２）聚类；（３）ＳＯＭ（Ｋｏｈｏｎｅｎ自　组织映射）。　４常见数据挖掘工具对比　不同的数据挖掘工具能够解决不同的数据挖掘　任务，如表１所示。　同样，不同的数据挖掘工具具有不同的优点和　缺点。如表２所示。　表１数据挖掘工具功能对比　数据挖掘工具分类估值预测相关分组聚类和细分解释　决策树　、／　、／　、／　神经网络　、／　、／　线性回归ｘ／ｘ／ｘ／　Ｌｏｇｉｓｔｉｃ回归ｘ／ｘ／ｘ／　关联规则　、／　、／　聚类ｘ／ｘ／ｘ／　ＳＯＭ　一６７—　维普资讯 http://www.cqvip.com ２Ｏ０６年ｌ２月　增刊　表２中效力：对于有监督学习来说，判断效力　的标准就是工具的准确率；对于无监督学习来说，　也将不断降低。　目前已经提出了一个基于ＳＱＬ的数据挖掘查　询语言（Ｄａｔａ　Ｍｉｎｉｎｇ　Ｑｕｅｒｙ　Ｌａｎｇｕａｇｅ，ＤＭＱＬ）。　判断有效性的标准就是数据挖掘工具发现的模型的　有用程度。　表２数据挖掘工具优缺点对比　数据挖掘工具　效力　可解释性易于实施产生模是否　能否适合概　型时间可信任可视化念证明　可解释性：指的是一个领域专家或者一个不具　有数据挖掘相关知识的人员理解数据挖掘模型的难　易程度。　易于实施：指的是在生产和测试环境中部署模　型的难易程度，直接和模型的复杂程度相关。　产生模型时间：数据挖掘工具通过搜索模式来　形成最后的模型，不同工具的搜索速度不同。　是否可信任（可信程度）：对于有监督学习任　务来说通过利用可信程度，可以对预测结果进行排　序，从而可以使用其中最准确的一部分结果；对于　无监督学习任务来说，比如聚类，相关的可信程度　表示是否能够计算出记录隶属于一个聚类的程度或　者到某聚类的距离。　能否可视化：可以了解模型对未知例子打分的　过程，对于模型部署之后的监督尤为重要。　适合概念证明：用于证明数据挖掘是否能带来　利润，从而展示在特定问题上数据挖掘的价值。　４发展前景与结束语　在数据库系统的发展过程中，数据挖掘只是很　多工具的综合体，利用这些工具可以发现很多隐藏　在数据库当中真正有价值的信息。虽然在ＫＤＤ过　程中有很多数据挖掘工具，但是还没有一个能够很　好地包含所有工具的模型或者方法。随着人工智能　技术的不断进步，数据挖掘工具的不断完善，知识　发现技术的不断发展，数据库当中人工参与的比重　一６８一　ＤＭＱＬ允许存取注人概念层次之类的信息，并不是　数据的简单汇总。其复杂程度要求必须明确要挖掘　的知识的类型，而且要挖掘的信息应该服从阈值或　必要的重要度。　ＤＭＱＬ语句的核心是规则说明部分，因为这一　部分要描述数据挖掘请求。通常有四种数据挖掘请　求：泛化关系、特征规则、判别规则以及分类规　则。　知识与数据发现管理系统（Ｋｎｏｗｌｅｄｇｅ　ａｎｄ　Ｄａｔａ　Ｄｉｓｃｏｖｅｒｙ　Ｍａｎａｇｅｍｅｎｔ　Ｓｙｓｔｅｍ，ＫＤＤＭＳ）被用来描述　下一代数据挖掘系统，其中包括了数据挖掘工具以　及管理数据的技术。还为特定的数据挖掘查询提供　了存取人口。为了有效地存取，需要对数据挖掘查　询进行优化。　数据挖掘的跨行业标准过程（Ｃｒｏｓｓ　Ｉｎｄｕｓｔｒｙ　Ｓｔａｎｄａｒｄ　Ｐｒｏｃｅｓｓ　ｆｏｒ　Ｄａｔａ　Ｍｉｎｉｎｇ，ＣＲＩＳＰ—ＤＭ）可　应用于许多不同的领域，强调ＫＤＤ过程中的所有　步骤。其生命周期包括如下几个步骤：商业需求理　解、数据理解、数据准备、建模和评价使用。可将　这些步骤总结为“５Ａ”：评估（Ａｃｃｅｓｓ）、访问（Ａｃ－　ｃｅｓｓ）、分析（Ａｎａｌｙｚｅ）、行动（Ａｃｔ）和自动化（Ａｕｔｏ－　ｍａｔｅ）　参考文献　［１］Ｍａｒｇａｒｅｔ　Ｉ－Ｌ　Ｄｕｎｈａｍ．Ｄａｔａ　Ｍｉｎｉｎｇ　Ｉｎｔｒｏｄｕｃｔｏｒｙ　ａｎｄ　Ａｄ—　ｖａｎｃｅｄ　Ｔｏｐｉｃｓ［Ｍ］．Ｕｐｐｅｒ　Ｓａｄｄｌｅ　Ｒｉｖｅｒ，ＮＪ：Ｐｒｅｎｔｉｃｅ　Ｈａｌｌ，２００３．　［２］Ｇｏｒｄｏｎ　Ｓ　Ｌｉｎａｆｆ，Ｍｉｃｈａｅｌ　Ｊ．九Ｂｅｒｒｙ．Ｍｉｎｉｎｇ　ｔｈｅ　Ｗｅｂ：　Ｔｒａｎｓｆｏｒｍｉｎｇ　Ｃｕｓｔｏｍｅｒ　Ｄａｔａ　ｉｎｔｏ　Ｃｕｓｔｏｍｅｒ　Ｖａｌｕｅ．Ｈｏｂｏ－　ｋｅｎ［Ｍ］．ＮＪ：Ｊｏｈｎ　Ｗｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ，２００１．　［３］Ｊａｉｄｅｅｐ　Ｓｃｆｉｖａｓａｔｖａ，Ｒｏｂｅｒｔ　Ｃｏｏｌｅｙ，Ｍｕｋｕｎｄ　Ｄｅｓｈｐａｎｄｅ，　ｔｃ　ａＬ　Ｗｅｂ　ｕｓａｇｅ　ｍｉｎｉｎｇ：Ｄｉｓｃｏｖｅｒｙ　ａｎｄ叩ｐｌｉｃａｔｉｏｕｓ　ｏｆ　ｓｕａｇｅ　ｐａｔｔｅｒｎｓ　ｆｒｏｍ　ｗｅｂ　ｄａｔａ［Ｊ］．Ｐｈｉｌａｄｅｌｐｈｉａ：ＳＩＧＫＤＤ　Ｅｘｐｌｏｒａｔｉｏｎｓ，Ｊｎａｕａｒｙ２ｏｏ０（１）：１２—２３．　［４］Ｏｓｍａｒ　ＲａｃｈｉｄＺａｉｎａｅ．Ｒｅｓｏｕｒｃｅ　ａｎｄ　ｅｄ　ｄｉｓｃｏｖｅｒｙ　ｆｒｏｍ　ｈｔｅ　ｉｎｔｅｍｅｔ　ｎａｄ　ｍｕｌｔｉｍｅｄｉａ　ｒｅｐｏｓｉｔｏｒｉｅｓ［Ｍ］．Ｂｕｍ—　ａｂｙ，Ｂ．Ｃ．：Ｔｅｃｈｎｉｃａｌ　ｒｅｐｏｒｔ，ＰｈＤ　Ｄｉｓｓｅｒｔａｔｉｏｎ，Ｓｉｍｏｎ　Ｆｒａｓｅｒ　Ｕｎｉｖｅｒｓｉｔｙ．Ｍａｒｃｈ　１９９９．　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文