企业导报2014年第11期 基于Hadoop海量数据挖掘技术分析 口胡 昕 (南昌工程学院,江西南昌330029) 摘要:对现有多款云计算平台做了分析与对比。之后选定Hadoop开源云平台作为项目的基础研究平台,对其进行深入的 分析与讨论。 关键词:Had00p;数据处理;挖掘 曾有一句话在互联网业界广为流传:“大量的数据胜于好 中的所有元数据都存储在NameNode上,故客户端可以方便地 的算法”,这句话的意思是说对于某些应用,相比与优秀的算 通过NameNode得到全局数据存储状况,但如果出现NameN 法,大量可用的数据能够带来更好的推荐效果。这就是数据处 ode死机的情况,用户也将失去访问数据的能力,为此HDFS在 理和挖掘。数据处理的根本目的是利用有效的手段快速准确的 新版本中加入了备份NameNode功能,以防止上述故障。 获取数据、加工数据、应用数据。这其中,数据挖掘技术是将收 并行计算架构MapReduce。MapReduce是一种为多台计算 集到的数据得以有效应用的核心技术。数据挖掘(Data Mining) 机并行处理大量数据而设计的并行计算框架。MapReduce通常 技术又被称作数据库中的知识发现,其核心就是从大量杂乱无 工作的输入数据分割成的数据块.分割后的数据一般由多 章的、难以理解的数据中获取有效的、新颖的、具有潜在应用价 个Map任务并行处理。Mapper从HDFS上取出数据,处理后将 值的信息的过程。 结果存储在本地硬盘,Reducer在本地硬盘或通过网络方法取 目前比较有研究价值的Web挖掘的方向有:(1)数据预处 得Mapper的输出结果后进一步计算,将结果输出到HDFS。 理技术方向。(2)现有挖掘算法改进方向。(3)智能搜索引擎方 MapReduce框架关注调度任务,并监视任务的执行状况,如果 向。(4)电子商务领域应用方向。 海量数据处理虽然刚刚兴起,但数据在企业中一直处于核 营决策贡献巨大。企业现有数据产品的服务商,排在前六位的 Apache Hadoop(9.01%)、EMC(8.33%),以及SAP(7.66%1。Oracle 执行失败,将重新执行该任务。 在Hadoop中计算节点通常与存储节点在一起。这就使得 MapReduce框架包含一个的主服务器JobTracker(工 TaskTracker(任务执行服务器)。主服务器负责将任务调度到从 HDFS上指定输入与输出位置,并通过实现专门的接口来提供 心地位,传统的数据产品,在企业中部署运行多年,为企业的经 MapReduce框架可以根据数据的存储分布。情况来调度任务。 分别是Oracle(27.93%)、ⅢM(15.99%)、Microsoft(14.41%)、 作分配服务器)及一组与DataNode安装在一起的从服务器 以绝对优势拔得头筹,可见其在数据库、数据分析和大数据方 服务器上,并监控任务,重新执行失败的任务。应用程序在 面的地位。值得一提的是Hadoop的普及水平已超出我们的想 象,成为继Oracle、mM和Microsoft之后又一主流平台产品。 相应的Map和Reduce方法。Hadoop客户端负责发送工作相 Hadoop云平台由分布式文件系统HDFS与并行计算构架 配置信息给JobTracker,由JobTracker来分发、调度任务给 MapReduce两个核心组件构成。接下来将对Hadoop的核心组 TaskTracker,并将相应的状态信息反馈给Hadoop客户端。 件、主要构造模块及拓扑结构进行分析与讨论。 首先由JobClient向部署于Master节点上的JobTracker守 分布式文件系统HDFS。HDFS(Hadoop Distributed File 护进程提交MapReduce作业。JobTracker在接受到作业请求后 System)是为Hacloop项目开发的分布式文件系统,它采用主/ 计入队列中去。驻留在Slave节点上的TaskTarcker守护进程在 从(master/slave)架构。HDFS由一个NameNode(文件索引服务 完成自己分配到的作业后会不断向JobTracker发送心跳信息, 器)以及众多DataNode(数据节点)组成。HDFS提供给用户相 查询Job队列中是否有新的任务可做,若队列中有新的任务, 应的文件命名空间供用户将数据以文件的形式存放。HDFS一 JobTracker会在第一时间发送给空闲的TaskTracker进行处理。 般会把这些文件切分为几个文件块,切分后的文件块将被存放 Hadoop有5大构造模块构成,其分别为:NameNode(名字 在一组数据服务器上。然后由NameNode提供打开、关闭、重命 节点)、SecondaryNameNode(次名字节点)、DataNode(数据节 TaskTracker(任务跟踪)、JobTracker(作业跟踪)。每个模块 名文件与目录等基本功能,同时负责将文件块映射到DataNode 点)、上。再由DaaNode负责响应客户端具体文件的读写操作,同时 具备不同的功能,共同完成分布式数据处理任务。t 处理由NameNode发起的创建、删除和备份数据块的请求。 一在Hadoop云平台基础上,进行了海量web日志数据预处 般而言HDFS在Linux操作系统上运行。由于采用了 理模型的研究,提出了改进型预处理模型,并在单机及Hadoop Java语言,所以理论上任何支持Java语言的操作系统都可以运 分布式平台下分别进行了仿真验证,对仿真结果进行了对比分 行NameNode与DataNodeo HDFS采用主/从式系统架构,其 析与研究。在海量web日志数据预处理研究基础上进行了 f下转第158页) 作者简介:胡昕(1983一),男,民族:汉,江西省南昌市人,职称:工程师,研究方向:计算机应用、数据库检索、网络技术。 ・154. 企业导报2014年第11期 养财经类从业人员的高职财经类专业,必须注重培养学生的人 并提出解决的方案。这个过程中,同学们会非常细致认真,同时 际交往能力,将人际交往能力当做一项非常重要的职业素质来 为了避免被其他同学找出错误,学生会非常谨慎。久而久之,学 抓。通过案例研讨模式让学生积极参与到仿真的场景或者回到 生在会逐渐掌握解决实际问题的能力。 曾经发生的经典案例中去能够使学生更好地培养人际交往能 力;案例的搜集需要与人交往,案例问题的发现和解决更离不 三、正确实施案例研讨教学模式应注意的问题 高职院校财经类专业实施案例研讨教学模式对于培养学 开与人的沟通交流,这就使学生由开始的不得不与人交往逐渐 生的职业素质有着非常重要的作用,在实施案例研讨教学模式 变成能够积极主动地、有意识地与人交往,并最终使这种交往 的过程中,必须注意一系列问题,否则不能发挥这种教学模式 内化为学生的能力。 的作用。 (四)有利于培养学生的组织协调能力。如上文所述,当前 (一)坚持发挥学生的主体作用。案例研讨模式的主要目的 的经济活动大都需要团队合作共同完成,这个过程中就需要考 就是要培养学生解决实际问题的能力和各种必须的职业素质。 虑如何使团队产生最大合力减小内耗。解决这个问题一方面需 在案例研讨模式中,案例的搜集和整理应当放手交给学生,让 要团队成员拥有较强的团队合作意识,另一方面也离不开团队 学生亲身挑选案例,从而培养学生的自主意识和甄别筛选能 组织者的较强的组织协调能力。作为管理者,需要具备协调各 力;案例研讨过程中,要特别注意让学生通过研究讨论发现问 方面使之能够团结一致的能力,这才能够使得团队成员能够心 题并解决问题,从而促进学生职业素质的培养。 往一处想劲往一处使,才不至于出现各自的力量相互抵销的现 象。 案例研讨的过程中,必须一改传统案例教学中案例由备课 组教师指定,并且只是简单作为知识传授的工具的教学模式。 教学中的案例研讨模式不仅需要各成员的主动配合,同时 传统案例教学将学生排除在外,始终是教师唱独角戏,不能真 也需要组织者(项目组长)的组织协调,才能够使研讨顺利进 正发挥案例的作用,不利于学生能力的培养。 行。通过轮流当组长等形式,可以使学生在日常学习中培养较 强的组织协调能力,为日后工作打好基础。 (二)发挥教师的主导作用。为了培养财经类专业学生的职 业素质,高职院校已经逐渐开始采用案例研讨模式进行课堂学 一(五)有利于培养学生严谨细致的的精神。财经类工作不比 习。但是,在使用案例研讨教学模式中却出现了两种错误倾向, 寻常,它需要严谨细致,否则就会产生不可估量的后果。作为财 是教师统的太死,将所有的工作都替学生做好了,这样的教 经类的从业人员,必须具有严谨细致的精神,认真对待工作中 学模式其实是换汤不换药:另一种错误倾向是教师完全放手不 的每一个细节。例如会计、统计、财税等,都是需要严谨细致的 管,把案例研讨变成了放羊,从而导致研讨过程中的无的放矢 从业人员进行的,这里一旦出现马虎,哪怕是仅仅一个小数点 现象。正确实施案例研讨模式一方面教师要让学生放开手脚大 都会对企业或者客户带来巨大的损失。 胆的进行尝试,不能管的太严、统的太死;另一方面还要积极做 通过案例研讨可以帮助学生克服粗心大意的陋习,在研讨 好指导工作,做到适时引导,发挥教学的主导作用。 的过程中面对出现的问题,学生积极参与案例的研讨,对案例 (三)把案例研讨模式作为一种常态化的教学模式。许多时 中出现的问题进行细致的考虑,从而找到解决问题的方法。这 候我们并不是没有好的教学模式和思路,而是没有做到长期坚 个过程既是完成教学任务培养技能的过程,同时又培养了学生 持。任何一种合理的模式都需要经过实践的检验,尤其在教育 细致考虑问题的习惯,久而久之这种习惯将会成为学生的一种 方面更是需要一个几年的周期,如果仅仅关注眼前的一点利益 素质。 和成绩,一旦这种模式不能立即奏效就放弃,那么最终结果是 (六)有利于培养学生解决实际问题的能力。当前存在的~ 虎头蛇尾、无疾而终。 个问题是好多毕业生虽然理论知识掌握的比较牢固,但是一到 案例研讨教学模式正在被越来越多的院校认可是一种有 实际运用就会感觉无法应付。这是理论不能与实践相结合的缘 效的培养学生职业素质的先进教学模式,在教学中一定要形成 故,其主要原因是在校期间实践较少,学生虽然能够应付各类 制度,使其真正成为促进学校发展的有效模式长期坚持。避免 考试,但是一到了实际应用就感觉无从下手。例如会计专业的 出现换了领导就全盘否定的现象,使案例研讨模式能够长期坚 学生,甚至有的同学根本没有见过账本,真正参加工作了根本 持、不断发展,让学生在案例研讨中真正掌握职业必须的技能 不会记账,什么借贷相等呀,各种税应该怎么记呀,都是云里雾 和素质。 里。 参考文献: 为了解决学生眼高手低、动手能力差的问题,学校一定要 …1王效梅,案例研讨型教学法在《财政学》课程中的应用反思 让学生及时进行实践,案例研讨模式就是~种很好的实践方 Ⅱ],中国乡镇企业会计,2014(04):230—231 法。在案例研讨模式中,同学们自主搜集相关的典型案例,并且 【2】徐喜波,高职财经类专业案例研讨教学模式构建与应用U】, 对这些案例进行分析和仿真再现,从中找出案例中存在的问题 职业技术教育。2013(26):36—38 ・ 一一.+ ・・.. ・・—+‘”+一+一+“+一+一‘+.一+一+一+一+一+-+-+-+-+一+-+一+--6--+*+ +-+*+一十一+-+一+-+-+-+一+“+一+一+一+-+..+”+-+”+-+一+ (上接第154页) Apriori并行分层搜索算法的研究,分析传统CD、DD算法的优 部署于Hadoop平台下做仿真分析,最后对仿真结果进行分析 劣、提出改进型并行Apriori算法,并对其进行MapReduce化, 158. 研究。 ・