DATABASE AND INF0RMA Ⅱ0N MANAGEMENT 数据库与信息管理 基于 Hadoop 的实验室数据管理系统的实现 管莹,李佳音 (河北省秦皇岛市东北大学秦皇岛分校计算机与通信工程学院,河北秦皇岛066004) 摘要:构建基于Hadoop的实验室数据管理系统,实现了云计算带来的补偿与分析支持服务,解决了多种数据类型查 询不便的问题,也对云计算在教育科研领域的应用进行了尝试性的探索,为将来大规模应用云服务奠定了可靠的基础。 关键词:云计算;Hadoop系统;数据挖掘 Achieve of the Laboratory Data Management System Based on Hadoop GUAN Ying,LI Jia-yin (Hebei Qinhuangdao School of Computer and Communication Engineering,Northeastern University at Qinhuangdao,Hebei Qinhuangdao 066004) Abstract:This paper shows how to develop a Hadoop-based Data Management System for Experimental Lab,implement a service of retrievals and analysis supposed by Cloud Computation,and solve the difficult by the query of multiple type data. The work of this paper is a discover of applying cloud computation in education and research,and makes a solid foundation or the ffurther Application of a large scale cloud service. Key words:Cloud Computing;Hadoop system;Decision Tree 1背景 实验室数据的存储管理是实验教学工作的重点之一,因 此利用计算机技术开发出一套行之有效的实验室数据管理系 统是非常必要的。利用云技术,整合实验室大量丰富的基础 硬件资源.建立以实验室为中心的能够提供动态资源池、虚 3.2软件环境 Linux Ubuntu 10.10 Hadoop1.0.3包 Sun-java6-jdk包 ssH包 Eclipse包 拟化和高可用性的计算平台。根据现有的实验室数据管理系 统存在的问题,利用现有的软硬件环境,在统一的云平台上 定制数据管理服务,构建实验室数据管理系统。 3.3实验室数据挖掘功能实现及性能比较 为了验证在Hadoop平台上对实验室数据进行有效的运 算,实现数据挖掘功能,使用某一界学生的各门实验报告作 为训练集,分析学生的实验课表现,为不同科目的实验教学 提出指导性意见。 2实验室数据挖掘的必要性 近年来,实验室除了有能力存储更多的数据之外,还要 面对更多的数据类型。这些数据的来源包括实验教学资料; 学生创作类资料和学习过程中产生的资料:教育管理与教学 首先在程序中直接把需要处理的文件对应的目录路径告 评估类的数据资料:教育科研过程所产生的资料:其他特色 资料等。除了那些固定的数据生产源,各种查询行为还可能 加快数据的积累速度。因此有必要在实验室教学管理平台上 诉MapReduce框架,作为MapReduce程序的输入。在Map阶 段调用map()函数对数据进行清理,FileInputFormat对输入 进行划分,RecordReader对输入进行记录读取,得到key值为 InputSplit对象的路径,value值为Writable。MapReduce框架 把读IRI ̄<key,value> ̄传递给map程序进行执行,map程序 对报告进行相关操作后,利用reduce程序将处理后的报告分 片进行整合,得到处理后的整个文件。Reduce程序将构建的 对象传递给OutputFormat进行输出。 通过数据集进行测试,结果显示完全可以将文件中出现 开发一个基于Hadoop的数据信息查询与分析系统.针对永远 都在增长之中数据进行管理。 在实验室的数据挖掘系统中,有的模块不需要很大的计算 量.而有的模块需要非常大的计算量。所以应充分利用Hadoop 的集群特征,将数据挖掘系统中需要巨大计算能力的各个模块 的计算和存储要求扩展到Hadoop集群中的各个节点上,利用 集群的并行计算和存储能力来进行相关数据挖掘工作。 次数超过一次的内容在输出文件中只出现一次。Mapper处理 的数据是由InputFormat分解过的数据集,其中InputFormat的 3基于Hadoop的云平台的搭建 3.1硬件环境 本实验使用4台PC机。 内存:2GB。 硬盘:500GB。 作者简介:管莹(1979一),女,硕士,讲师,研究方向:计 算机网络、云计算技术;李佳音(1977一),女,硕士,讲师, 研究方向:计算机软件及网络。 收稿日期:2013—11-08 内部局域网具有100MB带宽。 潞