1、 最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡()
答案:正确
2、 决策将日益基于数据和分析而作出,而并非基于经验和直觉()
答案:错误
解析:决策将日益基于数据和分析而作出,而并非基于经验和直觉
3、 2011年被许多国外媒体和专家称为“大数据元年”()
答案:错误
解析:2013年被许多国外媒体和专家称为“大数据元年”
4、 我国网民数量居世界之首,每天产生的数据量也位于世界前列()
答案:正确
5、 商务智能的联机分析处理工具依赖于数据库和数据挖掘。()
答案:错误
前总商务智能的联机分析处理工具依赖于数据仓库和数据挖掘。
6、 数据整合、处理、校验在目前已经统称为EL()
答案:错误
侖总数据整合、处理、校验在H前已经统称为ETL
7、 大数据时代的主要特征() A、 数据量大 B、 类型繁多 C、 价值密度低 D、 速度快时效高
答案:ABCD
8、 下列哪项不是大数据时代的热门技术() A、 数据整合 B、 数据预处理 C、 数据可视化
D、 SQL
答案:D
9、 ()是一种统讣或数据挖掘解决方案,包含可在结构化和非结构化数据中使
用以 确定未来结果的算法和技术。
A、 预测 B、 分析 C、 预测分析 D、 分析预测
答案:C
10、 大数据发展的前提?
答案:
解伸:硕件成本的降低,网络带宽的提升,云计算的兴起,网络技术的发展,智能终 端的普及,电子商务、社交网络、电子地图等的全面应用,物联网的兴起
11、 调研、分析大数据发展的现状与应用领域。?
答案: 解析:略
12、 大数据时代的主要特征?
答案:
解析:数据量大(Volume)
笫一个特征是数据量大。大数据的起始计量单位至少是P(1000个T)、E(100万 个T)或Z(10亿个T)。 类型繁多(Variety)
第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息 等等,多类型的数据对数据的处理能力提岀了更高的要求。 价值密度低(Value)
笫三个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处 不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的 价值“提纯”,是大数据时代亟待解决的难题。 速度快、时效高(Veloc辻y)
第四个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显 著的特征。
13、 列举大数据时代的主要技术?
答案:
解谆:预测分析:预测分析 是一种统讣或数据挖掘解决方案,包含可在结构化和 非结构化数据中使用以确定未来结果的算法和技术。可为预测、优化、预报和模 拟等许多其他用途而部署。随着现在硬件和软件解决方案的成熟,许多公司
利用 大数据技术来收集海量数据、训练模型、优化模型,并发布预测模型来提高业务 水平或者避免风险;当前最流行的预测分析工具当属IBM公司的SPSS, SPSS这个 软件大家都已经很熟悉了,它集数据录入.整理、分析功能于一身。用户可以根 据实际需要和计算机的功能选择模块,SPSS的分析结果清晰、直观、易学易用, 而且可以直接读取EXCEL及DBF数据文件,现已推广到多种各种操作系统的计算 机上。
NoSQL数据库:非关系型数据库包括Key-value型(Redis)数据库、文档型
(MonogoDB)数据库、图型(Neo4j)数据库;虽然NoSQL流行语火起来才短短一年的 时间,但是不可否认,现在已经开始了第二代运动。尽管早期的堆栈代码只能算是 一种实验,然而现在的系统已经更加的成熟、稳定。
搜索和认知商业:当今时代大数据与分析已经发展到一个新的高度,那就是认知 时代,认知时代不再是简单的数据分析与展示,它更多的是上升到一个利用数据 来支撑人机交互的一种模式,例如前段时间的圉棋大战,就是一个很好的应用、现 已经逐步推广到机器人的应用上面,也就是下一个经济爆发点一人工智能,互联 网人都比较熟悉国内的BAT,以及国外的apple、google^ 、IBM、微软、 亚马逊等等;可以大致看一下他们的商业布局,未来全是往人工智能方向发展,当 然U前在认知商业这一块IBM当属领头羊,特别是当前主推的watson这个产品, 以及取得了非常棒的效果;关于更多认知商业资料
流式分析:U前流式计算是业界研究的一个热点,最近Twitter. Linkedln等公司 相继开源了流式计算系统Storm. Kafka等,加上Yahoo!之前开源的S4,流式计算 研究在互联网领域持续升温,流式分析可以对多个高呑吐量的数据源进行实时的 清洗、聚合和分析;对存在于社交网站、博客、电子邮件、视频、新闻、电话记 录、传输数据、电子感应器之中的数字格式的信息流进行快速处理并反馈的需求。 内存数据结构:通过动态随机内存访问(DRAM)、Flash和SSD等分布式存储系统 提供海量数据的低延时访问和处理;
分布式存储系统:分布式存储是指存储节点大于一个、数据保存多副本以及高性 能的计算网络;利用多台存储服务器分担存储负荷,利用位置服务器定位存储信 息,它不但提高了系统的可鼎性、可用性和存取效率,还易于扩展。当前开源的 HDFS还是非常不错
数据可视化:数据可视化技术是指对各类型数据源(包括hadoop上的海量数据以 及实时和接近实时的分布式数据)进行显示;当前国内外数据分析展示的产品很 多,如果是企业单位以及单位建议使用cognos ,安全、稳定、功能强大、支 持大数据、非常不错的选择。
数据整合:通过亚马逊弹性 MR (EMR)、Hive、Pig、Spark> MapReduceCouchbase> Hadoop和MongoDB等软件进行业务数据整合;
数据预处理:数据整合是指对数据源进行清洗、裁剪,并共享多样化数据来加快数 据分析;
数据校验:对分布式存储系统和数据库上的海量、高频率数据集进行数据校验, 去除非法数据,补全缺失。
数据整合、处理、校验在口前已经统称为ETL,ETL过程可以把结构化数据以及 非结构化数据进行清洗、抽取、转换成你需要的数据、同时还可以保障数据的安 全性以及完整性、关于ETL的产品推荐使用datastage就行、对于任何数据源 都可以完美处理。
14. 数据挖掘就是知识发现的过程()
答案:错误
解析:数据挖掘是数据库知识发现(英语:Knowledge-Discovery in Databases, 简称:KDD)中的一个步骤
15、 数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程()
答案:正确
16、 Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑0
答案:正确
17、 现实意义中的数据挖掘分析对象是真实的海議数据;这些数据之间存在一定
的逻辑关系;数据大多是模糊的、随机的、不完整的、无意义的噪声数据() 答案:错误
解析:现实意义中的数据挖掘分析对象是真实的海量数据;这些数据之间没有一 定的逻辑关系;数据大多是模糊的、随机的、不完整的、无意义的噪声数据
18、 数据挖掘主要构建四大类模型包括:分类、聚类、预测和关联()
答案:正确
19、 基于事物发展的延续性和随机性预测事物未来的发展属于时间序列分析()
答案:正确
20、 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随 机
的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用 的信息和知识的过程。
A、 大量的 B、 不完全的 C、 有噪声的 D、 模糊的
答案:ABCD
21、 下列哪个领域没有应用数据挖掘技术 A、 农业 B、 金融 C、 教育
D、 以上全部应用 答案:D
22、 依据历史数据形成刻画用户特征的类标识,进而可以预测未来数据的归类情
况,属于0
A、 聚类
B、 分类 C、 预测 D、 关联
答案:B
23、 在事先不知道数据分类的情况下,根据数据之间的相似程度进行划分,目的
是使得同类别的数据对象之间的差别尽可能的小,不同类别的数据对象之间的 差别尽可能的大。属于0
A、 聚类 B、 分类 C、 预测 D、 关联
答案:A
24、 基于输入的用户信息,通过模型的训练学习,找出数据中的规律和趋势,以
确 定未来目标数据的预测值()
A、 聚类 B、 分类 C、 预测 D、 关联
答案:C
25、 从购物篮商品集中找出商品与商品之间的关系,有助于发7T同商品之间的联
系()
A、 聚类 B、 分类 C、 预测 D、 关联
答案:D
26、阐述数据挖掘与数据分析的区别?
答案:
27、 数据挖掘就是知识发现的过程()
答案:错误
28、 数据挖掘被认为是从数据中发现有用知识的整个过程()
答案:错误
解析:知识发现(KDD)被认为是从数据中发现有用知识的整个过程
29、 数据挖掘被认为是KDD过程中的一个特定步骤,它是用专门算法从数据中 抽
取模式。 答案:正确
30、 知识发现的原始数据,可以是结构化的,如数据库中的数据;也可以是半结
构化的,如文本、图形和图像数据;但不能是异构型数据() 答案:错误
W-tJf:可以是结构化的,如数据库中的数据;也可以是半结构化的,如文本、图形 和图像数据;甚至是分布在网络上的异构型数据。
31、 发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可
以是归纳的() 答案:正确
32、 从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,
就像从矿石中淘金一样,数据挖掘也因此而得名0 答案:正确
33、 CRISP-DM过程是正确的顺序是:商业理解一数据准备一理解数据一建立模型
一模型评估一结果发布0
答案:错误
前总商业理解一理解数据一数据准备一建立模型一模型评估一结果发布
34、 CRISP-DM是“跨行业数据挖掘标准过程”的简写()
答案:正确
35、 整个挖掘过程是一个不断反馈的过—
答案:对 选择题;
36、 知识发现的英文简写是() A、 DKD B、 KDD C、 DM D、 DA
答案:B
37、 数据挖掘的英文简写是()
A、 DKD B、 KDD C、 DM D、 DA
答案:C
38、 CRISP-DM过程模型过程包括0个阶段 A、 5 B、 6 C、 7 D、 8
答案:B
39、 CRISP-DM是哪个术语的简写() A、 跨行业数据挖掘标准过程 B、 数据分析 C、 数据挖掘标准 D、 数据挖掘过程
答案:A
40、 下面哪个CRISP-DM过程是正确的()
A、 商业理解一理解数据一数据准备一模型评估一建立模型一结果发布 B、 商业理解一理解数据一建立模型一数据准备一模型评估一结果发布 C、 商业理解一理解数据一数据准备一建立模型一模型评估一结果发布 D、 商业理解一数据准备一理解数据一建立模型一模型评估一结果发布 答案:C 41、 KDD过程主要包括() A、 数据准备 B、 数据挖掘 C、 结果表达
D、 结果表示 答案:ABCD
42、 判断题:SPSS M中的一个图标代表一个操作()
答案:正确
43、 判断题:单击选项板上的节点,自动把新节点连接到数据流区域中的\"中心”
节点上() 答案:错误
W-tJf:双击选项板上的节点,自动把新节点连接到数据流区域中的“中心”节点 上
44、 源节点是连接到初始数据源的节点,源节点只能发送数据()
答案:正确
45、 终端节点是生成输出、图形、表格和模型的节点,可以连接到任何节点()
答案:错误
扁总终端节点是生成输岀、图形、表格和模型的节点,不能从终端节点连接到 任何节点
46、 填空题:一系列连接在一起的节点被称作—
答案:
解析:工作流
47、 ___ 来将数据读入SPSS Modeler中
答案:
解析:源节点
48、 SPSS Modeler可以运行 _______ 和 ___ 两种模式下
答案:
解析:SPSS Modeler可以运行在客户端和服务器端两种模式下 11.当节点在选项板中被选中后,会变成() A. 红色 B. 黃色 C. 淡蓝色 D. 绿色
49、 在选项板上()节点,自动放置节点到数据流区域 A、 单击 B、 双击 C、 选中 D、 右键单击
答案:B
50、 SPSS M中所有的节点都放在() A、 数据流区
B、 项目窗口 C、 工具栏 D、 选项板区
答案:D
51、 在Modeler中数据使用下列类型() A、 连续型:用于描述数值。
B、 离散型:用于当一个具体值的精确数量未知时描述字符串。
C、 标志型:用于只取两个具体值的数据,如T或F, Y或0或1。52、 位于SPSS M窗口中间部分的是()区 A、 工具箱 B、 流管理 C、 数据流编辑 D、 工程管理
答案:C
53、 位于SPSS M主窗口左侧下方的窗口是() A、 工具箱 B、 流管理 C、 数据流编辑 D、 工程管理窗口
答案:D
54、 节点工具箱窗口位于主窗口的() A、 下方 B、 左侧 C、 右侧 D、 上方
答案:A
55、 ()是组成数据流的最小单位 A、 节点 B、 文件
答案:ABC C、 数据 D、 超节点
答案:A
56、 SPSS M中()用于存放数据流中最常用的节点 A、 收藏夹 B、 源 C、 字段选项 D、 建模
答案:A
57、 SPSS M中()用于存放绘制各种统计图形的节点 A、 收藏夹 B、 源 C、 字段选项 D、 图形
答案:D
58、 SPSS M中()存放读入各种外部数据的节点 A、 收藏夹 B、 源 C、 字段选项 D、 建模
答案:B
59、 SPSS M中()用于存放针对字段操作的节点 A、收藏夹 B、 源 C、 字段选项 D、 建模
答案:C
60、 SPSS M中()存放建立各种数据模型的节点 A、 收藏夹
B、 源 C、 字段选项 D、 建模
答案:D
61、 SPSS M中()用于存放显示数据集其基本统计特征的节点 A、 收藏夹 B、 输出 C、 字段选项 D、 建模
答案:B
62、 SPSS M中()存放将数据转换成其他格式的节点 A、 收藏夹 B、 导出 C、 字段选项 D、 建模
答案:B
63、 通过窗口上的上下按钮可以使窗口呈现“可见”和“不可见”状态()
答案:正确
、 管理数据流是Modeler的核心操作()
答案:正确
65、 源选项卡中的节点作为起始节点,可以有父节点连接()
答案:错误
解析:源选项卡中的节点作为起始节点,不能有父节点连接
66、 缓冲节点用于建立一个数据缓冲区,存放数据流执行至此的中间结果()
答案:正确
67、 在Modeler中从“源”节点的“可变文件”读入TXT数据()
答案:正确
68、 变量类型可以从数据挖掘和数据存储两个角度划分:
答案:正确
69、 Modeler中变量分为实例化和非实例化两种状态:错 Modeler中变量分为实例化、半实例化和非实例化两种状态
答案:
70、 当变量的存储类型和取值都未知时,变量为()状态 A、 实例化 B、 半实例化 C、 非实例化 D、 赋值
答案:C
71、 当变量的存储类型和取值都已经确定时,变量为()状态: A、 实例化 B、 半实例化 C、 非实例化 D、 赋值
答案:
72、 当仅知道变量的存储类型,但取值范围未知时,变量为()状态 A、 实例化 B、 半实例化 C、 非实例化 D、 赋值
答案:B
73、 在数据挖掘的实际问题中,人么更多考虑变量的存储类型:错
在数据挖掘的实际问题中,人么更多考虑变量的计量类型 答案:
74、 变量类型可以从数据挖掘和数据存储两个角度划分:
答案:正确
75、 Modeler中,表示客户的年龄、家庭人数的变量是类型变量0
答案:错误
解析:表示客户的年龄、家庭人数的变量是数值型变量
76、 Modeler中,表示性别、职业的变量是定序型变量()
答案:错误
扁总 表示性别、职业的变量是定类型变量()
77、 Modeler中,表示学历和收入水平的变量是定序型变量()
答案:正确
78、 Modeler中,学号等编号变量或者长文字等复杂数据变量,往往是无类型变量,
无类型变量可以参与数据建模0
答案:错误
解析:学号等编号变量或者长文字等复杂数据变量,往往是无类型变量,无类型变 量不可以参与数据建模
79、 Modeler中,缺省型是一种尚未明确的变量类型()
答案:正确
80、 Modeler中,连续数值型变量可采用整数型或者实数型类型存储()
答案:正确
81、 Modeler中,多分类型变量可采用整数型或字符串型存储—
答案:对 选择题:;
82、 Modeler中,()选项卡用于指定读入数据的基本格式 A、 【数据】 B、 【文件】 C、 【过滤】 D、 【类型】
答案:B
83、 Modeler中,()选项卡用于指定所读变量的存储类型和输入格式 A、 【数据】 B、 【文件】 C、 【过滤】 D、 【类型】
答案:A
84> Modeler中,()选项卡用于指定读数据时不读哪些变量,还可以重新修改变量
名
A、 【数据】 B、 【文件】 C、 【过滤】 D、 【类型】
答案:C
85、Modeler中,0选项卡用于指定变量的计量类型,对变量的缺失值和取值合理
性进行检查
A、 【数据】 B、 【文件】 C、 【过滤】 D、 【类型】
答案:D
86、 Modeler中,数据理解主要包括0 A、 数据质量评估 B、 数据调整 C、 数据的有序浏览 D、 度汇总
答案:ABCD
87、 Modeler中,可以通过【字段选项】中的()进行变量说明 A、 【源】 B、 【节点】 C、 【合并】 D、 【类型】
答案:D
88、 Modeler中,离群点和极端值的调整方法中:()表示剔除离群点和极端值 A、 无效 B、 丢弃
C、 强制替换丢奔极值 D、 强制替换使极值无效
答案:B
、 Modeler中,离群点和极端值的调整方法中:()用系统缺失值$null$代替离
群 点或极端值
A、 无效 B、 丢弃
C、 强制替换丢弃极值 D、 强制替换使极值无效
答案:A
90、 Modeler中,离群点和极端值的调整方法中:()表示按照强制方法修正离群
点, 并提出极端值
A、 无效 B、 丢弃
C、 强制替换丢齐极值 D、 强制替换使极值无效
答案:C
91、 Modeler中,离群点和极端值的调整方法中:()表示按照强制方法修正离群
点, 并将极端值调整为系统缺失值
A、 无效 B、 丢弃
C、 强制替换丢乔极值 D、 强制替换使极值无效
答案:D
92、 填空:Modeler中,可以通过【输出】选项卡中的—节点评估数据质量
答案:【数据审核】;
93、 Modeler中,【类型】节点可以添加到数据流中的任何位置
答案:正确
94、 Modeler中的空,就是传统意义上的空字符串()
答案:错误
解析:Modeler中的空,并非一般意义上的空串,它可以使数值,也可以是空格,还 可以是$null$
95、 ,在Modeler中,分析顾客的收入对其消费的影响时,收入就是输入变量,消
费就是目标变量
答案:正确
96、 Modeler中,借助【数据】节点的执行结果,可自动保留质量高的变量,剔
除 质量不高的变量0
答案:错误
解析:Modeler中,借助【数据审核】节点的执行结果,可自动保留质量高的变量, 剔除质量不高的变量
97、 单变量排序只根据一个变量的升序或者降序排列数据—
答案对 答案:
98、 【记录选项】选项卡中的【汇总】节点可实现数据的分类汇总()
答案:正确
99、 分类汇总是根据一个变量对数据分组后,计算其他指定变量的基本描述统
计量0
答案:错误
前总单变量分类汇总是根据一个变量对数据分组后,计算其他指定变量的基本 描述统计量
100、 判断题:CLEM可用于描述算数表达式和条件表达式()
答案:正确
101、 判断题:在Modeler中,可通过【字段选项】选项卡中的【填充】节点实现
对变量的重新计算 答案:正确
102、 判断题:【字段选项】中的【导出】节点可实现变量类别的调整()
答案:错误
扁总 【字段选项】中的【重新分类】节点可实现变量类别的调整
103、 判断题:【字段选项】中的【导出】节点可实现派生新变量()
答案:正确
104、 判断题:有些统计分析方法对变量的分布有限定,当不满足要求时,通过
【变 换】节点,来将原有变量变更为服从正态分布的新变量0 答案:正确
105、 判断题:可以通过【记录选项】中的【筛选】节点,来实现对数据的精简和
抽样0
答案:错误
扁总 可以通过【记录选项】中的【样本】节点,来实现对数据的精简和抽样
106、 判断题:可以通过【记录选项】中的【样本】节点,来实现对数据的条件选
取()
答案:错误
解析:可以通过【记录选项】中的【选择】节点,来实现对数据的条件选取
107、 选择题:Modeler中,【填充】的【设置】选项卡中(),表示指定一个或多个
重新计算的变量名
A、 填入字段 B、 替换为 C、 替换 D、 设置
答案:A
108、 选择题:Modeler 【填充】的【设置】选项卡中(),指定重新计算的计算 方
法
A、 填入字段 B、 替换为 C、 替换 D、 设置
答案:B
109、 选择题:Modeler中,【填充】的【设置】选项卡中,【替换】提供了几种变
量值重新计算的条件,其中0表示所有样本都重新计算
A、 始终 B、 空值 C、 无效值 D、空值与无效值
答案:A
110、Modeler中,【填充】的【设置】选项卡中,【替换】提供了几种变量值重
新计算的条件,其中()用【替换为】框的计算结果替代变量中的系统缺失值
$null$ A、 始终 B、 空值 C、 无效值 D、 空值与无效值
答案:C
111> Modeler中,【填充】的【设置】选项卡中,【替换】提供了几种变量值重
新计算的条件,其中0用【替换为】框的计算结果替代变量中的空
A、 始终 B、 空值 C、 无效值 D、 空值与无效值
答案:B
112、 Modeler中,【填充】的【设置】选项卡中,【替换】提供了几种变量值重
新计算的条件,其中()用【替换为】框的计算结果替代变量中的系统缺失值 $null$和空
A、 始终 B、 空值 C、 无效值 D、 空值与无效值
答案:D
113、 信息论的基本岀发点认为:第一,信息传递是通过一个传递系统实现:
第二() 答案:
传递系统处于一个随机干扰的环境中
114、垃信度越大,所允许的悲观误差估计越()
答案: 高 ■
■
113、被减去的子树越大,最终的决策树越()
答案: 小
■
116、 一个只有一个根节点
答案:正确
117、 没有下层的节点成为叶肯点
答案:正确
118>某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种
属于数据挖掘的哪类问题?()
A、 关联规则发现 B、 聚类 C、 分类 D、 自然语言处理
答案:A
119、 以下两种描述分别对应哪两种对分类算法的评价标准?() A、 抓小偷,描述抓的人中有多少个是小偷的标准。 B、 描述有多少比例的小偷给抓了的标准。 A. Precision, Recall B・ Recall, Precision C、 Precision, ROC D、 Recall, ROC
答案:A
120、 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任
务?()
A、 频繁模式挖掘 B、 分类和预测
C、 数据预处理 D、 数据流挖掘
答案:C
121、 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带
其他标签的数据相分离?()
A、 分类 B、 聚类 C、 关联分析 D、 隐马尔可夫链
答案:B
122、 什么是 KDD?() A、 数据挖掘与知识发现 B、 领域知识发现 C、 文档知识发现 D、 动态知识发现
答案:A
123、 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任
务?()
A、 探索性数据分析 B、 建模描述 C、 预测建模 D、 寻找模式和规则
答案:A
124、 为数据的总体分布建模;把空间划分成组等问题属于数据挖掘的哪一
类任务?()
A、 探索性数据分析 B、 建模描述 C、 预测建模 D、 寻找模式和规则
125、 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属
于数据挖掘的哪一类任务?()
A、 根据内容检索 B、 建模描述 C、 预测建模 D、 寻找模式和规则
答案:C
126、 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据
挖掘哪一类任务?()
A、 根据内容检索 B、 建模描述 C、 预测建模 D、 寻找模式和规则
答案:A
127、 下面哪种不属于数据预处理的方法?() A、 变量代换 B、 离散化 C、 聚集 D、 估计遗漏值
答案:D
128、 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215使用如下每种方法将它们划分成四个箱。等频(等深)划分 时,15在第几个箱子内?() A、 第一个 B、 第二个 C、 第三个 D、 第四个
答案:B
129、 上题中,等宽划分时(宽度为50),15又在哪个箱子里?() A、 第一个 B、 第二个
C、 第三个 D、 第四个
答案:A
130、 下面哪个不属于数据的属性类型:() A、 标称 B、 序数 C、 区间 D、 相异
答案:D
131、 在上题中,属于定量的属性类型是:() A、 标称 B、 序数 C、 区间 D、 相异
答案:C
132>只有非零值才重要的二元属性被称作:() A、 计数属性 B、 离散属性
C、 非对称的二元属性 D、 对称属性
答案:C
133、 以下哪种方法不属于特征选择的标准方法:() A、 嵌入 B、 过滤 C、 包装 D、 抽样
答案:D
134、 下面不属于创建新属性的相关方法的是:() A、特征提取
B、 特征修改
C、 映射数据到新的空间 D、 特征构造
答案:B
135>考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是() A、 2 B、 3 C、 3.5 D、 5
答案:C
136、下面哪个属于映射数据到新的空间的方法?() A、 傅立叶变换 B、 特征加权 C、 渐进抽样 D、 维归约
答案:A
137、爛是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的爛是: () A、 1比特 B、 2.6比特 C、 3. 2比特 D、 3. 8比特
答案:B
138、假设属性income的最大最小值分别是12000元和98000元。利用最大最 小
规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元 将被转化为:()
A、 0.821 B、 1.224 C、 1.458 D、 0.716
答案:D
139、 假定用于分析的数据包含属性age。数据元组中阴e的值如下(按递增 序):13, 15,16,16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 30, 33, 33, 35, 35, 36, 40, 45, 4 6, 52, 70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为30 第二个箱子值为:() A、 18.3 B、 22.6 C、 26.8 D、 27.9
答案:A
140、 考虑值集{12 24 33 2 4 55 68 26},其四分位数极差是:() A、 31 B、 24 C、 55 D、 3
答案:A
141、 一所大学内的各年纪人数分别为:一年级200人,二年级160人三年级130
人,四年级110人。则年级属性的众数是:()
A、 一年级 B、 二年级 C、 三年级 D、 四年级
答案:A
142、 下列哪个不是专门用于可视化时间空间数据的技术:() A、 等高线图 B、 饼图 C、 曲面图 D、 矢量场图
答案:B
143、 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法
是:()
A、 有放回的简单随机抽样 B、 无放回的简单随机抽样 C、 分层抽样 D、 渐进抽样
答案:D
144、 数据仓库是随着时间变化的,下面的描述不正确的是() A、 数据仓库随时间的变化不断增加新的数据内容; B、 捕捉到的新数据会覆盖原来的快照; C、 数据仓库随事件变化不断删去旧的数据内容;
D、 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进
行重新综合. 答案:C
145、 关于基本数据的元数据是指:()
A、 基本元数据与数据源,数据仓库,数据集市和应用程疗;等结构相关的信
息;
B、 基本元数据包括与企业相关的管理方面的数据和信息; C、 基本元数据包括日志文件和简历执行处理的时序调度信息;
D、 基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.
答案:D
146、 下面关于数据粒度的描述不正确的是:() A、 粒度是指数据仓库小数据单元的详细程度和级别; B、 数据越详细,粒度就越小,级别也就越高; C、 数据综合度越高,粒度也就越大,级别也就越高;
D、 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.
答案:C
147>有关数据仓库的开发特点,不正确的描述是:() A、 数据仓库开发要从数据出发;
B、 数据仓库使用的需求在开发出去就要明确;
C、 数据仓库的开发是一个不断循环的过程,是启发式的开发;
D、 在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数
据 仓库中数据分析和处理更灵活,且没有固定的模式
答案:A
148、 在有关数据仓库测试,下列说法不正确的是:()
A、 在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中
要 包括单元测试和系统测试.
B、 当数据仓库的每个单独组件完成后,就需要对他们进行单元测试. C、 系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测
试.
D、 在测试之前没必要制定详细的测试il•划.
答案:D
149、 OLAP技术的核心是:() A、 在线性;
B、 对用户的快速响应; C、 互操作性. D、 分析;
答案:D
150>关于OLAP的特性,下面正确的是:()
(1)快速性(2)可分析性(3)性(4)信息性(5)共享性 A、 ⑴ ⑵ B、 ⑵ ⑶ C、 ⑴ D、 ⑴
⑶ ⑷
⑵ ⑶ (4) ⑵ ⑶ (4) (5)
答:I ) 案
151、 关于OLAP和OLTP的区别描述,不正确的是:()
A、 OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同. B、 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务. C、 OLAP的特点在于事务量大,但事务内容比较简单且重复率高.
D、 OLAP是以数据仓库为基础的,但其最终数据来源与OLTP 一样均来自底层的
数据库系统,两者面对的用户是相同的. 答案:C
152、 OLAM技术一般简称为”数据联机分析挖掘”,下面说法正确的是:() A、 OLAP和OLAM都基于客户机/服务器模式,只有后者有与用户的交互性;
B、 由于OLAM的立方体和用于OLAP的立方体有本质的区别. C、 基于WEB的OLAM是WEB技术与OLAM技术的结合.
D、 OLAM服务器通过用户图形借口接收用户的分析指令,在元数据的知道下,
对 超级立方体作一定的操作. 答案:D
153、 关于OLAP和OLTP的说法,下列不正确的是:() A、 OLAP事务量大,但事务内容比较简单且重复率高. B、 OLAP的最终数据来源与OLTP不一样. C、 OLTP面对的是决策人员和高层管理人员. D、 OLTP以应用为核心,是应用驱动的.
答案:A
154、 设X二{1,2, 3}是频繁项集,则可由X产生_( )_个关联规则。 A、 4 B、 5 C、 6 D、 7
答案:C
155、 概念分层图是_( )_图。 A、 无向无环 B、 有向无环 C、 有向有环 D、 无向有环
答案:B
156、 频繁项集、频繁闭项集、最大频繁项集之间的关系是:() A、 频繁项集频繁闭项集二最大频繁项集 B、 频繁项集=频繁闭项集最大频繁项集 C、 频繁项集频繁闭项集最大频繁项集 D、 频繁项集=频繁闭项集=最大频繁项集
157、 考虑下面的频繁3-项集的集
合:⑴ 2, 3}, {1,2,4}, {1,2, 5}, {1,3,4}, {1, 3, 5}, {2, 3,4}, {2, 3, 5}, {3,4, 5}假 定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()
A、 1, 2, 3, 4 B、 1, 2, 3, 5 C、 1, 2,4, 5 D、 1,3, 4, 5
答案:c
158、 下面选项中t不是s的子序列的是()
A、 s=< {2, 4}, {3, 5, 6}, {8} > t=< {2}, {3, 6}, {8} > B、 s=< {2, 4}, {3, 5, 6},⑻ > t=< ⑵,⑻ > C、 S=<{1,2}, {3,4}> t=<{l}, {2}> D、 s=<{2, 4}, {2, 4}> t=<{2}, {4}>
答案:C
159、 在图集合中发现一组公共子结构,这样的任务称为() A、 频繁子集挖掘 B、 频繁子图挖掘 C、 频繁数据项挖掘 D、 频繁模式挖掘
答案:B
160、 下列度量不具有反演性的是() A、 系数 B、 儿率 C、 Cohen 度量 D、 兴趣因子
答案:D
161、 下列_( )_不是将主观信息加入到模式发现任务中的方法。 A、 与同一时期其他数据对比 B、 可视化
C、 基于模板的方法 D、主观兴趣度量
答案:A
162、 下面购物篮能够提取的3-项集的最大数量是多少
ID购买项
答案:C;
163、 牛奶,啤酒,尿布
答案:
1、 面包,黄油,牛奶
答案:
165、 牛奶,尿布,饼干
答案:
166>面包,黄油,饼干
答案:
167>啤酒,饼干,尿布
答案:
168>牛奶,尿布,面包,黄油
答案:
169、 面包,黄油,尿布
答案:
170、 啤酒,尿布
答案:
171>啤酒,饼干 A、 1 B、 2 C、 3 D、 4
答案:
172>以下哪些算法是分类算法,() A、 , DBSCAN B、 ,C4.5
C、 , K-Mean D、 ,EM
答案:B
173、以下哪些分类方法可以较好地避免样本的不平衡问题,() A、 ,KNN B、 ,SVM C、 ,Bayes D、 ,神经网络
答案:A
174、 决策树中不包含一下哪种结点,() A、 ,根结点(root node) B、 ,内部结点(internal node) C、 ,外部结点(external node) D、 ,叶结点(leaf node)
答案:C
175、 以下哪项关于决策树的说法是错误的() A、 冗余属性不会对决策树的准确率造成不利的影响 B、 子树可能在决策树中重复多次 C、 决策树算法对于噪声的干扰非常墩感 D、 寻找最佳决策树是\\P完全问题
答案:C
176、 在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一
个 测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为()
A、 基于类的排序方案 B、 基于规则的排序方案 C、 基于度量的排序方案 D、 基于规格的排序方案。
177、以下哪些算法是基于规则的分类器() A、 C4.5 B、 KNN
C、 Na?ve Bayes D、 ANN
答案:A
178、 如果规则集R中不存在两条规则被同一条记录触发,则称规则集R中的规
则为();
A、 ,无序规则 B、 ,穷举规则 C、 ,互斥规则 D、 ,有序规则
答案:C
179、 如果对属性值的任一组合,R中都存在一条规则加以覆盖,则称规则集R
中 的规则为()
A、 ,无序规则 B、 ,穷举规则 C、 ,互斥规则 D、 ,有序规则
答案:B
180、 如果规则集中的规则按照优先级降序排列,则称规则集是() A、 ,无序规则 B、 ,穷举规则 C、 ,互斥规则 D、 ,有序规则
答案:D
181、 如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对
相应类的一次投票,然后计票确定测试记录的类标号,称为()
A、 ,无序规则 B、 ,穷举规则
c、,互斥规则 D、,有序规则
答案:A
182、 考虑两队之间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的 比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场而队1取胜的比赛 中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为() A、 , 0. 75 B、 , 0. 35 C、 ,0. 4678 D、 ,0.5738
答案:C
183、 以下关于人工神经网络(ANN)的描述错误的有() A、 ,神经网络对训练数据中的噪声非常鲁棒 B、 ,可以处理冗余特征
C、 ,训练ANN是一个很耗时的过程 D、 ,至少含有一个隐藏层的多层神经网络
答案:A
184、 通过聚集多个分类器的预测来提高分类准确率的技术称为() A、 ,组合(ensemble) B、 ,聚集(aggregate) C、 ,合并(combination) D、 ,投票(voting)
答案:A
185、 简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子
集中,这种聚类类型称作()
A、 层次聚类 B、 划分聚类 C、 非互斥聚类 D、 模糊聚类
186、 在基本K均值算法里,当邻近度函数采用()的时候,合适的质心是簇中各
点的中位数。
A、 曼哈顿距离 B、 平方欧儿里德距离 C、 余弦距离 D、 Bregman 散度
答案:A
187、 ()是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是
由不 同的机制产生的。
A、 边界点 B、 质心 C、 离群点 D、 核心点
答案:C
188、 BIRCH 是一种()。 A、 分类器 B、 聚类算法 C、 关联分析算法 D、 特征选择算法
答案:B
1、 检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检
测。
A、 统计方法 B、 邻近度 C、 密度 D、 聚类技术
答案:A
190> ()将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一
种凝聚层次聚类技术。
A、 MIN (单链)
B、 MAX(全链) C、 组平均 D、 Ward方法
答案:C
191、 ()将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一
种凝聚层次聚类技术。
A、 MIN(单链) B、 MAX(全链) C、 组平均 D、 旳rd方法
答案:D
192、 DBSCAN在最坏情况下的时间复杂度是()。 A、 0(m) B、 0(m2) C、 O(log m) D、 O(m*log m)
答案:B
193、 在基于图的簇评估度量表里面,如果簇度量为proximity (Ci , C),簇权值 为mi ,那么它的类型是()o A、 基于图的凝聚度 B、 基于原型的凝聚度 C、 基于原型的分离度 D、 基于图的凝聚度和分离度
答案:C
194、 关于K均值和DBSCAN的比较,以下说法不正确的是()。
A、 K均值丢弃被它识别为噪声的对象,而DBSCAN 一般聚类所有对象。 B、 K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。 C、 K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不
同形状的簇。
D、 K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN
会合并有重叠的簇。
195>以下是哪一个聚类算法的算法流程:①构造k-最近邻图。②使用多层图划 分算法划分图。©repeat:合并关于相对互连性和相对接近性而言,最好地保持 簇的自相似性的簇。©until:不再有可以合并的簇。()。 A、 MST B、 OPOSSUM C、 Chameleon
D^ Jarvis-Patrick(JP)
答案:c
196、 考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的
类, 因为这两个对象一般不会共享许多近邻,所以应该选择()的相似度计算方法。
A、 平方欧儿里德距离 B、 余弦距离 C、 直接相似度 D、 共享最近邻
答案:D
197、 以下属于可伸缩聚类算法的是()。 A、 CURE B、 DENCLUE C、 CLIQUE D、 OPOSSUM
答案:A
198、 以下哪个聚类算法不是属于基于原型的聚类()。 A、 模糊c均值 B、 EM算法 C、 SOM D、 CLIQUE
答案:D
199、 关于混合模型聚类算法的优缺点,下面说法正确的是()。
A、 当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处
理。
B、 混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布。
C、 混合模型很难发现不同大小和椭球形状的簇。 D、 混合模型在有噪声和离群点时不会存在问题。
答案:B
200、以下哪个聚类算法不属于基于网格的聚类算法()。 A、 STING B、 WaveCluster C、 MAFIA D、 BIRCH
答案:D
201、一个对象的离群点得分是该对象周围密度的逆。这是基于()的离群点定
义。
A、 概率 B、 邻近度 C、 密度 D、 聚类 答案:C
202、 下面关于J ar v i s~Pa t r i ck (JP)聚类算法的说法不正确的是()。 A、 JP聚类擅长处理噪声和离群点,并且能够处理不同大小、形状和密度的簇。 B、 JP算法对高维数据效果良好,尤其擅长发现强相关对象的紧致簇。 C、 JP聚类是基于SNN相似度的概念。 D、 JP聚类的基本时间复杂度为0(m)。
二、多选题 答案:D
203、 通过数据挖掘过程所推倒出的关系和摘要经常被称为:() A、 模型 B、 模式 C、 模范 D、 模具
204、 寻找数据集中的关系是为了寻找精确、方便并且有价值地总结了数据的某
一特征的表示,这个过程包括了以下哪些步骤?(
A、 BCD)
A、 决定要使用的表示的特征和结构
B、 决定如何量化和比较不同表示拟合数据的好坏 C、 选择一个算法过程使评分函数最优
D、 决定用什么样的数据管理原则以高效地实现算法。
答案:
205、 数据挖掘的预测建模任务主要包括哪几大类问题?() A、 分类 B、 回归 C、 模式发现 D、 模式匹配
答案:AB
206、 数据挖掘算法的组件包括:( A、 BCD)
A、 模型或模型结构 B、 评分函数 C、 优化和搜索方法 D、 数据管理策略
答案:
207、 以下哪些学科和数据挖掘有密切联系?() A、 统计
B、 计算机组成原理 C、 矿产挖掘 D、 人工智能
答案:AD
208、 在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问
题的各种方法有:()
A、 忽略元组
B、 使用属性的平均值填充空缺值 C、 使用一个全局常量填充空缺值
D、 使用与给定元组属同一类的所有样本的平均值 E、 使用最可能的值填充空缺值
答案:ABCDE
209、 下面哪些属于可视化高维数据技术() A、 矩阵 B、 平行坐标系 C、 星形坐标 D、 散布图 E、 Chernoff 脸
答案:ABCE
210、 对于数据挖掘中的原始数据,存在的问题有:()A、 不一致 B、 重复 C、 不完整 D、 含噪声 E、 维度高
答案:ABCDE
211>下列属于不同的有序数据的有:() A、 时序数据 B、 序列数据 C、 时间序列数据 D、 事务数据 E、 空间数据
答案:ABCE
212、下面属于数据集的一般特性的有:() A、 连续性 B、 维度 C、 稀疏性 D、 分辨率
E、 相异性
答案:BCD
213、 下面属于维归约常用的线性代数技术的有:() A、 主成分分析 B、 特征提取 C、 奇异值分解 D、 特征加权 E、 离散化
答案:AC
214、 下面列出的条目中,哪些是数据仓库的基本特征:() A、 数据仓库是面向主题的 B、 数据仓库的数据是集成的 C、 数据仓库的数据是相对稳定的 D、 数据仓库的数据是反映历史变化的 E、 数据仓库是面向事务的
答案:ACD
215>以下各项均是针对数据仓库的不同说法,你认为正确的有()。A、 数据仓库就是数据库
B、 数据仓库是一切商业智能系统的基础
C、 数据仓库是面向业务的,支持联机事务处理(OLTP) D、 数据仓库支持决策而非事务处理
E、 数据仓库的主要LI标就是帮助分析,做长期性的战略制定
答案:BCDE
216、联机分析处理包括以下哪些基本分析功能?() A、 聚类 B、 切片 C、 转轴 D、 切块
E、分类
答案:BCD
217、 利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。
在以下的购物篮中产生支持度不小于3的候选3-项集,在候选2-项集中需要剪 枝的是— ID项集 答案:BD:
218、 面包、牛奶
答案:
219>面包、 尿布、啤酒、鸡蛋
答案:
220、牛奶、尿布、啤酒、可乐
答案:
221>面包、牛奶、尿布、啤酒
答案:
222>面包、牛奶、尿布、可乐 A、 啤酒、尿布 B、 啤酒、面包 C、 面包、尿布 D、 啤酒、牛奶
答案:
223、下表是一个购物篮,假定支持度阈值为40%,其中—TID项
答案:(A D);
224、 abc
答案:
225、 abed
答案:
226、 bee
频繁闭项集。答案:
227% acde
答案:
228、 de A、 abc B、 ad C、 cd D、 de
答案:
229、 Apriori算法的计算复杂度受_( )_影响。 A、 支持度阀值 B、 项数(维度) C、 事务数 D、 事务平均宽度
答案:ABCD
230、 非频繁模式_( )_ A、 其支持度小于阈值 B、 都是不让人感兴趣的 C、 包含负模式和负相关模式 D、 对异常数据项墩感
答案:AD
231、 以下属于分类器评价或比较尺度的有:() A、 ,预测准确度 B、 ,召回率
C、 ,模型描述的简洁度 D、 ,计算复杂度
答案:ACD
232、 在评价不平衡类问题分类的度量方法有如下几种,() A、,F1度量
B、 ,召回率(recall) C、 ,精度(precision)
D、 ,真正率(ture positive rate, TPR)
答案:ABCD
233>贝叶斯信念网络(BBN)有如下哪些特点,() A、 ,构造网络费时费力 B、 ,对模型的过分问题非常鲁棒
C、 ,贝叶斯网络不适合处理不完整的数据 D、 ,网络结构确定后,添加变量相当麻烦
答案:AB
234、 如下哪些不是最近邻分类器的特点,()
A、 ,它使用具体的训练实例进行预测,不必维护源自数据的模型 B、 ,分类一个测试样例开销很大
C、 ,最近邻分类器基于全局信息进行预测 D、 ,可以生产任意形状的决策边界
答案:C
235、 如下那些不是基于规则分类器的特点,() A、 ,规则集的表达能力远不如决策树好
B、 ,基于规则的分类器都对属性空间进行直线划分,并将类指派到每个划分 C、 ,无法被用来产生更易于解释的描述性模型 D、 ,非常适合处理类分布不平衡的数据集
答案:AC
236>以下属于聚类算法的是()。 A、 K均值 B、 DBSCAN C、 Apriori
D、 Jarvis-Patrick(JP)
答案:ABD
237、()都属于簇有效性的监督度量。 A、 轮廓系数
B、 共性分类相关系数 C、 嫡 D、 F度量
答案:CD
238>簇有效性的面向相似性的度量包括()。 A、 精度 B、 Rand统计•量 C、 Jaccard 系数 D、 召回率
答案:BC
239、 ABCD )这些数据特性都是对聚类分析具有很强影响的。 A、 高维性 B、 规模 C、 稀疏性 D、 噪声和离群点
答案:
240、 在聚类分析当中,()等技术可以处理任意形状的簇。 A、 MIN(单链) B、 MAX(全链) C、 组平均 D、 Chameleon
答案:AD
241、 AB )都属于的层次聚类算法。 A、 二分K均值 B、 MST
C、 Chameleon D、 组平均
三、判断题 答案:
242、 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述
数据、预测数据等任务。 答案:正确
243、 数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模
式的发掘。—3.图挖掘技术在社会网络分析中扮演了重要的角色。— 答案:对;对;
244、 模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型
则对变量变化空间的一个有限区域做出描述。 答案:错误
245、 寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。
答案:错误
246、 离群点可以是合法的数据对象或者值。
答案:正确
247、 离散属性总是具有有限个值。
答案:错误
248、 噪声和伪像是数据错误这一相同表述的两种叫法。
答案:错误
249、 用于分类的离散化方法之间的根本区别在于是否使用类信息。
答案:正确
250、 特征提取技术并不依赖于特定的领域。
答案:错误
251、 序列数据没有时间戳。
答案:正确
252、 定量属性可以是整数值或者是连续值。
答案:正确
253、 可视化技术对于分析的数据类型通常不是专用性的。
答案:错误
254、 DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。
答案:正确
255、 OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继
数据库技术发展之后迅猛发展起来的一种新技术。 答案:正确
256、 商业智能系统与一般交易系统之间在系统设计上的主要区别在于:后者把
结构强加于商务之上,一旦系统设计完毕,其程序和规则不会轻易改变;而前者 则是一个学习型系统,能自动适应商务不断变化的要求。 答案:正确
257、 数据仓库中间层OLAP服务器只能采用关系型OLAP
答案:错误
258、 数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具
等 四个部分. 答案:错误
259、 Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户
提出的假设过程中提取信息. 答案:错误
260、 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。
答案:错误
261、 利用先验原理可以帮助减少频繁项集产生时需要探査的候选项个数—o
答案:正确
262、 先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频
繁的。 答案:错误
263、 如果规则不满足置信度阈值,则形如的规则一定也不满足置信度阈值,其 中是X的子集。
答案:正确
2、 具有较高的支持度的项集具有较高的置信度。
答案:错误
265、 聚是这样的过程:它找出描述并区分数据类或概念的模型—,以便 能够使用
模型预测类标记未知的对象类。—
答案:clustering:或函数;错;
266、 分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连
续数值。 答案:正确
267、 对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减
少这些样本对分类结果没有影响。 答案:正确
268、 Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,
待分样本的分类结果取决于各类域中样本的全体。 答案:错误
269、 分类模型的误差大致分为两种:训练误 —和泛化误差—.—
答案: training error; generalization error: 对;
270、 在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减
低, 但是检验误差开始增大,这是出现了模型拟合不足的问题。 答案:错误
271、 SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称
为最小边缘分类器 ________
答案: minimal margin classifier:错;
272>在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越
差。 答案:错误
273、 聚类分析可以看作是一种非监督的分类。
答案:正确
274、 K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地
确定。 答案:错误
275、 给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个
应该被视为较优。 答案:错误
276、 基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。
答案:正确
277、 如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。
答案:正确
278、从点作为个体簇开始,每一步合并两个最接近的簇,这是一种的层次聚 类方法。—40. DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。
答案:错;对;
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- 7swz.com 版权所有 赣ICP备2024042798号-8
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务