您好,欢迎来到微智科技网。
搜索
您的当前位置:首页商务智能在企业营销分析系统中的应用研究

商务智能在企业营销分析系统中的应用研究

来源:微智科技网
《工业控制计算机/2011年第24卷第9期 71 商务智能在企业营销分析系统中的应用研究 Business Intelligence in Marketing Analysis System of Enterprise 一、 一, /系据 /一 \业统I务数 !眭\一Il 圄 廖化生 何利力 王文娟 (浙江理工大学信息电子学院,浙江杭州330018) 摘要 从技术的角度对商务智能的的基本概念、体系架构进行了讨论,给出了一个完整的营销决策分析系统构建方案,并对 ECTL过程及数据仓库的查询优化进行了研究和实现。实际应用结果表明,企业利用现有系统中的信息数据,能大大提高 企业对数据查询分析和决策分析的能力。 关键词:商务智能,营销决策,ECTL,查询优化 Abstract This paper esthe basic concept and architecture of business intelligence frOm the viewpoint of technology.which also presents a complete marketing decision suppo ̄system construction scheme.Then,the query optimization of ECTL process and data warehouse is researched and implemented The actual application result indicates that,enterprises can use the in— formation data in the existing system to greatly improve its ability of data query analysis and decision analysis. Keywords:business intelligence,marketing decision.ECTL,query optimization 商务智能(Business Intelligence,简称B1)系统的建设目 况的数据在经过整合后转化成反映企业整体情况的信息,这些 标就是要为企业提供一个统一的分析平台,充分利用原有系统 信息有助于企业加深对客户及市场的了解。随后联机分析处理 中积累的宝贵数据,对其进行深层次的发掘,并从不同的角度分 对这些反映企业整体情况的信息进行分析,帮助用户对企 析企业的各种业务指标和构建业务知识模型。本文在讨论了商 业的运营状况进行多侧面的 务智能的基本概念后,以烟草行业为例,对浙江中烟营销决策支 审视。而数据挖掘的目标则是 持系统进行了分析,并对其中的关键技术进行了描述。 挖掘数据背后能为企业提供 1 商务智能基本概念及体系架构 决策支持的潜在的有用知识, 1.1基本概念 从而完成信息到知识的转变。 商务智能最早是由Gartner Groop于1996年提出,但其 最后使用OLAP前端展现工 涉及的技术与理念,在命名之前就已经存在,也被称为以帮助企 具对知识进行可视化操作,并 业决策为目的的决策支持系统。现今的商务智能涵盖多方面的 将分析过程及结果以图形、图 内容,已由简单的概念逐渐转化为较成熟的全方位解决方案,甚 表的形式呈现在客户端。图2 至升华为一种管理思想,体现的是一种理性的经营管理决策的 展现了2011年1月份浙江 能力,即全面、准确、及时、深入地分析和处理数据与信息的能 省重点品牌卷烟销售情况。 图2卷烟销售占比份额图 力。综上所述,商务智能是对商业信息的搜集、管理和分析的过 2 ECTL过程及查询优化研究 程,目的是使企业的各级决策者获得知识或洞察力,促使他们做 2.1 ECTL过程 出对企业更有利的决策”]。 (1)数据抽取 数据数据预处理 数据仓库 数据分析 数据展现 根据本系统的特性,在将业务数据加载到数据仓库之前采 用时间戳的方式对数据进行抽取,使原有业务表中的数据具有 IU元数据库l 时间属性。每当数据源中业务数据发生变化时只需要修改时间 戳字段值(数据更新方式采用增量更新和周期更新),而对于关 系型数据库中的数据,可以使用触发器技术来实现数据的抽取, I数据仓库I 而对于其它的数据,可以通过编写抽取器代码的方式来实现。在 数据加载时,通过对系统时间与时间戳字段的比较来决定选择 图1 商务智能技术体系架构 何种抽取方式来完成数据的抽取。这样就可以确保分散的数据 1.2体系结构 能够顺利地进人数据仓库,不会影响在进行业务决策时对数据 从系统的体系结构来看,商务智能系统主要包括数据预处 的分析结果。并大大降低了不相关数据对系统的时间开销和空 理、建立数据仓库、数据分析及数据展现四个主要阶段,如图1 间开销。ECTL系统的设计思想清晰、源数据抽取简单,速度快。 所示。确切地讲,Bl并不是一项新技术,它是将数据仓库(DW)、 在抽取策略上,ECTL能为系统不断补充合格的数据,实现数据 联机分析处理(OLAP)、数据挖掘(DM)等技术与CRM、ERP等 的完全更新和增量装载。 系统的开发理念有机融合应用于企业商业活动的一套完整的解 (2)空缺值处理 决方案。首先使用预处理工具(ECTL)对企业内外部的各种分散 空缺值处理_2 是数据仓库中经常碰到的问题,造成数据缺失 混乱的原始数据进行清理以保证数据的正确性,将数据进行转 的原因是多方面的,例如有些信息是暂时无法获取的,比如在烟 换、重构后按照不同的主题存人数据仓库,这些反映企业局部情 草公司数据库中,并非所有商业公司的卷烟购销存数据都能在 72 给定的时间内得到,从而导致一部分属性值空缺出来。还有就是 在抽取数据时采用了周期更新的方式将数据源中的数据更新反 商务智能在企业营销分析系统中的应用研究 成数据的自动清洗 。在数据仓库环境下,大多数情况下一张数 据库表会和其他的数据库表有联系,最普遍的联系是外键联系。 比如在星型模式下的维表和事实表就是通过外键联系起来的。 应到数据仓库中,这种方式存在一个潜在的问题即“更新丢失”。 解决上述问题的方法有多种:直接丢弃含缺失数据的记录;用典 在两条记录的相似度处于双阀值之间的时候,就可以借助于它 们所属的表相关联的其他表的信息来判断它们的相似性。这样 就大大提高了重复记录判断的准确性。其计算公式如下: FKSim R1 R2)= fs (开7,R2),如果sim(Rl,R2)≥UP或者sim(R1,R2)≤LOW 型值(即最有可能出现的值)来代替所有缺失数据;用空值预测法 来预测每一个缺失数据等。通过比较分析,本系统采用最后一种 方法,即用已有数据作为训练样本来建立预测模型,预测缺失数 据,这也是目前处理缺失数据比较流行的一种处理技术,该方法 能最大限度地利用已知的相关数据。针对该缺失数据处理方法, l(1-d) sim(R1,闩l2)+d sim(FK(R1),FK(R2)),LOW<s ̄(R1,R2)<UP 本文建立一种贝叶斯重叠补缺模型来推测空缺值的取值。对数 据挖掘模型而言,如果训练数据集的数据愈多,建立的数据挖掘 其中R1、R2分别为仅含有记录r1、r2的记录集,d为贡献因 子,即当原始相似度处于L0W和UP之间时,可以使用另一个相 模型的精度就愈高。所以利用之前预测出来的属性值来充实训 练数据集,将其填补到初始数据集(保留缺失数据的数据集)中, 产生新的数据集C1。然后再在数据集C1的基础上预测下一个 属性,并将预测所得值填补到数据集C1中,从而产生新的数据 集C2,……依次类推,最后产生一个新的完整数据集C。这种补 缺的处理方式充分利用了已预测出来的缺失数据来预测下一次 的数据集。 在贝叶斯重叠补缺模型中,如果补值的顺序不同,则产生的 结果也就不同。因此在随机产生N组不同的补值顺序后,对这 N组不同的补值顺序所产生的模型进行检验。在检验的过程中 需要对随机产生的N组不同补值的数据集先算出先验概率和 条件概率,分别以公式(1)、(2)表示: P(G):里, x100% (1) a.十∑~(G) P(Aik ×100% (2) 其中:N(C.)是训练实例中类C.的记录个数,N(A. IC.)是在 训练实例中属于类C.的实例中属性A取第k个值的个数,实验 中a,和a 的值取为1,这样可以防止出现零的情况。 最后,再利用数据挖掘技术构建朴素贝叶斯分类器和决策 树C4.5 E0预测模型测试数据,采用多重交叉验证法检验该决策 树模型的预测准确率和类预测准确率(本系统采用五重交叉验 证法,它的优点是即使数据量很小也能达到很好的效果)。分别 定义如下: 模型预测准确率= 整个数据集中预测正确的记录个数 整个数据集的记录总 x 7D0% 类预测准确率: 萎 巽 x100% 其中:整个数据集中预测正确的记录个数和某个类中预测 正确的记录个数是利用C4.5决策树预测模型在补缺模型产生 的数据集上计算得到的。 (3)数据清洗 在数据仓库的开发中,数据抽取和转换过程中往往会存在 数据质量问题,表现为:字段中的虚假值(拼写错误)、不一致性、 二义性(一个字段同一数据在不同部门有着不同的含义)、标法 不唯一(例如卷烟销售系统与库存系统的产品代码不一致)等错 误。因此在进行联机分析处理和数据挖掘等操作之前需要及时 找出数据污染的原因,进行有效的数据清洗,确保数据的高质 量。而重复记录清除是清洗的一个很重要的方面。对于具有大规 模数据集的浙江中烟BI系统,如果采用手工进行数据的一致性 确认,就会在时间、金钱等方面的开销都很大,因此就需要专门 编制程序来完成重复记录的清洗。在具体的应用中,本系统采用 了一种使用双阈值的数据仓库环境下重复记录消除的算法来完 似度来衡量记录集r1和r2的相似程度。这个相似度是r1、r2的原 始相似度和外键参照r1、r2的记录集的相似度相互作用的结果。 实践证明,通过上述的数据清洗策略能够有效地提高数据 仓库中数据加载的质量,同时,有效地降低了数据仓库维护人员 的代码编写工作量并提高了工作效率,为数据仓库的数据分析 如OLAP和数据挖掘提供了较高质量的数据环境。 (4)数据集成 数据集成就是使用数据挖掘技术将多个数据源中的数据进 行整合成一致的数据并存放在同一个数据存储中 ],此过程依 据数据语义、语法、结构将不同数据元数化,得到格式统一的数 据结构;进而进行数据标准化,消除数据的冗余等;然后进行数 据的一致性校验;在内容上修改各种错误,最后将处理后的数据 作为中间结果存储在临时区域中,等待进一步清洗。在清洗时根 据匹配结果进行处理,删除部分记录或者将多个记录合并为一 个更完整信息的记录。 2l2数据仓库中的查询优化 本系统中进行数据仓库的逻辑设计时采用的逻辑模型为星 型模式 ]。针对星型模式数据仓库中潜在的查询性能及事实表 中的数据大大多于维表中的数据特点等问题,利用面向对象中 的消息机制,提出了一种基于对象关系视图(ORV)的并行多表 连接的查询算法。通过引入并行机制使得基于星型模式的多表 连接算法实现并行化 ,从而减少了磁盘的l/O开销问题,加速 了查询的响应时间,解决了数据仓库中海量数据的查询问题。这 一算法,在并行处理过程中,充分利用星型模式下数据组织的特 点,首先将组件对象中符合查询要求的数据存入到内存Hash、 排序表中,同时给复杂对象(由事实表转化而来)发送数据准备 好的消息;然后再对复杂对象进行处理,如果复杂对象已经收到 了所有组件对象发送的消息,则从复杂对象读出的每条记录,通 过连接属性,与内存中由组件对象(由维表转化而来)形成的排 序表进行连接操作,形成完整的连接结果组。算法过程如下: Algorithm Mhashsemi—Join(OBG,OBGQ) Input:Object Graph(OBG)= <{O_C—i—P}U O—Com—ij-q,(O—C—i-p,O—Com—ij-q)>, Object G raph Querying(OBGQ): <{0_c—i-p}U O—Com—ij-q,(O—C—i-p,O—Com—ij-q)>。 Output:OBG中与OBGQ有关的所有Objects的连接T,使得I/0开 销最小,查询响应时间最短。 (1)T=null; (2)To every component object(O—Com_i), lf O—Com-i S datas未调入内存 Then For OCorni的记录r∈O—Corn—l Do r写入HO—Corn—i的第H(r[OIDi】)个Hash桶; //HOCom—i为对O—Com_j的Hash函数,输入为OlDi属性值 End For End If 《工业控制计算 ̄}2011年第24卷第9期 If O_Com一_,S datas已调入内存,但未向complex object(O—C)发送 消息Msg Then O—Com—i向O—C发送Msg:Msg(CO—C)++; End If (3)To every complex object IF Msg(CO—C)=m//O—C已收到O—Comj发送的Msg; 表明O—Com—i S Data已准备好 Then For每条数据rO—C∈O—C Do For(inti=1:i<=m:j+十){ ro—comi=根据rO—C[OIDi]查找Hash表HO_Com—i得到的记录; l 利用rO—C,ro_com1,ro_com2,ro comm形成完整的连接结果元组w; T=TU{W}; End For Else//O—C S Datas还没准备好 Waits End 该算法产生的l/O开销为BO—C+BO—Coml+ BO—Com2+口+B0一Comm+R磁盘存取块数。其中B0一C为复 杂对象O—C的磁盘存取块数,BO—Comi为组件对象O—Comi 的磁盘存取块数,R为结果T的磁盘存取块数。因为BO—C远远 大于BO—Comi,所以总的磁盘存取块数接近于BO—C+R。对于 普通的多表连接处理方法,如果两表连接的次序为0—CX O—Coml xO—Com2x口xO—Comm,贝U因为O—C xO—Coml X O—Com2x口xO—Comm大于BO—C,最终连接运算所要求的磁 盘存取块数将大于(2m一1)BO—C+R,其中读操作为m次,写操 作为m一1次。显然,当m>1时,普通的多表连接算法磁盘存取 块数就大于多表并行连接算法所对应的磁盘存取块数。因此当 m的取值越大,该算法所对应的磁盘存取块数就越少。而对于基 于星型模式的数据仓库而言,组成复杂对象的组件对象往往有 多个,因此采用该算法可以有效地降低对磁盘的I/O开销。 3营销决策分析系统设计 系统的设计采用当今成熟的J2EE架构、最新的WEB技术 以及国际流行的开发工具,实现稳定、便捷的B/S操作模式。其 中浏览器为人机交互界面,服务器端是数据库服务器和分析服 务器。利用(IBM DB2 ENTERPRISE For Linux)V8.2设计和管 理服务器端数据库和数据仓库,客户端所做的工作有:客户交 互、结果显示、报表生成等。 结合卷烟的实际销售情况,这里采用数据仓库、OLAP与数 据挖掘集成的决策分析系统对卷烟营销的决策问题进行开发设 计,它们相互补充、相互依赖,发挥各自的辅助决策优势,实现更 有效的辅助决策。 3.1数据仓库的设计 在设计数据仓库之前,通过需求分析明确数据仓库的主题。 主题是一个在较高层次将数据归类的标准。根据浙江中烟卷烟 销售的实际情况,本系统采用一种基于特征值的数据仓库主题 搜索方法来确定主题,可分为客户、销售、库存等主题。数据仓库 采用星型模型的数据组织结构来设计,其开发纵向划分为3个 层次:数据层、设计层 和应用层,其基本体系 应用层【数据抽取和清洗== 发布和访问数据i ~] —— 结构如图3所示。 JI 1)数据层:主要是 设计层f信息包 =按照业务需求从数据 L———————————————— r= 星形图-二—=_—>物理模型J————_j  源中收集数据,通过访 I__—————— — =广—] 问和运用数据仓库中 数据层I一 = 数据获取—= [二]信息目录} 的元数据来指导数据 图3数据仓库的三层体系结构 73 的清洗和转换工作,加工处理后将其存储在能够支持查询的关 系数据库结构中。 2)设计层:设计层的实现主要分为三个步骤:①在以客户需 求为主的基础上,通过使用信息包图来确定主题和主要性能测 试指标之间的关系;②利用可视化的数据模型建立起最适合查 询的星形图,从而有助于系统对用户的要求做出迅速反应;⑧借 助数据与实体间的相互关系来设计完全属性化的数据模型,使 之在最大广度及深度上说明信息包。 3)应用层:主要用于解决数据仓库中数据的有效提取和发 布,使用户更加方便地访问并获取相关信息。 3.2 OLAP设计 OLAP的一个重要特点是动态实时分析,正好与数据 仓库中的数据组织相互结合、相互补充,把OLAP技术主要 应用于对数据仓库中数据的切片、钻取、旋转等,便于用户 从不同的角度查询和分析相关数据。OLAP设计的工作重点是 以全局性数据仓库系统建设为目标,构建OLAP在线分析系统 平台,实现直观的数据操纵和灵活的报表功能,使企业中的分析 人员、管理者和决策人员采用OLAP技术快速地、交互地访问大 量信息的不同视图来对数据进行深层次的分析。 3.3数据挖掘设计 数据挖掘是一个发现过程,它利用数据仓库、模型库和知识 库共同完成数据挖掘的过程。通过决策树、统计分析、可视化技 术等数据挖掘工具触发数据仓库管理系统,从数据仓库中获取 与营销决策具体任务相关的目标数据。然后将其目标数据存储 于模型库中,并根据使用者的决策目的对模型库进行评估,得到 的挖掘结果转化为决策知识并以图表、柱形格式、地图或数据报 表的方式表示,或将挖掘所得到的有用知识集成到营销决策过 程中,用于指导营销行为和决策。 4结束语 在国内企业中尤其是烟草企业基于商务智能的卷烟营销决 策分析系统只在个别的工业企业得以应用,烟草行业商业企业 方面的研究尚没有理论上的成果与突破,本课题有助于促进烟 草行业卷烟经营企业在商务智能技术方面的研究。 参考文献 [1]ZHU Xiaowu.Review of business intelligence theory and prac— tice[J].Applications of the Computer Systems.2007(1):1 14—1 17 [2]LIU Peng,LEI Lei,ZHANG Xuefeng.A comparison study of missing value processing methods[J]. Computer science, 2004,31(1O):155—174 [3]WANG Xiulin.Tobacco marketing decision support system based—on data warehouse technology[D】.May.2007 [4}HONG Yuan,SUN Weiwei,SIll Baile.Duplicate records elimina. tion in data warehouse with two thresholds[J】l Computer engineering and applications,2005,1(1):168-216 [5]DING Ping.Application of the technology of the business in— telligence in the competition of enterprise [J].Journal of shangxi university of science&technology.2004,4(22):1 34—1 36 [6]XIA Weili,XU Changyuan.The supporting function and methodology of business intelligence for decision—making of enterprise strategies[J】l Soft science,2004,18(3):15—21 [7]ZHAO Peiying,LI Qingzhong,WANG Haiyang.A parallel multi— join algorithm for improving query performance in data ware— house[J]Computer engineering,2002,28(10):1 14—190 [收稿日期:2011.4.8] 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 7swz.com 版权所有 赣ICP备2024042798号-8

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务