您好,欢迎来到微智科技网。
搜索
您的当前位置:首页基于粒子群的近邻传播算法

基于粒子群的近邻传播算法

来源:微智科技网
2014年第23卷第3期 htcp://www.c—S—a.org.Crl 计算机系统应用 基于粒子群的近邻传播算法① 谢文斌,童楠,王忠秋,贾官洪,陈维奇,符强 (宁波大学科学技术学院,宁波315212) 摘要:针对近邻传播(AP)算法中偏向参数与收敛系数对AP算法的聚类效果的局限性的问题,提出了一种基于 粒子群的近邻传播算法(pso.AP算法).通过将AP算法中的偏向参数与收敛系数作为粒子,然后使用粒子群算法 来对其进行智能地调整,进而提高AP算法的聚类效果.实验结果表明,该算法能有效地解决偏向参数与收敛系 数对AP算法的聚类效果局限性,提高了聚类效果与收敛精度. 关键词:近邻传播聚类;粒子群优化算法;偏向参数;收敛系数 Afinity fPropagation Algorithm Based on Particle Swarm Optimization XIE Wen—Bin,TONG Nan,WANG Zhong—Qiu,JIA Guan-Hong,CHEN Wei—Qi,FU Qiang (College of Science and Technology,Ningbo University,Ningbo 3 1 52 12,China) Abstract:Aiming at the problem that the preference parameter and damping parameter in afinifty propagation algorithm have limitations to the result of clustering,this paper puts forward an afinifty propagation algorithm which based on particle swarm optimization(PSO-AP).By taking the two parameters in algorithm as a particle,then adjust it Intelligently by particle swarm optimization(pso)algorithm,and improve the effect of clustering.The results of experiment show that the algorithm has effectively solved the problem,improved the result of clustering and the accuracy of damping. Key words:afinity propagatifon;PSO;preference parameters;damping parameter 近邻传播(Afinifty Propagation简称AP)聚类算法【 】 是由Frey等人在Science上提出的一种新的快速与有效 别进行调试取值,不但过程复杂,而且难于获得最佳参 数值,在很大程度上局限了AP算法的聚类效果. 本文针对上述问题提出了基于粒子群的近邻传播 的消息传递聚类算法.近邻传播算法的优势如下:第一, 该算法可以对较大的数据集进行较好较快的聚类;第 算法,通过粒子群算法的全局寻优能力来智能调整偏 向参数与收敛系数的值,使AP算法实现全局最优聚 类效果.利用新方法对各种类型的数据进行了聚类实 验分析,实验结果验证了算法的有效性. 二,该算法把每个数据样本作为待聚类的数据中心,这 使其不受初始中心;第三,该算法对相似度矩阵的 对称性没有要求,这扩展了该算法的应用范围.由于近 邻传播算法的种种优点,该算法被广泛的应用于人脸 识别、手写体字符识别、基因识别、最优航空路线确定 等问题上. 1近邻传播聚类 与K means、模糊C等聚类算法相比较,AP聚类 算法不需要初始中心,它将每个数据点作为候选的聚 类中心,通过数据点之间的吸引与归属关系进行聚类. AP算法是根据建立的相似度(Similarity)矩阵进行 该算法中有两个重要的参数【 :偏向参数与收敛系 数.这两个参数对聚类结果都有很大的影响:偏向参数 主要影响最后的聚类数目,收敛系数主要影响算法的 收敛速度与精度,但这两个参数往往需要通过实验分 聚类的.相似度矩阵S按(1)式建立,其的非对角线元 ①基金项目:浙江省教育厅科研项目(Y201326770);宁波大学科研基金项目(XYL12009);浙江省教育厅科研项目(Y201326872) 浙江省教育科学规划课题(SCG0901 收稿时间:2013-07.23;收到修改稿时间:2013.09.22 Software Technique・Algorithm软件技术・算法1 03 计算机系统应用 http://www.C—S・a.org.cn 2014年第23卷第3期 素s(i.k1为点Xl与点Xk之间的关系,对角线元素 s(k,k)为偏 ̄(Preference)参数P(k),P(k)的初始值一 般取相同的值,为相似度矩阵中所有非对角线元素最 小值或均值,其的初始大小对最后的聚类数有较大的 影响,P越大产生的聚类个数越多,反之亦然. (f, ):a(i,k)=min{0,r(尼,k)+∑max{0,r(i , )}} (4) ,7 f, } a(k, )=∑max{0,r(i ,j.})) “7 . (5) (6) a.ew(i,k)= Xaold(f,k)+(1一 )×a(i,k) 其中下标为old的代表上一次的结果,new代表本次更 j—II 一 II ≠k (1) 新后结果. 为收敛系数( )f0,1)), 越大消除振荡 IP i= AP算法的核心为数据点之间相互的信息传递,AP 算法有两种信息[3],它们分别为吸引度(Responsibility) 与归属度(Availability),建立过程如图1、图2所示. n 数据点x 、 图1吸引度的建立 由 数据点 图2归属度的建立 算法开始吸引度r(f, )与归属度a(i,k)的初值都 为0,表示开始时数据之间没有任何聚类关系。它们按 (2)到(6)式更新.r(i,k)为由点X 传到候选聚类中心点 X 的信息,它反映候选聚类中心点Xk作为点Xl的聚类 中心的适应程度.a(i,k1为由候选聚类中心点Xk传到 其所有潜在聚类成员点Xi,它反映点Xi作为点 的聚 类成员的适应程度.其中r(k,k)与a(k,k)为点Xk的自 吸引度与自归属度这两个值越大说明其越适合作为聚 类中心[ ,一般把r( ,尼)与口( ,k)之和大于0的点就认 为其是一个较好的聚类中心. r(i,k):s(i,k)一max2) .,{a(i,k )+s(i, )} (...r (f,k)= X ro (f,k)+(1一 )Xr(i,k) (3) 1 04软件技术・算法Soflw ̄e Technique・Algorithm 的效果越好,但收敛速度也越慢,反之亦然. 迭代的终止条件为:迭代次数超过最大值或者当 聚类中心连续多少次不发生改变时终止迭代. 最后根据得到的中心结合相似度矩阵对数据点进 行分类. 2实验数据集与指标 本实验中采用了BWP指标l51对聚类结果进行评价 BWP指标是基于样本的聚类距离和聚类离差距离提 出的. BWP指标适用于衡量聚类数大于1的数据集,该 指标值的范围在.1到1之间,该值越大说明聚类结果 越好.之所以选用BWP指标,是因为该指标可以有效 地反应类内紧密性与类间分离性,并且能对聚类结果 进行一个有效的评估. 本文选用了表1所示的5个数据集作为测试数据 集对本文提出算法进行验证和比较.其中选用的每个 数据集均为聚类分析中常用的数据集,而且各具特点, 有利于对聚类算法进行一个全面的分析 表1数据集特点 数据 数据 数据集 数据个数 数据类型 维数 类数 Aggregation1 788 2 7 混合 Aggregation2 l95 2 2 紧密、环形 不完全分离、紧 Aggregation3 307 2 2 密 不完全分离、松 Aggregation4 232 2 2 散 Aggregation5 143 2 6 完全分离、松散 3 AP算法参数分析 为证明参数调整的必要性,以及通过参数调整优 化算法的可行性.本实验通过传统的方法对AP算法 的参数进行了分析. 3.1收敛系数 分析 在传统AP算法中收敛系数一般为固定值,但收敛 计算机系统应用 http://www.c-s—a.org.cn 2014年第23卷第3期 (11详细的信息反馈机制. 2百度百科.LeapFTP (2)可靠的传输保证机制(断点续传). 119580,htm,2013—3—13, (3)操作简单,便捷. 3百度百科.FlashFXP 介绍.http://baike.baidu.corn/view/ (41完善的曰志记录,易于排错. 177890.htm.2013—3—13. 由于目前大多数企业的文件传输使用的是操作系 4百度百科.Serv.U 介绍.http://baike.baidu.corn/view/ 统自带的FTP功能,配置复杂,FTP较为分散且不利于 537933.htm.2O13—3—13. 管理,也没有断点续传功能.由于大多数企业数据还 5王 ,罗万明,阎保平.并行下载最优机制.软件学报, 没有达到一定规模,商业的文件传输系统并没有得到 2009,20(8). 企业的重视,商用文件传输系统还没有实际应用的环 6邓湘,吴迪.基于P2P的文件并行上载机制研究.http://www. 境,但随着企业不断发展,数据量不断增大,大数据 doc88.com/p一995532369499.htm1.2013-3—15. 时代的逐渐来临,商业文件传输,作为客户端与服务 7志良的技术博客.深入探析c撑Socket.http://www.cnblogs. 端的数据传输工具,极大地方便了工作,提升了工作 com/tianzhilian ̄,archive/2010/09/08/1821623.htm1.2013-3—1 效率.如果在此基础上对系统进行进一步完善,构建 5. 成复杂大型的文件传输引擎,将会产生极大的商业价 8 Palmer G康博译.C≠}程序员参考手册.北京:清华大学出版 值和经济效益. 社.2002. 9周存杰.Visual C≠}.NET网络核心编程 E京:清华大学出版 参考文献 社,2002. 1百度百科.CuteFTP介绍.http://baike.baidu.com/view/ 1O曾强聪.软件工程-jE京:高等教育出版社,2004. 177879.htm.20l3-3—13. (上接第107页) 集,聚类起来相对容易,均能获取较好的聚类效果.但 data points.Science,2007,3 1 5:972—976. 对比Aggregation 1、Aggregation2、Aggregation3这三 2王开军,张军英等.自适应仿射传播聚类.自动化学报, 个较难的数据集来说粒子群算法的聚类精度就明显不 2007,33(12):1242—1246. 如PSO.AP算法.总的来说PSO.AP算法在对数据集的 3刘胜字,刘家锋等.基于改进AP聚类算法的人脸标注技术 适应度与聚类精度上都要优于粒子群算法与普通的AP 研究.智能计算机与应用学报,201 1,1(1):35—38. 算法. 4杨传慧,吉根林等.AP算法在图像聚类中的应用研究.计算 机与数字工程学报,2012,40(10):119—121. 5 结语 5周世斌,徐振源等.一种基于近邻传播算法的最佳聚类数确 本文针对近邻传播(AP)算法中偏向参数与收敛系 定方法.控制与决策学报,2011,26(8):1147—1157. 数对AP算法的聚类效果的局限性的问题进行了分析 6肖宇。于剑.基于近邻传播算法的半监督聚类.软件学报, 研究.首先,本文通过实验分别对偏向参数与收敛系 2008,19(1 1):2803-2813. 数进行调试取值,研究了偏向参数与收敛系数的特性. 7邢艳,周勇.基于互近邻一致性的近邻传播算法.计算机应用 然后,结合偏向参数与收敛系数的特性,提出了通过 技术.2012,29(7):2524—2526. 粒子群算法搜寻最优的偏向参数与收敛系数的方法, 8刘靖明,韩丽川I等.基于粒子群的K均值聚类算法.系统工程 使近邻传播算法达到一个最佳的聚类结果.最后,通 理论与实践,2005,6:54—58. 过实验证明了PSO.AP算法的有效性,且在聚类精度 9陶新民,徐晶等.一种改进的粒子群和K均值混合聚类算法. 与适应性上要优于普通的AP算法与粒子群算法. 电子与信息学报,2010,32(1):54—58. 参考文献 1 Frey BJ,Dueck D.Clustering by passing messages between 76系统建设System Construction 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 7swz.com 版权所有 赣ICP备2024042798号-8

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务