您好,欢迎来到微智科技网。
搜索
您的当前位置:首页基于协同过滤和网络结构的个性化推荐算法

基于协同过滤和网络结构的个性化推荐算法

来源:微智科技网
第8卷第2期 2O11年6月 复杂系统与复杂性科学 C0MPLEX SYSTEMS AND C0MPLEXITY SCIENCE Vol_8 No.2 Jun. 2011 文章编号:1672—3813(2011)02—0045—06 基于协同过滤和网络结构的个性化推荐算法 刘兆兴,张 宁,李季明 (上海理工大学管瑚学院,上海20OO93) 摘要:综合了经典的协同过滤算法和基于网络结构的个性化推荐算法。项目同其 他所有项目的相似度之和被认为是项目在个性化推荐系统中的初始推荐资源,然 后通过二部图的网络结构将这种资源进行重新分配。同时考虑两个项目之间的相 互作用关系,提出了最终的推荐算法。最后,根据用户未曾收集项目最终所获得的 资源进行排序,向用户推荐资源最多的项目。通过考察项目之间相互作用可以发 One Personal Recommendation Algorithm Based on Collaborative Filtering and Network Structure LIU Zhao—xing,ZHANG Ning,LI Ji—ming (Business school,University of Shanghai for Science and Technology,Shanghai 200093,China) Abstract:In this paper,we integrated classical collaborative filtering algorithm and network— based personal recommendation algorithm.The similarity between one item and any other items in this recommendation system is viewed as the initial recommendation resource of this item in this system.It will be redistributed to other items by taking bipartite network structure into ae— count.The improved method is gained after the consideration of the relationship of two items. Then.uncollected iterns with redistributed resource iS in the order of descending and uncollected item at top will be recommended to users.It is revealed that all measurements of the algorithm a— dopted in this paper can not access under the same condition when the relationship between two i— terns involved.Furthermore,a degree parameter is introduced to regulate the performance of method to make our method more scalable.To get better user interactive experience in real appli— cation,the relationship between items and the degree of item can be regulated. Key words:collaborative filtering;user similarity;item similarity;user—item bipartite network structure:personal recommendation 收稿日期:2010—05一l2 基金项目:国家自然科学基金(70971089);上海市重点学科项目(¥30501);上海高校选拔培养优秀青年教师科研专项基金(5108303001) 作者简介:刘兆兴(1986一),男,山东人,硕士研究生,主要研究方向为个性化推荐、复杂网络、人类动力学 复杂系统与复杂性科学 2011年6月 0引言 互联网技术的迅猛发展使得我们不得不面对信息过载:面对太多的信息以至于不能从中找到与我们相 关的信息口]。比如,在互联网上面有成千上万的网页可以浏览,数不胜数的音乐可以欣赏,可是面对如此多 的选择,有时很难找到真正所需要的信息。信息过滤技术发展的一个标识就是搜索引擎的出现,它给用户提 供了很大的方便。搜索引擎可以根据提供的关键字来返回用户感兴趣的东西。可是搜索引擎有两个缺点: 1)搜索引擎根据用户的关键字返回给用户的信息都是一样的,也就是缺乏个性化的信息;2)并不是所有的用 户感兴趣的信息都可以用关键字表示(比如我们对音乐的感受)或者用户由于自身的原因根本无法提供关键 字,在这种情况下,搜索引擎就失去了作用。推荐系统被认为是解决信息检索最有效的工具之一。推荐系统 根据用户过去的历史信息,利用推荐系统的推荐算法,来向用户推荐用户未曾收集的项目。当前推荐系统的 推荐算法[z ]主要包括:基于内容的推荐算法E4-53,基于协同过滤的推荐算法 ],谱分析方法…],主元素分 析方法L7 引,以及最近提出的基于网络结构的推荐算法 ¨ 和混合的推荐算法E1 5-16 等。 同时,Web 2.0的出现使得用户不再是单纯网站的浏览者,用户也成为网站信息的交互者 。这使得 互联网上面存储的信息量更进一步增加,但同时也使得个性化推荐成为可能。所谓个性化推荐就是在传统 推荐的基础上针对不同的用户,根据用户的不同兴趣,返回不同的推荐结果集。在当前,协同过滤算法应用 最为广泛,同时也是最为成熟的一种算法。但是传统的推荐算法由于受到系统的可扩展性以及数据稀疏性 的,在很多情况下效果并不是很好。最近提出的利用物理方法,如物质扩散 ],热传导 ],在个性会推 荐方面取得了很好的效果。因此在本文中,考虑将传统的协同过滤算法和利用二部图网络结构的推荐算法 进行结合,从而向用户进行个性化的推荐。 1算法描述 在一个推荐系统中,不同的用户可以根据自己的爱好来选择不同的项目。通常可以将该系统构建成一 个二部图网络n ,其中用户和项目分别构成两个节点集,分别用U一(“ ,“ ,…, }和0一{O ,O ,…,O }来 表示。用户选择过的项目构成一个Ⅲ×n的邻接矩阵A一{n ,} 。在该矩阵A中,如果用户J选择过项目 i,则元素a 的值为1;否则该元素的值为0。 全局排序算法[1 ,主要是根据项目度的大小来向用户呈现推荐列表,如在百度,谷歌搜索引擎中看到 TOP列表。改进该算法,使它能应用到个性化推荐算法:对所有的项目依据度的大小进行排序,针对每一位 用户,对该用户未曾收集的项目按项目度进行排序,然后向用户进行推荐。 传统的协同过滤算法主要包括基于项目的协同过滤算法以及基于用户的协同过滤算法。二者都是首先 计算各自的相似度,然后根据相似度对用户未曾收集过的项目进行预测打分,根据得分的高低向用户推荐。 只是二者在计算相似度时有些不同。在基于项目的协同过滤算法中,项目a项目 之间的相似度s 为 一 式中,k(oo):∑nE=1  为收集项目 的用户的数目,k(u,)一∑n=1  为用户i收集过的项目的数目(下同)。在计 算相似度之后,对用户未曾收集的项目进行打分预测。用户i对项目a的预测打分为 ∑s k=1.k≠ (2) ^一 ,^≠ ∑S 考虑项目同所有项目的相似度之和,即 第8卷第2期 刘兆兴,等:基于协同过滤和网络结构的个性化推荐算法 ・47・ S。一∑S岛 (3) 由式(3)可以看出,当项目同所有项目的相似度之和S。非常大时,表明该项目在整个系统中是非常活跃 的。因此该项目在向其他项目进行推荐时也就应该具有更大的权重。因此将其视作该项目在整个推荐系统中 的初始推荐资源。同时,为了克服数据稀疏性局限,可以利用二部图的网络结构,得到项目在二部图上的资源 分配方案 一南 一 南 _厂 ( )一∑Z,U 厂 (卢) ㈤ ㈣ (6) 式(4)中,叫 表示项目卢将该项目同所有项目的相似度之和5 作为推荐系统的初始资源,根据二部图的网 络结构分配给项目a。为了更好的观察项目a和项目 之间的相互作用关系,将上式继续改进,如式(5)式所 示,该式表示增加了项目a对项目口相互作用后,项El a最终分配获得的资源,当a一0时,式(5)退化成了 式(4),式(6)表示对用户i未曾收集的项目a的预测打分。 (口)取1当用户选择过该项目,否则为0。只有该 用户以前选择的项目才能对未选择的项目进行资源传递,这样不同的用户具有不同的项目初始资源,因而预 测打分时也就包含了用户个性化信息。 2 数值模拟 测试算法采用的数据集可以从网站_2。。得到。该数据集包含943位用户和l 682部电影,共1O 条记录。该 数据集中,用户对电影进行打分,从1到5,其中1表示很不喜欢,5表示非常喜欢,3表示用户对该电影既不讨 厌也不喜欢。根据算法的需要对数据进行了预处理:只选取用户打分不小3的记录,因为只有这样的项目才 能对其他的项目进行推荐。在数据集中,85.25 9/6的记录不小于3。接着数据集被随机的分成两部分,其中一 部分占数据集的90 ,用来做算法的训练集,剩余的1O 用作算法的测试集。 一个好的推荐算法应该给用户提供一个用户未曾收集项目的推荐列表,且列表的长度不能太长。对于任 意一位用户U ,在测试集中如果含有一条这样的记录“ -'-- ̄O ,就可以用O 在推荐列表中的位置来衡量算法。 例如某位用户未曾收集的项目为1 000,在测试集中含有该用户的1条记录,该项目在推荐列表中的位置为 5O,那么就用排序值r 一50/1 000—0.05来衡量算法的效率。在用户的推荐列表中,项目在列表中的位置 越靠前,则排序值越小,算法的效率就越好,预测的准确性就越高。然后用平均排序值,即对测试集中的所有 排序值取平均,来衡量算法的整体效率。在测试集中,全局排序算法,基于项目的协同过滤算法的排序值分别 为0.137,0.121,但是从图2可以看出即使在排序值很大情况下得到的结果也要比前面两个算法得到的结 果好的多。这就证明考虑了项目间相互作用对于提高算法有帮助。 3 改进的算法 引入一个度指数 来调节项目度在算法中作用,其中k (o )表示对项目的度进行指数运算。当 >1时, 具有较大度项目的相似度的作用受到抑制;当 <1时,具有较大度项目的相似度作用得到增强,当 一1,算 法就退化成了式(4)提到的算法。这样,式(5)可以修改为 伽 一 ㈩ 任意两个用户之间海明距离定义为长度为L的推荐列表中,二者推荐列表中项目的不同程度,用式(8) 表示。 h ,---1一Q/L (8) ・48・ 复杂系统与复杂性科学 2011年6月 式中,Q为长度为L的推荐列表中,两用户相同项目的数目; 为推荐系统中用户的数目。用H(式(9))表示 算法的平均海明距离,它表明了整个系统推荐给用户的项目所具有的多样性,距离越大,系统多样性越好。 H一 n L一1n  …∑∑h  用平均度d 来衡量推荐系统向单个用户推荐项目的多样性,由(10)式计算。 1三 (9)d 一T ->:k(0^) (10) 其中,k(0 )为用户 推荐列表L中的第k个项目的度。这样整个推荐系统的平均度D可以由式(11)计算。 D一 ∑d 置 非流行信息就越多,单个用户多样性也就越好,用户体验也就越好。 (11) 它表明了整个推荐系统推荐给用户的项目的多样性, 越小,表明推荐列表中产品的度越小,项目所包含的 由图1~图3可见,两个项目之间的相互作用对算法衡量指标有直接的调节作用。随着第1个项目权重 a的增大,图1中平均度急剧减小,而图3中海明距离增大,且排序值在a—O.7左右的时候取得最优值,但图 2中的排序值的变化确没有规律。同样在考察单个项目的度指数卢时,算法的推荐指标的整体变化更加的复 杂。图4中,在 一一2时,排序值取得了最优值,图5显示此时平均度并不是最小。由图6可以看出此时海明 距离不是最大的, 一2的时候,海明距离取得最优值。同一个 不能使推荐系统的3个指标同时最优。通过这 个两个参数,推荐系统的管理者就可以通过调节参数,直观的获得调整后的效果,从而更加便于管理。在实际 的推荐系统中,为了更好的增加用户体验,可以通过调节项目之间的相互作用以及项目自身的度来达到最佳 的效果。 恤 O O 2 O 4 O.6 0 8 1 0 圈1 用户平均度与a之间变化关系示意图 图2 算法排序值同 之间变化关系示意圈 超 番 妊 嫩 图3 海明距离随口之间变化关系示意图 图4 排序值随A之间关系变化示意图 r,L l ] 第8卷第2期 刘兆兴,等:基于协同过滤和网络结构的个性化推荐算法 r . ・49・ g h d H C y e r b 褪 器 S p a C e 2 嫩 O O O d e a n g tw  h 图5 平均度随 之间变化关系示意图 图6 海明距离随 之间变化关系示意图 n f O r m t a 4 结论 O n O V e 在本文中,通过将传统的协同过滤算法和二部图的网络结构相结合,同时考虑项目之间的相互作用,得 0 r a 到改进的推荐算法。通过基准测试集的比较知道,相比于传统的协同过滤算法,改进后算法在排序值提高很 r L J d 大。同时通过加入度指数 来调整项目的度对相似度的影响来观察算法指标的变化,平均海明距离和平均度 o 两个指标也被用来考察算法的效果。测试数据表明,对于一个特定的推荐系统,排序值,平均海明距离以及平 ] C m m 均度指标并不能同时达到,因此在算法的实际应用中,可以通过调整项目之间的相互作用以及项目自身的度 U C n 指数来获得最好的用户体验以及系统多样性。 a t O n 参考文献: S fo  t h e A C cius G.Tuzhilin A.Toward the next generation of recommender systems:a survey ofM  the state-of-the-art and [2] Adomavil 9 possible extensions[J].IEEE transactions on knowledge and data engineering,2005,17(6):734—749. 9  iu J G,Zhou T,Wang B H.research process of the personal recommendation system[J].Progress in Natural Scie, [3] I^ 7 2009,19(1):1—15. O ( abanovie M,Shoham Y.Fab:content—based,collaborative recommendation[J].Communications of the ACM,1997, 4] Bal) 2 40(3):66—72. 1 9 [5] Melville P,Mooney R J,Nagar ̄an R.Content—boosted collaborative filtering for improved recommendations[C].Pro— ceedings of the National Conference on Artificial Intelligence,Edmonton,2002:187~192. 一 rlocker J I ,Konstan J A,Terveen I G,et a1.Evaluating collaborative filtering recommender systems[J].ACM [6] HeTransactions on Information Systems(TOIS),2004,22(1):5—53. ura N,Ichihashi H,et a1.Collaborative filtering using principal component analysis and fuzzy cluster- [7] Honda K,SugiingEJ].Web Intelligence:Research and Development,2001,2198:394—402. E8] Marlin B.Collaborative filtering:a machine learning perspective[D].Toronto:Department of Computer Science Univer— sity of Toronto,2004.  aughlin M R,Herlocker J L.A collaborative filtering algorithm and evaluation metric that accurately model the user [9] McIexperience[C].Proceedings of the 27th Annual International ACM SIGIR Conference on Research and Development in In— formation Retrieva1,NeW York:ACM Press,2004:329—336. [10]Connor M,Herlocker J.Clustering items for collaborative filtering[C].Proceedings of SIGIR1 Workshop on Recommen der Systems,Berkerly,CA,1999:25—32. [1 1]O'Mahony M,Hurley N,Kushmerick N,et a1.Collaborative recommendation:fl robustness analysis[J].ACM Transac tions on Internet Technology(TOIT),2004,4(4):344—377. ・50・ 复杂系统与复杂性科学 2011年6月 [123 Kim D,Yum B J.Collaborative filtering based on iterative principal component analysis[-J].Expert Systems with Appli— cations.2005,28(4):823—830. [133 Liu J G,Wang B H,Guo Q.Improved collaborative filtering algorithm via information transf0rmatio [J].International Journal of Modern Physics C,2009,20(2):285—293. [14]Zhou T,Ren J,Medo M,et a1.Bipartite network pro ̄ection and personal recommendation[J].Physical Review E,2007, 76(4):046115. [153 Burke R.Hybrid recommender systems:survey and experiments[J].User Modeling and User-Adapted Interaction, 2002,12(4):331~370. [16]Tran T,Cohen R.Hybrid recommender systems for electronic commerce[DB/OL].[2010—04—10].https://www. aaai.org/papers/workshops/2000/ws一00—04/wsO0—04—012.pdf. [173 Solomon G,Schrum L.Web 2.0:New Tools,New Schools[M].USA:International Society for Technology in Educa— tion(ISTE),2007:5—25. [18]Zhang Y C,Blattner M,Yu Y K.Heat conduction process on community networks as a recommendation model[J]. Physica1 Review Letters,2007,99(15):154301. [19]Latapy M,Magnien C,Vecehio N D.Basic notions for the analysis of large two—mode networks[J].Social Networks, 2008,30(1):31—48. E2o]Grouplens research:about gr0uplens[DB/0L].[2010一O4—02].WWW.grouplens.org. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 7swz.com 版权所有 赣ICP备2024042798号-8

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务