第9卷第3期 2012年9月 复杂系统与复杂性科学 C0MPLEX SYSTEMS AND C0MPLEXrrY SCIENCE V01.9 No.3 Sep. 2012 文章编号:1672—3813(2012)03—0046—05 有向相似性对协同过滤推荐系统的影响研究 石珂瑞 ,刘建国 。,郭 强 。,冷 瑞 (1.上海理工大学复杂系统科学研究中心,上海200093;2.牛津大学CABDyN复杂性研究中心,牛津OX1 1HP; 3.瑞士弗里堡大学物理系,弗里堡CH一1700) 摘要:为研究用户的相似性对协同过滤个性化推荐算法的影响,认为用户的有向相 似性应该由邻居用户指向目标用户,而非由目标用户指向邻居用户。基于该思想, 提出了一类改进的协同过滤算法。通过对Movielens数据集的实验分析,结果发 现改变用户相似性的方向可大幅提高推荐结果的准确度和推荐列表的多样性。进 一步,强化相似度高的用户的推荐强度可大幅提高推荐效果,算法的准确性可提高 l7.94 ,达到0.086 4,当推荐列表的长度为10时,推荐列表的多样性可达到 0.892 9,提高20.9 。该工作表明用户相似性的方向是否合理对推荐算法具有非常大的影响。 关键词:管理科学与工程;个性化推荐;用户有向相似性 中图分类号:N99 文献标识码:A Effect of Direct Similarity on Collaborative Filtering Recommender Systems SHI Ke—rui ,LIU Jian guo ~,GUO Qiang ,LENG Rui (1.Research Centre of Complex Systems Science,University of Shanghai for Science and Technology, Shanghai 200093,China;2.CABDyN Complexity Centre,University of Oxford,Oxford OX1 1 HP,UK; 3.Department of Physics,University of Fribourg,Fribourg CH一1700,Switzerland) Abstract:In this paper,to study the effect of user similarities to CF recommendation algorithms, we argue that the similarities which should be taken into account are those come from the neigh— bor users to the target user.Based on the above idea,we present a modified CF algorithm.The numerical results on a benchmark dataset,MovieLens,show that by using the direction from neighbor users to the target user,the performance of this algorithm,including accuracy and di— versity,can be improved greatly.More importantly,we find that when enhancing the higher sire— ilarity users’recommendation power,the accuracy can reach 0.086 4,which is further improved by 1 7.94 .When the recommendation length equals to 10,the diversity reaches 0.892 9 and be further improved by 20.9%.Our work indicates that the direction of user similarity is an impor tant factor of the CF algorithm. Key words:management science and engineering;personalized recommendation;direct user simi— larity 收稿日期:2011—09—08 基金项目:国家自然科学基金(10905052,70901010,71071098,71171136);上海市科研创新基金(11ZZ135,11YZ110);教育部科学技术研究重 点项目(211057);上海市系统分析与集成重点学科(¥30501);上海市青年科技启明星计划(A类)(11QA1404500) 作者简介:石珂瑞(1986一),女,甘肃庆阳人,硕士研究生,主要研究方向为个性化推荐系统。 第9卷第3期 石珂瑞,等:有向相似性对协同过滤推荐系统的影响研究 0 引言 在线社会网络、微薄等现代通讯工具的快速发展,把人们带入了信息爆炸的时代口]。这些通讯工具为人 们的生活和交流带来便利的同时,也带来了信息冗余、信息过载的问题_】 ],即越来越难寻找到自己感兴趣的 信息。个性化推荐系统利用用户以往的选择信息,分析用户的兴趣和爱好,为用户提供个性化服务,成为了 解决信息过载问题最有效的方法之一[3]。由于个性化推荐系统已经在电子商务和电子图书馆中得到了广泛 应用,并且创造了巨大的经济效益,因此个性化推荐已经成为计算机科学、管理科学和系统科学等多个学科 的研究热点之一 。 协同过滤算法是目前得到最广泛应用的一种推荐算法_4书],它的主要思想分为两个步骤,首先寻找与目 标用户具有相同爱好的邻居用户,进而利用邻居用户的喜好对目标用户进行推荐。由于协同过滤算法对推 荐对象没有特殊要求,仅仅需要目标用户的打分信息,因此它能够对书籍、音乐、电影等难以进行文本结构化 表示的对象进行分析和推荐。最近基于物质扩散和热传导的方法已经被成功地引入到个性化推荐算法研究 中,并且取得了不错的效果_6 卜 ]。Liu等[6 将物质扩散原理引入协同过滤算法中计算用户的相似度,数值 结果发现基于物质扩散的方法可以提高推荐算法的准确度,进一步研究 。]发现基于用户相似性网络二阶信 息的协同过滤算法可以进一步大幅度提高推荐准确度。尽管基于物质扩散的协同过滤已经得到了广泛应 用,并且具有很高的准确性,但是已有的方法都是利用目标用户到邻 居用户的相似性向目标用户进行推荐,而并非按照协同过滤算法的 核心思想:利用邻居用户的偏好向目标用户推荐。图1详细介绍了 已有算法的构建思想。假设目标用户 选择了产品1和3,用户 选择了产品2和3。如果要利用 和U,之间的相似性来对目标用 户 进行推荐,已有的协同过滤算法首先计算“ 和U 的相似性,进 而利用U 指向 的相似性 对目标用户U 进行推荐。而我们认 为,按照利用邻居意见向目标用户推荐的思想,应该利用 ,指向 基于有向相似性的协同过 的相似性 对 进行推荐。 滤算法示意图 l 经典协同过滤算法介绍 协同过滤算法主要由两部分组成:首先,计算用户的相似性;其次,利用用户之间的相似性对目标用户进 行推荐。定义产品集为0一{O ,O。,…,O ),用户集为L厂一{ , ,…, ),则推荐系统可以表示为矩阵A一 {a }∈R ,其中用户U,选择了产品O ,a —1,否则a 一0。在经典的协同过滤算法中,用户 和 j的有向 相似性可以根据夹角余弦系数或Pearson系数进行计算。受到物质扩散过程的启发,Liu等人m 又提出了 基于用户一产品二分部图的用户相似性计算方法 s 一一 南 刍 其中,k(o )一∑n 表示产品o 的度。从式(1)可以看出用户的相似性是有方向的,从用户 到用户 j的相 似性S 不等于从“ 到U 的相似性S ,即S ≠8 对于用户一产品(“ ,O )来说,如果 没有选择产品O (即 a 一0),那么目标用户U 对产品O 的预测打分为 ∑ 如..J J‘ J 73 一 (2) ∑s 一1 即利用目标用户 指向邻居的相似度预测“ 对产品O 的偏好程度,其中S 为从目标用户 到其邻居用户 的相似性。然而,协同过滤的核心思想是:利用邻居用户选择产品的偏好信息对目标用户进行推荐,也就 ・48・ 复杂系统与复杂性科学 2012年9月 是利用邻居用户对目标用户的相似性进行计算。例如,A用户到B用户的相似性是0.9,而B到A的相似性是 0.01,那么在对用户B进行推荐的时候,应该使用从A到B的相似性0.9,而并非0.01。基于该思想,本文给 出了考虑用户有向相似性的协同过滤算法。 2 基于有向相似性的协同过滤算法 对于一个给定的用户 ,改进的协同过滤算法可以描述为:首先,利用式(1)计算用户之间的有向相似 性,进而利用式(3)对目标用户进行推荐。 ∑ e… n 一 (3) ∑se 一1 其中, 为考察用户相似性强度对推荐效果影响的参数,s 表示 指向 的相似性。当 一1时,所有的用户 相似性强度被赋予相同的权重;当卢>1时,相似度比较大的邻居的喜好被强化;当 <1时,相似度比较小的 邻居的喜好被加强。 3 数值试验 3.1 数据介绍 本文使用MovieLens数据集进行数值实验,MovieLens包含1 682个产品(电影)和943个用户。用户会 对自己看过的产品按照5分制进行打分,1分表示最不喜欢,5分表示最喜欢。假设用户打分大于等于3分看 做他喜欢该产品,进而构建用户一产品二部分图。删除部分连边后数据集剩余943个用户,1 574个产品和82 520条边。将数据集均匀地分为10份,用其中9O 作为训练集对用户没有选择过的产品进行预测打分,利用 其余1O 测试预测打分的准确性。 3.2 评价指标 1)准确性。本文采用平均打分排序度量推荐算法的准确性,即对用户没有选择过的产品,依据算法的预 测打分进行排序:打分高的排名高;打分低的排名低。对测试集中所有用户选过的产品的打分进行平均得到 算法的准确度。例如用户测试集中的某个产品在推荐列表中排名第5,列表长度为20,则排序打分为5/zo一 0.25,将打分的平均值(r)作为检验算法精确度的衡量指标,(r>越小,说明该产品在推荐列表中的位置越靠 前,算法的精确度就越高,反之亦然。 2)流行性和多样性。一个好的算法需要帮助用户发现一些不太流行的产品(度比较小的产品),因此推 荐产品的平均度是评价推荐质量的重要指标。推荐产品的度越大,说明该产品越流行。如果算法趋向于推荐 流行的产品,那么被推荐产品的平均度会很高;反之,如果算法趋向于推荐不太流行的产品,则其平均度会很 低。此外,对不同用户推荐的产品需要表现出相当的多样性,而准确度高的推荐算法不一定能照顾到不同用 户的需求。因此,可以利用平均海明距离(Average Hamming Distance)度量推荐系统中推荐列表的多样性, 用户U 和 ,推荐列表的平均海明距离被定义为: H 一1一Q /L。其中,L为推荐列表的长度,Q 为 表1 MovieLens数据集上的各类 推荐给用户i和用户J的两个推荐列表中相同的个 数。推荐列表的多样性定义为H 的平均值<H), S一<H>。<H)越大,算法可以提供的推荐越多样 化,反之亦然。 推荐算法的评价指标 表1中的评价指标包括准确性以及当推荐列表 长度L一50时的流行性和多样性。其中,GRM是全 局排序算法;CF是基于Pearson系数的协同过滤算 第9卷第3期 石珂瑞,等:有向相似性对协同过滤推荐系统的影响研究 法;IHMCF是基于物质扩散原理并考虑用户之间二次相似性的一种改进的协同过滤算法( 。 一0.82); IMCF是经典的基于物质扩散的协同过滤算法(Po 一2.701)。 3.3 结果分析 图2给出了邻居用户指向目标用户的推荐算法和经典物质扩散推荐算法的平均打分强度随参数卢变化 图。曲线a表示经典基于物质扩散的协同过滤推荐算法的准确度,曲线b为本文算法的结果。从中可以看出本 文提出的算法可大幅提高推荐算法的准确性。图2 a中经典算法的平均打分(r>在0.103 7附近达到最小,而 本文算法的准确度<r)可以达到0.086 4,提高了17.94 ,该结果是所有不考虑高阶信息的推荐算法中最好 的(见表1)。图2 b和C给出了推荐产品的平均度和推荐列表多样性。从图2 b可以看出推荐产品的平均度<惫> 和 负相关。当推荐列表长度L一10时,在 一3.321 4附近,推荐产品的平均度< >大约为237.193 8,较 经典基于物质扩散的算法降低了24.45 。从图2 C还可以发现本文算法的平均海明距离s和 正相关,随着 的增大而增大,且当推荐列表长度L一10时,在 多样性提高了20.9 。 一3.321 4附近,产品的平均海明距离s约为0.892 9, 0.9 0.8 0.7 0.6 0.5 0.4 0_3 口 a(r)随卢的变化 卢 b(k)随卢的变化 口 c( )随卢的变化 图2平均打分强度<r>、推荐产品平均度<七>和推荐列表多样性s随着 的变化趋势 4总结与讨论 本文细致研究了用户的有向相似性对于协同过滤推荐算法的影响,基于物质扩散的协同过滤算法上的 数值试验表明利用邻居用户的喜好向目标用户进行推荐可以得到准确度和多样性都很好的推荐结果。进一 步的实验发现,加强相似性较高的邻居的喜好信息可以将推荐准确度进一步提高到0.086 4,这是在不考虑 高阶相似度信息中准确度最高的算法,同时推荐列表的多样性也提高了20.9 。本文的算法不仅在准确度 和多样性方面有很大优势,而且在实际应用的时候也有很强的可操作性。下一步的工作将进一步关注有向 相似性对基于热传导和基于产品相似性的协同过滤算法的影响。 参考文献: [1]Adomavicius G,Tuzhilin A.Toward the next generation of recommender systems:a survey of the state-of-the-art and possible extensions口].IEEE Trans Know&Data Eng,2005,17(6):734—749. [2]Liu J G,Chen M Z Q,Chen J,et a1.Recent advances in personal recommendation systems I-J-].Int J Info&Sys Sci, 2009,5(2):230—247. [3]刘建国,周涛,汪秉宏.个性化推荐系统的研究进展[J].自然科学进展,2009,19(1):1—15. Liu Jianguo,Zhou Tao,Wang Binghong.Advanced progress of personalized recommender systems[J].Progress in Na— ture and Science,2009,19(1):1—15. [4]Herlocker J L,Konstan J A,Terveen K,et a1.Evaluating collaborative filtering recommender systems[J].ACM Trans Inform Syst,2004,22(1):5—53. (下转第75页) 第9卷第3期 王群,等:利用回归分析探测混沌振子网络中的链路 ・ 75 ・ [1O]Bu S L,Jiang I M.Estimating the degree distribution in coupled chaotic oscillator networks[J].Europhys Lett,2008, 82(6):68001. [11]吕琳媛.复杂网络链路预测[J].电子科技大学学报,2010,39(5):651—661. LO Linyuan.Link prediction on complex networks[J].J Univ Elec Scie Tech Chin,2010,39(5):651—661. [12]Frenzel S,Pompe B.Partial mutual information for coupling analysis of multivariate time series[J1.Phys Rev Lett, 2007,99(20):204101. [131 Hirata Y,Aihara K.Identifying hidden common causes from hivariate time series:a method using recurrence plots[J]. Phy Rev E,2010,81(1):016203. [14]Liang X M,Liu Z H,Li B W.Weak signal transmission in complex networks and its application in detecting connectivity [J].Phys Rev E,2009,80(4):046102. [151 Marinazzo D,Pellicoro M,Stramaglia S.Kernel method for nonlinear granger causality[J].Phys Rev Lett,2008, i00(14):144103. [16]Cand ̄s E,Romberg J.11 MAGIC:recovery of sparse signal via convex programming[PB/OL].[2011—06—18].http:in— fonet.gist.ac.kr/twiki/pub/main/Compressive Sensing/2010072711magic.pdf. (上接第49页) [5]Konstan J A,Miller B N,Maltz D,et a1.GroupLens:applying collaborative filtering tO usenet news[J].Commun ACM,1997,40(3):77—87. [6]Liu J G,Wang B H,Guo Q.Improved collaborative filtering algorithm via information transformation[J].Int J Mod Phys C,2009,20(2):285—293. [71宣照国,苗静,党延忠.基于扩展邻居的协同过滤算法[J].情报学报,2010,29(3):443—448. Xuan Zhaoguo,Miao Jing,Dang Yanzhong.Collaborative filtering algorithm based on extended neighbors[J].Journal of the China Society for Scientific and Technical Information,2010,29(3):443—448. [8]潘红艳,林鸿飞,赵晶.基于矩阵划分和兴趣方差的协同过滤算法[J].情报学报,2006,25(1):49—54. Pan Hongyan,Lin Hongfei,Zhao Jing.Collaborative filtering algorithm based matrix decomposition and interesting devi— ation口].Journal of the China Society for Scientific and Technical Information,2006,25(1):49—54. [9]Balabanovic M,Shoham Y.Fab:content—based,collaborative recommendation[J].Comm ACM,1997,40(3):66—72. [】O]Pazzani M J.A framework/or collaborative,content—based,and demographic filtering[J].Artif Intell Rev,1999,13(5/ 6):393—408. [11]Zhou T,Ren J,Medo M,et a1.Bipartite network projection and personal recommendation[J].Phys Rev E,2005, 76(4):046115. [12]Liu J,Zhou T,Che H,et a1.Effects of high—order correlations on personalized recommendations for bipartite networks [J].Physica A,2010,389(4):881—886. .