第30卷第1期 2013年1月 计算机应用与软件 Computer Applications and Software V01.30 No.1 Jan.2013 网络电视的多媒体推荐系统设计与实现 高思敏 ’ 邓浩江 刘 学 (中国科学院研究生院北京100049) (中国科学院声学研究所国家网络新媒体工程技术研究中心北京100190) 摘要 针对网络电视的多媒体推荐系统,解决两个问题:数据源获取,以及优化推荐策略。数据源获取问题,通过用户的购买, 播放等信息获得用户的兴趣度,即评分模型。优化推荐策略的问题,通过对用户进行聚类,将用户的数量级降低;用内容属性相似性 关联和协同过滤推荐相结合的推荐策略,保证足够的推荐结果和高效的推荐质量。根据仿真结果,定性地分析了关键参数的意义。 通过仿真和实际使用情况,说明该推荐系统是有效的。 关键词 中图分类号网络电视TP393 推荐系统 数据源获取文献标识码A 协同过滤 内容关联 DOI:10.3969/j.issn.1000・386x.2013.01.018 DESIGN AND IMPLEMENTATIoN oF MULTIMEDIA RECOMMENDATION SYSTEM FoR INTERNET TELEVISION Gao Simin ・ Deng Haojiang Liu Xue。 (Graduate University ofChineseAcademy ofSciences,Beijing100049,China) 。(National Network New Media Engineering Research Center,Institute ofAcoustics,Chinese Academy ofSciences,Beijing 100190,China) Abstract Two problems are to be solved aiming at the multimedia recommendation system for intemet television:the data source acquisi tion,and the optimised recommendation strategy.For data source acquisition,users’interest degrees are gained througll past information in regard to users purchase and play,i.e.the rating models.For optimised recommendation strategy,first,the order of users’magnitude is to reduce through users clustering;secondly,the recommendation strategy is employed to ensure enough recommendation results and eficifent recommendation quality,the strategy combines the similarity association of content attirbutes with collaborative filtering recommendation.The signiifcance of the key parameters are quantitatively analysed according to simulation results.The recommendation system is proved effective through the simulation and practical use. Keywords ’ . Internet television Recommendation system Data source acquisition Collaborative filtering Content association 挖掘出被推荐用户潜在的新兴趣。 0 引 言 随着网络电视平台上的多媒体内容的不断丰富,数据量不 协同过滤分为基于内容的协同过滤和基于用户的协同过滤 两种。基于内容的协同过滤推荐机制是Amazon最早提出的, 在基于用户的机制上改良的一种策略,因为在大部分的Web站 点中,内容的数量是远远小于用户的数量的,而且内容的个数和 相似度相对比较稳定,同时基于内容的机制比基于用户的实时 性更好一些 。 断膨胀,对用户而言,面对如此丰富而复杂的多媒体内容,要从 中挑选出自己真正需要的内容,好比大海捞针。近年来兴起的 个性化推荐系统成为解决这些问题的一个重要途径,在电子商 务,社交网络等领域得到广泛的应用。 本文提出了一种通过用户操作历史信息建立用户兴趣度, 即评分模型的方法;利用离线系统对用户进行聚类,降低用户数 推荐系统所使用的技术,主要可以分为三大类:①基于内容属 性相似胜的关联推荐,即通过比较多媒体内容之间的相似I生实现推 荐;②基于协同过滤技术的,即根据目标用户和历史用户的操作行 为相似l生进行推荐;③上述两种技术的混合型…。 协同过滤推荐是目前应用广泛且效率较高的一种个性化推 量的数量级,增强系统的实时性;并且在传统的基于内容的协同 过滤推荐基础上,提出了优化的推荐策略。通过课题中的实际 运用和实验仿真,说明该推荐系统是有效的。 收稿日期:2012—04—11。国家高技术研究发展计划(2011AAO1A1 02);国家科技支撑计划(2011BAH11B04);中国科学院战略性先导科技 荐技术。协同过滤推荐通过用户间的相互协助,根据用户对内 容评价的相似度分类,很容易得到相对比较精确的推荐结果,而 专项(XDA06010302)。高思敏,硕士生,主研领域:网络电视视频推荐技 术。邓浩江,研究员。刘学,副研究员。 且从邻居用户对内容的评价中得益,能够维持有效的推荐,容易 80 计算机应用与软件 2013丘 外配合,所以在网络电视的操作还不便捷的情况下,收集足够的 1传统的基于内容的协同过滤算法 传统的基于内容的协同过滤算法主要分为以下四个阶段。 (1)信息预处理,构建矩阵 评分数据很难做到。但是,用户的操作历史信息,可以通过日志 将用户的操作信息进行预处理,得到初始的用户一内容矩 阵,此时的矩阵稀疏性较大,通过用户聚类,得到处理过的用户一 内容矩阵。该矩阵E中,假设有m个用户聚类和n个内容,矩阵 是m×n阶,E 表示用户聚类i对内容 的评价。 (2)相似度计算 一 信息很容易地获取,并且它也能客观反映用户的兴趣。 在推荐策略的设计问题上,有三个要求:①要能产生数量 足够的推荐结果,只采用内容属性相似性关联推荐很多时候并 不能得到足够的推荐;②推荐质量要有一定的保证,即推荐的 结果应该是用户感兴趣的,在用户操作信息较少的情况下,采用 协同过滤推荐的质量很难保证;③产生推荐结果的实时性,即 有一定的时间要求,在数据量很大的情况下,协同过滤技术耗费 时间较多。本文采用协同过滤和内容属性相似性推荐混合的推 度量用户i和. 之间的相似性方法如下: 首先,得到用户i和用户 共同评分过的所有内容; 然后,通过相似度度量方法计算它们之间的相似性,记为 sim(i J)。本系统采用修正的余弦相似性来度量,如: 一 (1) 其中,, 表示用户i和用户 共同评分过的内容集合, 和 分 别表示用户i和用户 评分过的内容集合, 和 分别表示用 户i和用户 对内容c的评分,E 和E,分别表示用户i和用户. 对内容的评分 J。计算完用户之间的相似度后,对一个用户 u,产生一个按照相似度大小降序排列的“邻居”集合N={ , …, ,, },(0≤t≤m),“不属于Ⅳ,从 到 , sim(U,,Ui)(1≤i≤t)从大到小降序排列。 (3)计算用户邻居 根据上一步相似度计算的结果,直接找出与用户相似度最 大的前Ⅳ个用户作为最近邻居,邻居个数N由系统设定,比如 设定N=8。 (4)产生推荐 “最近邻居”集产生后,可计算用户对任意项的兴趣度和 Top-N推荐集。设用户u和相应的已选项集,Ⅱ,对任意项C的 兴趣度,按公式(2)计算: 一 prediction =E +立L— —————一∑s (“, )(rating 一Ei) (2) ∑si=1 im(u, ) 其中,E 表示用户U对所有内容的平均评价分值,i表示“最近 邻居”集中的用户,sim( ,i)表示用户 和用户i之间的相似 度,rating 表示用户i对内容c的评估值,E 表示用户i对所有 内容的平均评价分值 。按照兴趣度预测值的高低可产生目 标用户的推荐集。 2本文解决的两个问题 设计网络电视的推荐系统,要提高推荐系统的实时性和系 统的推荐质量问题。具体地讲,是要解决两个问题:①数据源 的选取:通过用户的购买,播放等信息获得用户的兴趣度,即评 分模型;②推荐策略的设计:通过对用户进行聚类,降低用户 数量的数量级,通过对传统的基于内容的协同过滤算法进行优 化,使得能产生足够的推荐结果,并且保证一定的推荐质量,即 推荐策略问题。 在数据源的选取问题上,因为收集评分数据需要用户的额 荐策略,使用离线系统对用户进行聚类,得到相应的模型,满足 系统的实时性要求。 课题中的使用和仿真结果表明,该推荐系统,在保证实时性 的基础上,推荐质量较高。 3系统的设计与实现 3.1 用户聚类 该技术主要是采用K Means聚类算法,根据用户的操作信 息,判断用户对内容的喜好程度,根据喜好程度,即用户的兴趣, 对用户进行聚类挖掘,将数量庞大的用户划分到不同的类中,产 生用户的聚类,每一类中的所有用户有比较相似的兴趣,处于不 同的类中的用户的兴趣相对区别比较大。由于聚类的过程可以 离线进行,因此可以解决随着用户空间增大而导致系统性能下 降的问题,保证有效推荐系统的实时性要求 J。 3.2数据源 3.2.1节目属性描述 网络电视的数据库中,有多媒体内容的属性信息,整理之 后,可以获取内容特征属性矩阵A。假定内容总数是n,每个内 容具有k个具有代表性的属性描述,建立如表1所示的内容特 征属性矩阵A(其中,1表示具有某个属性,0表示不具有某个属 性)。 表1内容特征属性矩阵A Attril Attrij Attri^ Item1 0/1 0/1 0/1 tIem 0/1 0/1 0/1 Item 0/1 0/1 0/1 3.2.2用户一内容评分模型 网络电视的后台数据库中,有用户对多媒体内容的操作信 息,包括:浏览详情,购买、播放、快进、快退等信息。本文结合网 络电视的特色,定义了若干规则,以期增加评分数据,减少矩阵 的稀疏性,主要规则如下: (1)用户评分在0到5之间,即大于等于0,小于等于5; (2)用户浏览某部影片详情,则相应的评分增加1; (3)用户购买某部影片,则相应的评分增加1; (4)用户完整地播放某部影片,则相应的评分增加1; (5)用户只有快进,没有快退操作,则相应的评分减少1; (6)用户既有快进,又有快退操作,则相应的评分增加1; (7)用户重复播放某部影片,则相应的评分增加1。 第1期 高思敏等:网络电视的多媒体推荐系统设计与实现 算法计算TOP—N推荐集。 81 网络电视的后台数据库中,假定用户总数是m,内容数是 n,则建立m×n维的评分用户和内容对应的用户一内容矩阵R, 如表2所示。表2用户一内容评分矩阵R Iteml ltem. ItemH U1 R1,1 RlJ R1,. U Rf1 Rij R。., ,R J R . 该矩阵是比较稀疏的,以MovieLens站点提供的数据集为 例,100,000条评分数据,包括1000个用户和1700部电影,其评 分数据占用户~内容矩阵元素数目的比例为JB= 10 00 00丽= 5.882%,是稀疏的。 3.3 系统架构 本文提出的网络电视的多媒体推荐系统架构如图1所示, 它包括以下三个子系统:①数据采集及数据库系统,采集用户 操作信息,存放在后台数据库中;②数据预处理子系统,包括两 方面功能:一是对用户进行聚类,二是对内容属性特征和用户评 分数据进行处理,以满足系统的输入格式要求;③混合加权推 荐系统,推测一个用户可能属于哪一类用户集合,然后再对聚类 用户感兴趣的内容类进一步用协同过滤子技术进行相对精确的 内容推荐。其中混合加权推荐系统是在线实时工作的,预处理 系统是离线工作的,这种架构可以最大限度地减少服务器的压 力,并提高系统的执行效率。 } r--ii… ̄…X-一 一} 广:去=: i兰 惶虱 图1 网络电视多媒体推荐系统架构图 当一个用户访问网站的时候,用户操作信息会通过服务器 传递到数据库服务器中,数据预处理子系统定期从数据库服务 器中获取用户操作的数据,然后把得到的用户一内容评分矩阵, 内容特征属性矩阵,以及用户聚类的结果提供给混合加权推荐 子系统做输入。混合加权推荐子系统根据当前用户的访问信 息,为用户做出推荐,并通过服务器呈现给用户。 3.4推荐策略 (1)根据用户一内容评分矩阵,设定聚类数目 ,对用户进 行聚类。 (2)基于项目属性特征矩阵,计算项目的属性相似性 similarityl; (3)利用协同过滤算法,基于用户~内容评分矩阵,计算项 目之间的评分相似性similarity2; (4)计算用户的最终相似性:similarity=percent× similarity1+(1一percent)×similarity2,其中,percent为项目的 属性相似性在最终相似性计算中的比重; (5)利用similarity的数值结合传统基于项目的协同过滤 4,实验及结果分析 本文采用MovieLens站点提供的数据集(http://movielens. umn.edu),MovieLens是一个基于Web的研究型推荐系统,用于 接收用户对电影的评分并提供相应的电影推荐列表。目前,该 Web站点的用户已经超过72000人,用户评分的电影超过 10000部 。 随机抽取其中100,000个评价数据,包含了1000名用户对 1700部电影的评价,并要求每个用户至少对20部电影进行了 评价,评价值为从l到5的整数,数值越高,表明用户对该电影 的偏爱程度越高。还整理出这1700部电影的19个属性的描述 矩阵A(数据由0和1表示,1表示具有该属性,0则表示不具有 该属性)。属性项如下:Action(动作片)、Adventure(冒险片)、 Animation(动画片)、Children’S(儿童片)、Comedy(喜剧片)、 Crime(犯罪片)、Documentary(纪录片)、Drama(戏剧片)、Fantasy (科幻片)、Film—Noir(悲剧片)、Horror(恐怖片)、Musical(音乐 剧)、Mysteyr(神秘片)、Romance(爱情片)、Sci-Fi(科普片)、 Thriller(悬疑片)、War(战争片)、Western(西部片) 。 评价推荐系统推荐质量的质量标准采用统计度量方法中的 平均绝对偏差MAE(meaD_absolute error)进行度量。 MAE通 过计算预测的用户评分与实际的用户评分之间的偏差来度量预。 测的准确性,MAE越小,推荐质量越高;反之,则推荐质量越低。 对于评分数据,预测的评分集合表示为{P ,P:, ,…,P },对应 的实际用户评分集合为{g】,q ,q ,…,g },则平均绝对偏差 MAE定义为: Ⅳ ∑( ) MAE=旦 (3) 实验结果如表3所示。聚类数目设定为100,选定80%的 视频内容为训练集,用本文的基于用户和内容聚类的协同过滤 算法,预测另外20%的视频内容的喜好,根据和实际结果和预 测结果的差异,采用MAE度量,得到结果。 表3给出了不同最近邻居数时,传统算法与本文算法的对 比,其中percent的取值,是使得本文的算法精度相对较高的 percent的取值。 表3不同最近邻居数时传统方法与本文算法的对比 最近邻数 传统过滤MAE percent值 本文的MAE 5 0.79856 0.105 0.7979l 6 0.79621 0.1I2 0.79503 7 0.79103 O.Il5 O.78954 8 0.78863 O.117 O.78749 9 0.7864l 0.118 0.78567 1O O.78247 O.13 0.78106 15 0.78053 O.126 0.77954 20 0.77964 0.128 0.77873 25 0.77848 . 0.13 077501 30 0.77982 O.15 077842 40 O.78152 0.15l 0.780o7 50 078924 O.15 0.79O43