您好,欢迎来到微智科技网。
搜索
您的当前位置:首页科研社交网络中基于用户画像与合作关系的学者推荐研究

科研社交网络中基于用户画像与合作关系的学者推荐研究

来源:微智科技网
分类号: G254 密级:公开

学校代码:***** 学号:**********

学术硕士学位论文

(统招全日制)

科研社交网络中基于用户画像与合作关系的学者推荐研究

作者姓名 魏全申 指导教师

张磊 副教授

学 科 管理科学与工程 培养单位 商学院 答辩日期 2020年6月16日

摘要

得益于 Web 2.0 技术的发展与普及,科研社交网络吸引着大量学者的加入。学者在网络中分享研究成果、参与话题讨论、创建研究小组,有效提高了科研效率。科研社交网络中的学术资源呈现爆发式增长,出现了“信息过载”问题。信息过载了科研人员的信息搜索能力,如何在海量学术资源中寻找满意的合作学者,已成为科研社交网络亟需解决的问题。推荐系统能够向用户提供建议和推荐项目,为用户决策提供辅助,是解决信息过载问题的有效途径。因此,将推荐系统应用到科研社交网络中,建立有效的推荐机制对科研社交网络的发展非常重要。

现有科研社交网络的推荐方法大多针对论文推荐,忽视了用户寻求合作学者的行为。而且已有的学者推荐方法主要依据用户社会关系或学者兴趣,鲜有综合学者偏好和社会关系两个角度提供学者推荐的方法。用户画像可以精准定位学者偏好,分析学者间的交互行为。合作关系反映了学者历史合作的强度,以合作关系为边,以合作强度为权重可以将学者紧密联系在一起。为此,本文结合用户的社会化信息,从科研人员用户画像和合作关系两个维度构建学者推荐模型。首先,根据学者发表的论文数量及期刊级别评估其科研能力,将学者发表论文的标题、摘要、关键字作为输入,使用 TF-IDF 和 LDA 主题模型全面分析学者的主题相似性,结合社交网络上的有用信息构建用户画像。然后,在考虑合作关系传递特性的基础上,根据历史合作关系网络分析学者间合作质量,计算学者间的合作强度,进而综合以上三个方面的推荐值实现合作学者推荐。最后,为验证本文所构建方法的有效性,在真实数据集上进行了对比实验。结果表明,在准确率、召回率和 F1值三项评价指标上,本文算法与基于用户的协同过滤算法(UCF)相比分别提升了54.2%、55.5%和54.5%,与基于词嵌入的推荐算法(Word2Vec)相比分别提升了.73%、84.61%和84.56%,与基于信任关系的推荐算法(MoleTrust)相比,在Top-10内分别提升了3.33%、26.82%和24.02%。从而,验证了基于用户画像和合作关系的学者推荐方法的可行性和有效性,为协助科研人员更准确的寻找合作伙伴提供了新思路。

关键字:科研社交网络;用户画像;合作关系网络;合作者推荐

Abstract

With the development and popularization of Web 2.0 technology, scientific research social networks attract a large number of users. Users share research results, participate in topic discussions, and create research groups on the network, which effectively improves the efficiency of scientific research. The academic resources in scientific research social networks are increasing rapidly, and there is a problem of \"information overload\". Information overload limits the information search capabilities of scientific researchers. Therefore, how to find satisfactory collaborators in massive academic resources has become an urgent problem. The recommendation system can provide suggestions and recommended items to users,which is an effective way to solve information overload. Therefore, applying the recommendation system to scientific research social networks and establishing an effective scholar recommendation mechanism are necessary for the development of scientific research social networks.

Most of the existing recommendation methods aim for paper recommendation, ignoring users’ behavior seeking cooperative scholars. And the existing studies about scholar recommendation recommend scholars and research groups based on user’s social relationships or scholar

interests. However, providing scholars’

recommendation by scholars’ preferences and social relationship is few. User portraits can accurately locate scholars' preferences and analyze the interactions among scholars. The cooperative relationship reflects the strength of scholars' historical cooperation. Taking the cooperative relationship and the cooperation intensity as the side and as the weight respectively can closely link the scholars. Therefore, this paper combines the user's social information and formulates scholars’ recommendation model from the researchers’ user portrait and cooperative relationship. Firstly, the scientific research ability of scholars is evaluated according to the number of papers and the level of journals. Next, inputting the title, abstract and keywords of papers and using TF-IDF and LDA topic model to analyze user's performance similarity and construct user profile. This paper also analyzes user's performance similarity and constructs user profile comprehensively. Then, on the basis of considering the transmission characteristics of cooperation relationship, this paper analyzes the cooperation quality among scholars according to the cooperation relationship network, and calculates the cooperation intensity among scholars. The recommendation value of the above three dimensions is integrated to achieve the recommendation of cooperative scholars. Finally, to verify the validity of the proposed method in this

paper, the comparative experiment is carried out on the real dataset. From the three aspects of precision, recall and F1, our algorithm improve 54.2%, 55.5% and 54.5% respectively compared with user-based collaborative filtering, improve .73%, 84.61% and 84.56% respectively compared with word embedding-based algorithm, improve 3.33%, 26.82% and 24.02% respectively compared with social network-based recommender system within Top-10, which verify the feasibility and effectiveness of the recommended method based on user profile and cooperative relationship, and provide new ideas for the scientific researchers to find cooperative partners accurately.

Key words: scientific social networking; user profiling; relationship network; collaborator recommendation

目 录

第一章 绪论..................................................... 1

1.1 研究背景与意义.......................................... 1

1.1.1 研究背景.......................................... 1 1.1.2 研究意义.......................................... 1 1.2 国内外研究现状.......................................... 2

1.2.1 面向科研社交网络的推荐研究........................ 2 1.2.2 关于用户画像的研究................................ 4 1.2.3 关于社会化推荐方法的研究.......................... 5 1.3 研究内容与创新点........................................ 6

1.3.1 研究内容.......................................... 6 1.3.2 论文创新点........................................ 7 1.4 研究方法和组织结构...................................... 7

1.4.1 研究方法.......................................... 7 1.4.2 组织结构.......................................... 7

第二章 相关理论概述............................................. 9

2.1 科研社交网站概述........................................ 9

2.1.1 科研社交网站的产生背景............................ 9 2.1.2 科研社交网络的发展历程............................ 9 2.1.3 科研社交网站的概念特点........................... 10 2.2 推荐系统的相关理论研究................................. 11

2.2.1 基于内容的推荐方法............................... 11 2.2.2 基于协同过滤的推荐方法........................... 12 2.2.3 混合推荐的方法................................... 16 2.3 用户画像技术........................................... 16 2.4 推荐评价指标........................................... 16

2.4.1 准确度指标....................................... 17 2.4.2 多样化指标....................................... 17 2.5 本章小结............................................... 18 第三章 面向科研社交网络的学者推荐模型构建...................... 19

3.1 问题描述与分析......................................... 19 3.2 学者研究能力评估....................................... 20 3.3 学者用户画像构建....................................... 20

3.3.1 用户标签体系..................................... 20

3.3.2 学者科研主题表征................................. 21 3.4 学者合作关系网络模型................................... 22

3.4.1 学者关系质量..................................... 22 3.4.2 合作关系传递..................................... 23 3.5 学者推荐值整合......................................... 24 3.6 本章小结............................................... 24 第四章 基于用户画像和合作关系的学者推荐实证研究................ 25

4.1 数据收集............................................... 25 4.2 实验设计............................................... 30

4.2.1 用户画像模型..................................... 30 4.2.2 学者研究能力评估................................. 32 4.2.3 合作关系质量评估................................. 33 4.3 实验结果与分析......................................... 33

4.3.1 参数选择......................................... 33 4.3.2 对比实验和分析................................... 36 4.4 本章小结............................................... 37 第五章 总结与展望.............................................. 38

5.1 研究总结............................................... 38 5.2 研究展望............................................... 38 参考文献....................................................... 40 致谢........................................................... 44 在校期间发表的论文............................................. 45 学位论文独创性声明............................................. 46 学位论文知识产权权属声明....................................... 47

第一章 绪论

1.1 研究背景与意义

1.1.1 研究背景

Web 2.0 技术的发展与普及推动着社交网络的快速兴起,促进了全球信息的交互和共享。许多网站开始借助社交网络来拓展业务,但在科研领域,综合性的大众社交平台无法满足科研人员在科研过程中的知识交流与成果分享等需求。自 2000年起,国内外出现了服务于科研人员特殊科研需求的社交平台,如ResearchGate、Mendeley、学者网、科研之友等。用户可以在平台上发布自己的研究成果、获取和下载他人学术成果、关注其他学术问题的讨论、加入科研社群寻求潜在的合作机会。科研社交网络的出现,改变了传统的科研交流方式,促进了全球范围内的科研合作,加快了科学研究效率。随着科学研究的日渐深入,科研难度逐渐加大,的学者、科研团队难以满足研究课题的需求,科学研究对学术合作提出了更高的要求。然而,注册用户和用户生成内容的激增,使得科研社交网络与大众社交平台一样,出现“信息过载”问题,截至 2018年10月,中国科技人员共发表国际论文 227.22 万篇,以第一作者的合作论文共计 67902 篇[1]。用户需要花费大量时间和精力甄选其感兴趣的学者。

科研社交网络为科研人员的研究工作提供了良好的支撑平台,但是如何高效快捷的帮助用户获取学术信息,与潜在合作学者建立联系是提升科研社交网络服务的关键。合理的推荐技术是解决此类问题的有效途径之一。其中,学者推荐是科研社交网站重要的服务内容,其任务是寻找与目标学者具有相似研究领域或研究兴趣的学者。科研社交网络中用户交流的不断深入,促成了有着共同研究兴趣、研究方向的用户之间建立合作关系、创建交流小组。这种社会化关系在科研社交网络的推荐方法中起着重要作用,因为人们在进行决策选择时会考虑多方面因素,但更倾向于接受其信任好友的建议[2]。社会化信息作为推荐系统重要的附加因素已应用在许多领域,显著地提升了推荐精度和性能。用户画像通过剖析用户在不同属性上的特征,可以精准定位用户偏好。将用户画像与推荐系统结合,进而可以根据用户偏好的附加信息有针对性地提供推荐。因此,构建面向科研社交网络的社会化学者推荐系统,辅助科研人员从海量学术资源中寻找其感兴趣,成为学术界研究的热点问题。 1.1.2 研究意义

相比于国外的研究现状,国内面向科研社交网络的研究多集中在用户行为分析、科研社交网络的发展趋势和应用现状等方面。因此,深入研究面向科研社交

网络的学者推荐方法,对推动国内科学研究的长足发展具有重要的理论意义与实践价值。

1)理论意义。本文从科研社交网络独有的学术性和专业性角度出发,引入科研社交网络中广泛存在合作关系,以基于用户画像和协同过滤的相关研究为基础,将学者研究能力、兴趣相似度和合作关系质量三者相融合,构建一种结合用户画像和合作关系的学者推荐模型。本文的研究使得面向科研社交网络合作学者推荐理论得以丰富,为未来相关研究打下了坚实基础。

2)现实意义。在信息过载的社会情况下,如何快捷精准的获取科研社交网络用户所需信息的关键是构建合理的学者推荐机制。本文从用户兴趣相似度和合作关系两个方面分析用户行为偏好,构建学者推荐模型。将本文模型应用到实际推荐场景中,可以减少学者搜索时间,提高学科交流效率。为建设健全学者推荐机制提供有效的参考建议。

1.2 国内外研究现状

1.2.1 面向科研社交网络的推荐研究

科研社交网络是一种专注于为科研工作者提供在线支持、资源分享、科研合作的新型的非正式交流平台[3,4,5]。它既保持了普通社交网络的快捷交流的优势,还兼顾着科研人员对科研工作专业性和严谨性的需求。近年来,针对科研社交网络的推荐问题研究主要分为论文推荐、学者推荐两种。

1. 论文推荐

科研社交网络的论文推荐旨在帮助学者找到其感兴趣的学术资源,主要的推荐方法归纳为以下三种:基于内容的推荐,基于协同过滤的推荐以及基于混合策略的推荐。

基于内容的论文推荐方法通过收集用户历史感兴趣的论文的文本数据,如标题、摘要和关键词、内容等半结构化数据,构建论文内容特征与用户偏好特征。然后向目标用户推荐特征相似度高的论文[6-7]。陈长华等(2019)通过提取文本特征来表示论文的关键信息,然后利用Word2vec生成词向量,采用基于时间加权的相似度度量方法计算论文间的相似度,最后根据相似度结果生成论文推荐列表[8]。谭红叶等(2016)将关键词作为作者兴趣标识,利用论文文本中关键词之间的同义关系、上下位关系和共现关系构建知识脉络,结合基于内容过滤的方法为作者推荐科技论文[9]。熊回香等(2019)根据论文的引用与被引关系,运用Word2vec 分析引文间的内在联系推荐相关论文[10]。杨辰等(2019)在用户语义层面和社交关系的距离的角度构建主题模型,利用非监督的融合策略整合文本相似度、标签相似度和群组相似度,为用户推荐电子文献[11]。房小可等(2019)[12]以虚拟学术社区为研究对象,将时间、地点、情绪、研究方向等情景语义信息构

建情景语义层次模型,并将情景语义信息融入相似度计算中以实现虚拟社区的知识推荐。由于文本特征难以准确抽取,基于内容的论文推荐的效果往往不理想,而且其推荐结果与学者历史数据相似,缺乏多样性,无法提供广泛、多样的学术文献。

基于协同过滤的论文推荐方法根据目标用户志同道合的其他用户或与目标用户偏好有相似特征的文章为媒介,向目标用户推荐文章。Bogers等(2008)通过对CiteULike网站上的真实数据实证分析,发现基于用户的协同过滤方法性能最好[13]。Wang等(2011)提出了一种协同过滤和概率主题模型的混合推荐模型,向在线社区的用户推荐科学文章,有效缓解了冷启动问题[14]。为解决协同过滤固有的稀疏性和冷启动问题,一些研究尝试将社会化关系引入论文推荐中。Lee 等(2010)同时将用户的群体信任与个人信任引入传统的协同过滤方法中进行论文推荐[15]。Lai等(2010)针对用户的不信任场景,提出了一种混合群体信任和个人信任模型[16]。该模型将具有相似偏好的用户组成一个群组,利用群组信任可以增强个人信任,然后将其信任模型得到的信任值作为协同过滤方法中的权重以确定可信推荐者。

基于混合策略的论文推荐方法是利用混合策略将多种推荐方法的论文推荐结果协同组合起来,生成推荐列表。Kim等(2011)提出了一种两阶段的混合推荐方法[17]。首先,使用基于内容的推荐方法,提取图书的关键词特征计算相似度,采用近邻的方式预测候选列表;然后使用目标用户的关键词剔除不相关的图书,形成最终的推荐列表。Hwang等(2010)提出基于合作网络的、针对特定情境的可切换的混合论文推荐策略[18]。该策略可以在基于内容和基于协同过滤方法上实现自由切换。结果表明,混合推荐方法比单独使用一种方法具有更好的推荐效果。Wang等(2018)考虑到用户的偏好和选择容易受到朋友的影响,将社会朋友信息纳入标准的协同过滤中[19],并将社会标签信息融入到基于内容的协同过滤中,结合二者给出最终的推荐列表。

2. 合作学者推荐

关于学术合作学者的推荐研究可以分为基于学者研究内容的推荐和基于合作关系的推荐。其中,基于研究内容的推荐通过分析学者发表文本信息,借助TF-IDF加权模型[20,21]、主题模型[22,23]、深度学习[24]等表征学者研究内容,进而得到学者与用户需求的匹配程度,从而将匹配程度高的学者推荐给目标用户。这类方法考虑用户研究内容的相似性,适合推荐同领域下的合作学者。与TF-IDF加权模型相比,考虑文本间的语义联系的LDA(Latent Dirichlet Allocation)主题模型,能够较好反映学者的兴趣爱好。刘萍等(2015)针对作者-关键词网络,将社区划分与LDA主题模型结合构建学者兴趣模型,并利用距离算法计算学者间的相似度进行推荐[21]。蒲姗姗等(2018)提出了一种知识互补的专家推荐模

型,通过聚类的方式将不同知识结构和研究方向的专家凝聚成专家组群,作者不再以距离算法为依据,而是从专家组群中遴选出最有影响力的专家作为潜在合作者[22]。熊回香等(2018)融合基于内容和协同过滤的思想,在计算相似度时考虑用户-资源-标签3个维度,运用LDA主题模型挖掘潜在语义关系,提高推荐质量[24]。李仲等(2019)根据稀疏分布式表征理论对作者论文内容进行特征表示,并采用重叠数获取作者与其他作者研究内容的相似性,与TF-IDF和LDA主题模型的方法对比,该方法取得了更优的推荐结果[25]。

基于合作关系的推荐方法通常以作者为节点,以作者间的合作为边,建立作者合作网络。运用社会网络分析方法,根据网络中各种指标,预测当前未连边的节点在未来产生连边的可能性,根据预测结果进行推荐。Yang等(2012)认为社会关系近的学者研究主题趋向于一致,利用语义相似度与社交距离计算需求与学者研究方向的相关性[26]。Li等(2014)从作者顺序、关系建立的时间和频次三个方面,构建了合作网络的学术随机游走推荐模型[27]。汪俊等(2015)基于专家网络特征,使用有监督的链接预测方法生成专家推荐结果[28]。基于合作关系的方法其推荐结果只是因为与目标用户的社会关系较近而被推荐,被推荐者与目标用户的研究方向可能不同。

少数学者尝试结合作者研究内容和作者间的合作关系来进行推荐。夏秋菊等(2014)通过分析不同实体间的关系如学者间的合作关系、机构间的合作关系,结合学者知识结构计算相似度,进而实现学者推荐[29]。李江等(2017)考虑了学者间的各种形式的关联关系,融合学者专长吻合度、学术影响力、社会关联值三个变量构建专家库来进行专家推荐[30]。其中专长吻合度由专家研究成果的关键词表示,学术影响力依赖于专家的H指数和职称、基金项目等,社会关联值通过合作关系、师生关系、同事关系等计算得出。熊回香等(2019)[31]认为传统的LDA主题模型将语料中的文档赋予相同的权重不适用于学者推荐情景中。通过分析论文、G指数对研究主题分布的影响,改进了传统的LDA主题模型,从学者学术能力和合作关系网络两个维度构建学者推荐模型。 1.2.2 关于用户画像的研究

用户画像将用户看作具有不同维度属性的对象,通过剖析用户在不同属性上的特征,揭示用户在不同方面的表现和特点,进而有针对性地提供产品或服务。随着用户画像在精准营销[32]、用户行为分析[33]、个性化服务[34]等领域的广泛应用,关于用户画像的研究也逐渐深入。

用户画像(User Profiling)的概念最早由Alan Cooper提出,他将用户画像定义为用户真实数据的虚拟代表[35],后续研究者在此基础上不断扩展延伸。根据分类的标准不同,用户画像可以分为多种类型。从研究主体的角度,可以分为

基于个体的用户画像和基于群体的用户画像[36]。按照使用情境可以划分图书馆读者[48]、知识社区[43]、科研学术[37,45]的用户画像。综合来看,用户画像的核心在于用户标签体系和用户特征识别。由于应用场景的差异,用户属性维度划分不尽相同。从时间的角度,用户的特征数据可以分为静态信息和动态信息[38]。静态信息是与用户个人相关的相对稳定的信息,如性别、年龄、教育背景等人口统计学信息。动态信息为用户检索记录、好友列表、用户位置等可能变化的信息[39]。从用户情景属性角度,可以将用户画像的维度划分为自然属性、社交属性、兴趣属性和能力属性[40]。针对不同的应用场景,用户属性特征挖掘时采用的方法也存在差异。Campos等(2019)通过对文本数据聚类建立专家画像,来捕获专家潜在兴趣主题,有效提高了专家查找和文档过滤的性能[41]。王凌霄等(2018)使用基于统计的方法,从用户资历、用户参与度、用户回答质量以及用户发展趋势4个方面构建社会化问答社区用户画像,为用户层面的甄别提供帮助[42]。范晓玉等(2018)从科研人员的基础属性、研究偏好和科研关系3个方面提出了多源数据的科研人员用户画像构建方法[43]。该方法可以辅助科技管理者及时动态的了解科研人员信息,提高评审专家推荐以及团队组建的效率。刘海鸥等(2018)通过LDA主题模型对用户的兴趣话题进行计算,建立融合用户兴趣的画像模型,该模型可在一定程度上发现用户的潜在兴趣[44]。 1.2.3 关于社会化推荐方法的研究

推荐系统涉及大量的用户行为数据与项目信息,然而传统的推荐系统仅考虑用户评分,难以提供准确地推荐,引入用户画像[45]、地理位置[46]等额外的信息源是解决这类问题简单而有效的方法。在广泛运用的社交网络中,人们选择服务时,经常通过自己的关系网络来获取亲友的意见和建议。因此,用户之间的社会关系可以作为提升推荐质量的重要信息源。

从推荐对象角度,用户的社会关系可分为局部信任或全局信任[47],局部信任中两个用户之间有明确的信任关系,如用户在Epinions网站上的信任列表或者上的“好友列表”。在计算信任度时,对于没有直接信任关系的用户,使用信任传播算法来估计信任值,信任传播最短路径总能比其他路径提供更准确的结果[48],由于传递过程中用户间的信任值不同,在信任传播时,高信任值长链的用户比低信任值的短链用户更具可靠性[49],这其中还需要考虑长链传播过程中信任的衰减程度[50]。MoleTrust[47]和TidalTrust[48]是基于信任推荐的经典算法。TidalTrust算法采用广度优先搜索算法探索信任传播路径,信任路径的长短完全取决于用户的信任网络,最后将多条路径的信任值加权平均来计算用户的信任值。MoleTrust算法不同于TidelTrust,在计算信任值时,允许指定搜索信任传播路径长度的阈值,最后使用协同过滤的方式预测评分。由于局部信任涉及用户安全和

隐私等问题,信任列表难以获得,这就需要找到一种方法来表示社交网络中所有节点对目标用户的综合影响,即全局信任(也称为声誉)[51],常用的方法包括PageRank[52],领域专家法[53],通过社交网络中的物理统计量来计算用户的全局信任度。显然,与全局信任度相比,计算局部信任的时间复杂度更高,主要在于局部信任度需要挖掘两个用户之间所有的信任传播路径。为降低算法的复杂度以及更准确的寻找信任传播的最优路径,一些学者使用启发式算法如遗传算法[54]、蚁群算法[55,56]对信任网络进行深度优先探索,以适应度为权重选择目标用户最优邻居参与项目推荐。通过对比局部信任和全局信任的优势和劣势,发现用户的局部信任比全局信任更准确[57],只有在用户信任网络规模较小时,全局信任的作用才能明显发挥[58]。Kim等(2011)通过实验比较了几种能够推断信任值的策略,并指出所有路径的加权平均聚合在预测用户信任值方面是最准确的[59]。

综上国内外研究现状可以发现:一、面向科研社交网络的研究大多针对论文推荐,学者推荐的研究相对较少。而寻找合适的学者进行学术交流与分享,寻求潜在合作意向这一需求会激发学者推荐的研究走向深入;第二,虽然国内外基于科研社交网络开展了深入研究,然而鲜有将用户画像技术引入到社会化推荐模型中的文献发表。

1.3 研究内容与创新点

1.3.1 研究内容

本文拟在系统地梳理面向科研社交网络推荐方法的相关理论基础上,考虑科研社交网络的自身特性以及其包含的大量可用的社会化信息,从用户画像和合作关系两个角度分析并构建学者推荐方法,进而在真实科研社交网络数据集上验证所提方法的可行性,并与其他推荐方法进行对比。

第一,梳理科研社交网络、用户画像和推荐系统的相关理论。从概念定义、产生背景、发展历程方面详细介绍科研社交网络;分类总结推荐系统的方法原理及其优势和局限性,并梳理目前科研社交网络的推荐方法和社会化推荐方法的国内外研究现状。

第二,在科研社交网络和协同过滤方法理论基础上,考虑到科研社交网络中数据稀疏性、社会化信息分析不全面等问题,综合用户画像和合作关系两个角度构建学者推荐模型。

第三,从科研社交网络上抓取学者数据、成果数据、历史合作学者等信息,对所构建的推荐方法进行去重、清洗、分词等预处理,构建推荐模型并进行实证分析。并与传统的基于用户的协同过滤、基于信任关系的社会化推荐算法以及基于词嵌入的推荐算法进行对比分析。

1.3.2 论文创新点

与已有研究相比,本文的创新点主要体现在以下三个方面:

(1)结合科研社交网络广泛存在的社会化信息,综合用户画像和合作关系两个角度构建推荐模型。

(2)建立合作关系网络模型时,在分析学者合作关系建立的时间、频次的同时考虑关系传递特性,将更多尚未合作的用户纳入到模型中,缓解了数据稀疏性问题。

(3)所构建的推荐模型综合考虑学者研究能力、兴趣相似度、合作关系质量三个方面的评分进行学者推荐,实验结果证明了其有效性和稳定性。

1.4 研究方法和组织结构

1.4.1 研究方法

本文使用的研究方法主要包括: (1)文献研究方法

对国内外的相关文献进行归纳,分析目前研究存在的问题并进行方法演绎,从而为本文的研究提供相关的理论和方法基础。

(2)数学建模方法

使用网络爬虫抓取学者数据,通过自然语言处理技术对文本信息进行量化和特征提取,构建用户画像指标并形成用户画像模型。并以此为基础,将学者的合作关系引入协同过滤方法中,构建基于用户画像和合作关系的学者推荐方法。

(3)实验分析方法

使用Python 3语言编程实现所提出的推荐算法。然后基于真实数据集设计合理的实验框架、实验步骤等,并将其与其它方法进行对比来检验其有效性。 1.4.2 组织结构

本文一共分为五章,论文组织架构如图1.1所示,具体内容如下: 第一章是绪论,首先总结了研究背景和研究学者推荐的意义,然后对国内外科研社交网络推荐和社会化推荐的研究现状进行深入剖析。最后对本文的研究内容、创新点以及研究方法作了详细阐述。

第二章是科研社交网络和推荐系统的基础理论。分别解释了科研社交网络、推荐系统、用户画像的相关概念,并列举几种常用的推荐性能评价指标。

第三章是基于用户画像和合作关系的学者推荐建模过程。阐述了学者画像模型和合作关系网络模型的构建过程以及推荐列表生成步骤。

第四章是模型的实证分析。首先介绍了数据集的爬取策略、文本数据预处理等过程。然后利用LDA主题模型进行用户兴趣相似度的计算,利用合作关系网

络进行学者合作关系质量评估。综合学者研究能力、兴趣相似度、合作关系质量评分生成推荐列表。最后,介绍本文对比实验的设计过程及使用的评价指标。通过抓取到的真实数据集对所构建方法的可行性和有效性进行验证。

第五章结论与展望。对本文的研究进行简单总结,并提出下一步的研究方向。

文献收集整理分析国内外研究现状问题识别方向思路发现问题科研社交网络用户画像协同过滤相关理论理论基础问题描述基于用户画像和合作关系的学者推荐模型模型构建数据抓取数据预处理对比分析模型实现实验分析参数讨论结论结论展望展望

图1.1 论文组织架构

第二章 相关理论概述

本章主要对涉及到的相关理论进行介绍,主要包括科研社交网络的产生发展历程、协同过滤的分类及方法原理、用户画像的构建过程。

2.1 科研社交网站概述

2.1.1 科研社交网站的产生背景

科研社交网络的诞生主要是信息技术与科研人员个性化需求共同作用的结果[3]。一方面,网络信息技术,特别是Web 2.0技术的迅速发展,带来了信息交流方式的变革。社交网络是 Web 2.0 的典型产物,使得人们彼此之间联系变得更加的容易,这对科学研究的发展起到了巨大推动作用[60]。另一方面,学术交流与社交工具的结合使用。广大科研人员在其学术交流的过程中,根据自己的不同需求恰当地选择不同社交工具,这有效地提高了他们的科研产出。由于科学研究的专业性和严谨性,面向普通大众设计的社交网络平台所不能满足科研人员在学习和研究过程中的信息交流,如科研人员的研究成果分享、学科前沿研究动态的交流等[61]。最后,随着科学研究的深入,科研课题的研究内容难度也逐渐加大,研究课题要求研究人员具有多领域的专业知识,的科研人员、科研机构等已经难以满足研究课题的需求。越来越多的科学研究迫切需要通过学术合作来推动发展。因此,面向科研领域的社交网络应运而生。 2.1.2 科研社交网络的发展历程

国外自2000年起便开始着手建设专业性、学术型的社交网站,如SciLinks、CiteULike等,专门为科研人员提供文献获取、分享服务,其社交特性还不明显。到2008年,以Mendeley、ResearchGate和Academia.Edu等为代表的科研社交网络开始线上运行。大量的科研人员通过科研社交网络与其他科研工作者沟通交流。2008年发布的Mendeley平台既满足了用户发布个人成果、管理文献的需求,又允许用户创建在线讨论小组,邀请成员参加、讨论话题,在组内上传或下载文件,进行学术交流,目前已有超过600万的参与用户。Mendeley 不仅能保证用户社交需求,还提供了别具特色的文献管理功能。当用户向个人数字图书馆上传文档时,Mendeley会自动提取文献的题录信息如题目、作者、出版年份等,满足科研人员各个维度的文献管理需求。Academia.Edu和ResearchGate平台都可以为研究人员提供获取各类最前沿、最经典的学术资源、实验数据以及科研成果等的渠道。Academia.Edu拥有着与社交网络一样的关注机制,允许用户相互关注,建立自己的研究兴趣标签,并向用户推荐与其研究兴趣相似的文献和合作学者。ResearchGate不仅提供推荐服务,还支持问题在线解答功能,允许用户在线提问,

以寻求其他学者答案或回答其他学者问题。到目前为止,Academia.Edu的注册用户已超过1.17亿人,超过1500万科研人员在ResearchGate上分享他们的研究成果。

国内的科研社交网络成立较早,但兴起较晚。自2000年开始,我国就出现以小木虫为代表的科研社交论坛。随后在教育部的引导下,如科学网、百度学术、学术圈、小木虫等迅速兴起。依据我国科研社交网络的主要功能将其分为研究共享型、资源共享型和成果共享型三大类[5]。其中,研究共享型主要为科研人员提供项目合作工具,包括科学资料库、专用社交工具与研究平台等;资源共享型主要为科研人员的交流合作提供文献资源管理工具,并推荐合适的学者、团队和资源;成果共享型主要帮助研究人员进行学术成果的发布、评价、推广和应用。各类型中具有代表性的网站如图2.1所示。科学网是一个以在线答疑为核心的在线学术交流社区,百度学术在提供学术资源管理的同时,允许用户之间彼此关注。总的来说,我国现有的科研社交网络的功能大多集中在学者成果公布和学术资源共享,但在学者交流活跃性、文献资源管理、信息公开性等方面存在许多有待改善的地方。

资源共享型百度学术CNKI学者圈小木虫学者网天玑学术圈科研之友科学网研究共享型成果共享型

图2.1 国内科研社交网络分类

2.1.3 科研社交网站的概念特点

国内外学者对科研社交网络的研究范围不同,对其定义的内涵也各有不同。Thelwall等(2014)认为科研社交网络是一个宽泛的概念,是能够帮助研究者建立社会网络和促进研究合作的一种在线服务平台[62]。Wei等(2015)着重强调了科研社交网络应该涵盖的服务内容[63]。在国内,学者又将科研社交网站称为学术社交网站,国内学者王曰芬对科研社交网站做了明确定义:以促进知识的交流与传播为目标,致力于协作科研人员构建和维护学者间的学术关系网络,并且可以在线支持科研活动的服务或平台[4]。

作为一种在线科研服务平台,除了具有一般社交网络的特点,科研社交网站主要展现了以下几个特点:

(1)自主选择性。用户自主选择自己的科研成果与学术资源,通过平台与其他科研工作者分享。

(2)以用户和兴趣为核心的自动推荐服务。科研社交网站通过收集用户的相关信息、研究兴趣以及研究动态,向用户推荐其感兴趣的研究热点与科研合作者,避免数据过载造成的负面影响。

(3)文献管理功能。支持对个人发表成果、参考书目和引用文献的管理,可以方便浏览分享用户当前的状态。

(4)开放的协作平台。为每个注册用户均提供在线创建小组,参与话题讨论,分享学术成果等活动支撑服务。

(5)信息真伪性难以保证。由于用户自主发布个人信息、研究成果,网络没有统一监管服务,因此信息的可信度需要用户自行鉴别。

2.2 推荐系统的相关理论研究

总结现有研究,可以将推荐系统分为以下三类,如图2.2所示。

推荐系统基于内容的推荐协同过滤基于混合策略的推荐基于内存的协同过滤基于模型的协同过滤基于用户的协同过滤基于项目的协同过滤基于聚类的协同过滤基于矩阵分解的协同过滤基于贝叶斯网络的协同过滤 图2.2 推荐系统分类框架

2.2.1 基于内容的推荐方法

基于内容的推荐系统(Content-based Filtering,CBF)通过分析用户历史喜欢的项目的特征,为用户推荐与其历史兴趣相似的项目[]。其核心思想是为用

户推荐与其历史项目内容最相似的项目。CBF的过程一般包括三步,下面以文档推荐为例:

首先进行文档特征抽取,文档属性可以分为结构化属性和非结构化属性,结构化属性如作者、题材、出版社、发表时间等,可以在推荐过程中直接使用。非结构化属性需要通过特征提取转化为结构化数据才能使用。常用的抽取模型为空间向量模型,该模型将文档抽象成一个向量。但这种方法把文档中每个词视为同等重要的,但事实上有一些词对文档表征更重要。词频-逆文档频率(term frequency–inverse document frequency,TF-IDF)是基于统计学的文本词语加权方法,常用于评估一个单词在文档或语料库中的重要程度。令文档集合为

D{d1,d2,,dn},而文档中出现的词为T{t1,t2,,tm},如公式2-(1)所示。

tfidf(w,d)tf(w,d)idf(w)

2-(1)

其中,tf(w,d)表示词频,即词w在文档d中出现的次数,idf(w)为逆文档频率, 为避免某一词在文档中未出现导致的分母为零,采用公式2-(2)所示的“平滑+1”方法计算。

idf(w)log(1Dc)11df(w,d)

2-(2)

其中Dc为文档总数,df(w,d)为包含词w的文档总数。

然后,刻画用户特征向量。根据用户的历史浏览文档的向量,通过平均值、向量拼接等方式刻画用户特征向量。

最后,产生推荐列表。通过相似度度量公式计算用户特征向量与待推荐文档的相似度,按相似度大小排序形成推荐列表。

CBF 的优点以下几个方面:1)性。用户的兴趣只需要根据用户的历史偏好信息得出,与他人无关。2)可解释性。通过分析文档的内容特征,可以很好的解释推荐原因。3)解决项目冷启动。若新文档特征和以往文档的特征相同时,新文档与以往文档被推荐的概率相同。

CBF 也有一些缺点:1)特征抽取困难。对于非结构化数据如图片、音频、视频等很难准确的抽取出项目的特征。2)推荐项目单一。CBF 只会推荐与用户过去偏好相似的项目,无法针对用户潜在的兴趣进行推荐,故推荐列表的多样性较差。

2.2.2 基于协同过滤的推荐方法

协同过滤算法(Collaborative Filtering,CF)目前被认为最成功、应用最广

泛的个性化推荐算法之一。协同过滤的思想在于社会中的个体存在紧密联系,并非相互的。因此,可以通过与其他用户协同的方式进行推荐。基于协同过滤的推荐可以进一步划分为基于内存的协同过滤和基于模型的协同过滤。

1. 基于内存的协同过滤

基于内存的协同过滤其核心思想在于根据用户的历史评分数据,寻找与其有相似偏好的近邻用户,利用近邻用户对项目的评分来预测目标用户的可能评分,进而推荐项目[65]。基于用户的协同过滤主要分为三个步骤:

(1)构建评分矩阵:对数据预处理,构建用户-项目评分矩阵,如表2-1所示。其中Ri,j表示用户ui对项目vj的评分。

表 2-1 用户-项目评分矩阵表

item user u1 u2 … ui … um

v1 R1,1 R2,1 … Ri,1 … Rm,1

v2 R1,2 R2,2 … Ri,2 … Rm,2

… … … … … … …

vj R1, j R2, j … Ri, j … Rm, j

… … … … … … …

vn R1,n R2,n … Ri, n … Rm,n

(2)获取目标用户邻居集合:根据用户-项目评分矩阵,每个用户都可以用评分向量进行表示。根据相似度公式计算用户间的相似度,按相似度大小排序得到目标用户的邻居集合。其中,寻找相似用户或相似项目是协同过滤的主要环节。

常用的相似度计算公式有余弦相似度、修正的余弦相似度和Pearson相关系数三种。余弦相似性度量方法是通过计算用户评分向量间的余弦夹角来度量用户间的相似性,向量之间余弦值越大,说明用户间的相似度越高。假设用户ui和uj的评分向量为Ru和Ru则用户ui和用户uj的余弦相似度sim(ui,uj)为:

ijsim(ui,uj) Rui  RujRui Ruj22 2-(3)

修正的余弦相似性度量方法通过对用户评分向量的去中心化操作,对每个评分维度进行了有效修正。则用户ui和用户uj的相似度计算公式为:

sim(ui,uj)cIui,ujcIui,uj(Rui,cRui)(Ruj,cRuj)2(Rui,cRui)cIui,uj(Ruj,cRuj)2

2-(4)

其中,用户ui 和用户uj 共同评分的项目集合为Iui,uj;Ru,c和Ru,c分别表示用户

ijui和用户uj对项目c 的评分; Ru和Ru表示用户ui 和uj 的评分均值。

ijPearson相关系数主要用来衡量两个变量之间的相关性,其计算公式为:

sim(ui,uj)cIui,ujcIui,uj(Rui,cRc)(Ruj,cRc)2(Rui,cRc)cIui,uj(Ruj,cRc)2

2-(5)

其中,Rc表示所有用户对项目c所有评分的均值。

(3)产生推荐:运用评分预测公式对目标用户未评分的项目进行评分预测,将评分最高的N个项目推荐给目标用户,评分预测公式如下:

Pui,vRuiujUksim(ui,uj)(Ruj,vRuj)ujUk(sim(ui,uj))

2-(6)

Uk为用户ui的邻居集合,其中,sim(ui,uj)标识用户ui与用户uj之间的相似度,

Ruj,v表示用户uj对项目v的评分。

2. 基于模型的协同过滤

基于邻域的方法易于理解和实现,但由于评分数据的稀疏性,相似度难以反映用户间的真实距离。基于模型的推荐不依赖用户间的相似度,而是通过建立模型进行评分预测,利用已有数据优化模型参数,从而得到模型最优解。常用的建模方法包括聚类[66-68]、贝叶斯网络[69],深度学习[70,71],矩阵分解[72]等。其中,矩阵分解(Matrix Factorization,MF)是目前最为广泛研究的一类方法。

矩阵分解模型将高维数据映射到低维潜在子空间中,从而捕获数据的隐含特征。对于用户-项目评分矩阵Rmn,假设可以将其分解成为两个较低纬度的矩阵

Pmk和Qkn,并使其乘积与原始评分矩阵误差最小,构建损失函数:

Lri,jpi,kqk,j

ijk1mnK22-(7)

其中,Pmk表示m个用户的潜因子特征向量矩阵,Qkn表示n个项目的潜因子向量矩阵,k为潜因子个数。

求解损失函数的方法通常采用梯度下降法,当误差值收敛到最小值时,预测值与真实值最相似。损失函数的负梯度计算如公式2-(8):

K2e2(ri,jpi,kqk,j)qk,j2ei,jqk,jpi,ki,jk1K2ei,j2(ri,jpi,kqk,j)pi,k2ei,jqi,kqk,jk1

2-(8)

根据负梯度的方向更新变量:

pi,kpi,k2epi,k2ei,jqk,jpi,ki,j2qk,jqk,jei,jqk,j2ei,jpi,kqk,j

2-(9)

当预测值误差收敛到最小时,用户特征向量与项目特征向量的乘积为该用户的预测评分,如公式2-(10)所示:

Ri,jPiTQj

2-(10)

不同于基于内容的推荐方法对项目内容的分析,CF算法的优点主要表现为:1)适用范围广。CF算法不依赖于项目内容的分析,根据用户评分数据进行推荐。对于没有可提取内容的用户,仍能提供推荐项目。2)易于发掘用户的潜在兴趣。根据相似用户或相似项目进行推荐,增加了用户潜在兴趣发掘的可能性。

CF算法也有其不足的地方:1)数据稀疏性。CF算法主要依靠评分数据来进行推荐,然而在实现中评分数据常常很稀疏。稀疏的向量会导致用户间的相似度计算不准确。 2)冷启动问题。对于评分信息较少的用户,协同过滤算法无法准确找到其相似近邻,造成推荐结果不准确。对于没有用户评分数据的新项目,这样的项目无法通过CF方法推荐给用户。

2.2.3 混合推荐的方法

基于内容的推荐和协同过滤推荐都有各自的优缺点,基于混合策略的方法(Hybrid Filtering,HF)是将基于内容和基于协同过滤的两种方法进行结合,实现它们之间的协同作用。这样做既保留两者的优势,又可以在很大程度上避免其局限性,提高模型的适应性以及推荐结果的准确性。

2.3 用户画像技术

科研合作的优势吸引着全球范围内的科研人员寻求合作伙伴,分享科研经验。但个人的研究兴趣、合作偏好等因素的动态变化,大量的科研信息以及用户模糊的合作需求给科研人员之间的合作带来了阻碍。―用户画像‖的出现,为解决上述问题提供了新的方法。用户画像的核心是为用户打标签,即用户信息标签化,其构建过程可以分为以下几个步骤:数据采集与预处理、特征抽取和用户标签生成。

数据采集与预处理阶段的主要内容是收集用户的数据并进行数据清洗。数据的来源通常有两种:一种是静态信息,数据稳定且不会经常变化,如用户的年龄、性别、籍贯等人口统计学信息。另一种是由用户行为产生的动态信息,如用户的浏览记录、收藏、关注等随用户行为产生的信息。然后对采集到的数据进行清洗和结构化处理。采集到的原始数据数量庞大且存在一些数据不完整、格式不统一等问题,因此需要进行数据清洗,过滤掉一些无效数据,然后对数据进行去重、缺失值补充、特殊字符去除等操作,形成相对完整的结构化数据。最后对清洗后的文本进行分词、去停用词等操作,从而获得更具有代表性的表征词语。

特征抽取阶段是在处理过的数据基础上,通过一定的数据分析和数据挖掘的方法进行特征提取。现有的特征提取方式主要分为两种。1)人工抽取。对数据进行整理和分类,依据相关理论,结合研究者经验和有关专家的建议提取用户特征。人工的方式虽然效率较低,但对于图像、声音、视频等计算机难以结构化的数据,人工抽取的方式相对准确。2)技术抽取。该过程常常需要借助于TF-IDF、逻辑回归、贝叶斯网络、主题模型等提取技术,分析上下文关系,抽取出能够体现文本内容的关键词语来表征用户。

用户标签生成阶段是通过机器学习等手段对处理过的数据进行建模。不断训练模型,更新用户标签,使得建模结果越来越准确。最后将用户标签以数据可视化的形式展示出来,可以更直观的表达用户偏好。

2.4 推荐评价指标

针对用户的不同需求,推荐系统的结果往往偏重于不同方向。由最初的准确度逐渐多元化,延伸出多样性、新颖性等指标。选择合适的评价指标需要考虑该

系统所面临的用户环境。 2.4.1 准确度指标

准确度体现的是系统预测评分与用户真实评分之间的误差。常用的准确度指标为平均绝对误差(Mean Absolute Error,MAE)和均方根误差(Root Mean Squared Error,RMSE)。通过计算用户的预测评分与实际评分之间的偏差来评估预测的准确性,其值越低,说明算法的准确度越高。

MAEi,jRi,jRi,jN

2-(11)

RMSEi,j(Ri,jRi,j)2N 2-(12)

其中,N为预测评分的数量,Ri,j表示用户ui对项目vj的实际评分;Ri,j表示为用户ui对项目vj的预测评分。MAE和RMSE值越小,说明推荐结果与用户最终选择的项目越接近,推荐算法的准确率越准确。

在进行Top-N推荐时,准确率、召回率和F1值是评价推荐准确率的常用指标。令U表示用户集合,R(u)表示算法预测的推荐列表,T(u)为测试数据。

PrecisionRecallF1=uUR(u)T(u)uUR(u)

2-(13)

uUR(u)T(u)uUT(u)

2-(14) 2-(15)

2PrecisionRecallPrecisionRecall

2.4.2 多样化指标

多样化的推荐指标可以评估推荐列表的覆盖领域,一般分为覆盖率(Coverage)和多样性(Diversity)。覆盖率描述了推荐项目类别占项目总类别的比例。多样性描述了用户推荐列表中项目两两之间的不相似性,推荐项目越多样,用户找到感兴趣项目的概率也就越大,采用所有用户推荐列表多样性的平均值表示个体多样性。如公式2-(17)所示:

CoverageuUL(u)I 2-(16)

i,jL(u),ijsim(i,j)1Diversity11UuUL(u)L(u)1

22-(17)

其中,uUL(u)为所有用户推荐列表中项目类别的总数,I和U表示项目总类别和用户总数。

2.5 本章小结

本章首先从产生背景、概念特点、发展历程三个方面阐述了科研社交网络的出现及发展。然后详细介绍了几种主要的推荐算法,并对各个推荐算法的优缺点进行总结。最后,针对不同推荐任务,详细介绍了当前主流的推荐系统评价指标。

第三章 面向科研社交网络的学者推荐模型构建

本章针对科研社交网络中广泛存在的社会化信息,采用基于统计的方法和LDA主题模型提取用户兴趣特征,然后在构建推荐模型时结合合作关系来提高学者推荐结果精度。首先,对面向科研社交网络的学者推荐问题进行问题描述,然后,给出基于用户画像和合作关系的学者推荐方法的构建过程。

3.1 问题描述与分析

科研社交网络的出现,为科研资源的分享,学者的交流提供了一个不受时间和空间约束的平台。学术合作已经成为科学研究过程中极其重要的一环,不仅减少了科研人员的检索成本,还提高了科学研究的效率。然而,科研社交网络与普通社交网络同样存在信息过载的问题。因此,研究如何构建满足科研合作需求的学者推荐方法具有十分重要的意义。

以往有关学者推荐的研究主要集中在学者研究兴趣的相似度或学者间的合作关系,鲜有综合两个角度进行合作学者推荐的方法。在科研社交网络中,用户一方面可以建立个人主页,上传或发布自己的研究成果,这些研究成果反映了学者的研究领域和知识范围,吸引着其他学者引用、下载,提升自身学术影响力,还可以增加潜在合作学者的了解程度,促成合作意向;另一方面,用户可以通过关注其感兴趣的用户,或者创建小组,邀请其他用户加入的方式与世界各地的科研人员建立联系。人们在做选择时会参考其朋友的建议,用户的决策很容易受到自己好友偏好的影响。因此,学者推荐的一个有效途径是根据相似兴趣的好友的研究内容进行推荐。此外,已有的推荐场景大多基于社交网络,缺乏面向科研社交网络中的学者推荐问题的相关研究。

数据获取与预处理推荐模型推荐结果科研社交网络用户画像Web数据爬取论文特征提取用户偏好提取推荐列表相似度数据预处理学者数据学者研究能力关系实验数据集数据合作关系质量

图3.1 算法框架图

综上所述,本章考虑科研社交网络中广泛存在的社会化信息以及用户画像剖析用户偏好的优势,在考虑学者研究能力的基础上,融合用户偏好和用户社会关系,提出一种基于用户画像和合作关系的学者推荐方法,能够在缓解数据稀疏性问题的同时提供用户满意的推荐结果,算法框架如图3.1所示。

3.2 学者研究能力评估

学者的研究能力是学者的知识水平、科研技能的综合,可以从多个方面衡量学者的研究能力,如学者发表的学术成果、学术影响力指数、申请的基金项目、学者的职称等。在学术成果方面一般采用学者发表论文的数量和发表期刊级别来度量。论文发表在科研项目申请、学术能力评估中是重要标准,可以被认为是体现学者研究能力的核心指标[31]。因此,结合论文数量及期刊权重,建立学者论文发表的评估公式,见公式3-(1)。

SQuJRjwjjqu,j

3-(1)

根据获取的学者期刊类别JR可分为{SCI, SSCI, A&HCI, CSSCI, EI, CSCD, 北核,其他},jwj表示期刊类别j的权重,jqu,j表示学者u在期刊类别j中发表的论文数量。

学术影响力可以使用H指数(High citations)表征。H指数代表“高引用次数”,学者的H指数越高,说明学者的论文影响力就越大。这样,学者的研究能力计算可以表示为公式3-(2)。其中,SAu为学者u的学术能力,Hu为学者u的H指数。本文假设学术成果和学术影响力对学者研究能力评估同等重要,故取

0.5。

SAuSQu(1)Hu

3-(2)

3.3 学者用户画像构建

3.3.1 用户标签体系

本文用户画像的标签体系主要从四个维度出发:网站固有属性维度、研究兴趣维度、合作偏好维度和社会关系维度。

网站固有属性维度包括学者在注册时填写的姓名、性别、出生日期等个人信息以及学者所在学校、所在院系、职称、研究领域、G指数、H指数等属性。但是大多数网站对实名制都没有严格要求,所以难以获取全面的学者个人信息。

研究兴趣维度通过分析和挖掘学者的学术成果产生。研究领域为用户表示的研究范围;兴趣特征是通过模型提取后生成的用户兴趣特征向量。

合作偏好维度从学者的合作关系网络出发,分析其合作学者的学校、院系等信息以及学术合作频次,挖掘学者在学校、领域两个级别的合作偏好。

社会关系维度包括学者的关注对象以及合作对象。

网站固有属性研究领域研究主题研究兴趣兴趣特征用户画像机构合作偏好合作偏好领域合作偏好关注对象社会关系合作对象 图3.2 用户画像标签体系

3.3.2 学者科研主题表征

1.基于LDA的兴趣模型

LDA模型在文本挖掘和自然语言处理研究中广受欢迎,它是由D.M.Blei等人在PLSA模型的基础上进行改进,提出的一个由文档-主题-单词构成的三层贝叶斯概率模型,如图3.3所示。

αθZβφKw N M 图3.3 LDA模型

其中 W 代表词汇,M 代表整个文档集,N 代表每篇文档包含的总词数,K 代表主题个数, 和 分别代表文档-主题概率  和主题-词语概率分布  的先验分布。

LDA假设每个语料集合有一定数量的潜在主题,LDA的参数无法利用已有的数据直接获取,可以根据狄利克雷分布的随机变量来估计。利用LDA对整个文档进行建模,可以自动对文档中隐含的主题进行聚类,其核心思想如公式3-(3)所示:

p(词语 |文档)=主题p(词语 |主题)p(主题 |文档) 2.主题数K的确定方法

3-(3)

在进行LDA模型构建时,主题数K的值需要人工设定,K值的选取影响着聚类的效果。通常采用困惑度(Perplexity)评估K的最优值。Perplexity值越小,主题模型的性能越好。Perplexity的计算如公式3-(4)所示:

Sln(P(d))ii1Perplexity(D)exp SNii13-(4)

将LDA模型输出的作者-主题的概率分布转化为用户的相似度。Jensen-Shannon(JS)散度常用来度量概率分布之间的相似度,假设(,F) 是一个离散的可测空间,{x1,x2,x3,,xn},P 记为(,F)上全体的概率分布,

则对任何P,QP,JS距离如公式3-(5)所示:

1F(PQ)F(QP)2

2pi2qi1n =(pilnqiln)2i1piqiqipiI(PQ)3-(5)

JS距离的值越小,表示作者对应的主题概率分布相似性越大。学者间JS距离的倒数表示学者间的主题相似度sim(u,v)。

3.4 学者合作关系网络模型

3.4.1 学者关系质量

学者关系的强弱决定着学者关系质量,所以需要构建区分学者关系强弱的评

估方法。首先,计算学者间历史合作成果的数量,共同发表成果数量越多,关系越强。本文采用公式3-(6)定义关系强度的计算方法。

N(u)N(v)N(u)N(v)RAu,v

3-(6)

其中,RAu,v表示学者u和学者v间的合作关联程度,分子为学者u和学者v合作发表成果数量,分母为两位学者发表成果的数量之和。

关系建立的时间及持续时间的长短、建立频次能够揭示学者间关系程度的强弱,本文在计算学者历史关系的基础上引入时间衰减函数对历史合作质量赋权,如公式3-(7) 所示。

TRAu,vj1ed1/(BY-RYj)RAu,v

3-(7)

其中,d表示学者间的合作次数,BY为当前时间,RYj为共同发表成果的时间。 3.4.2 合作关系传递

基于学者的合作关系和学者在合作关系路径上的距离来估计与学者之间的合作强度。为计算合作强度,构建学者合作网络 GU,TD,G 中每个节点对应一个学者,每条边对应一对合作关系。TDu,v,uU,vTu,其中 U 代表学者全集,Tu表示用户u的合作学者集合。

然而仅考虑直接合作,在数据稀疏时仍受很大的。相距三度之内的学者属于强连接关系,对学者的选择行为有重要影响,而三度之外的弱连接影响非常弱。因此,将学者的潜在合作关系扩展到三度,可以把更多没有直接连接的学者联系起来。融合历史合作关系质量和学者间关系传递强度可得到最终的学者合作质量评分,如公式3-(8) 所示。

TSu,v2TRAu,vTu,v TRAu,vTu,v0 and TRAu,vTu,v0TRATu,vu,vTu,v TRAu,v0 and Tu,v0  TRAu,v TRAu,v0 and Tu,v00 else3-(8)

Tu,vHN1 H3-(9)

其中,Tu,v表示学者u,v之间的合作可能性,H 为关系传递路径长度。已知关系从网络的一个节点传递到另一个节点可能存在多条不同的路径,将合作关系传播

TRAu,v表示学者u 和学者v 之间的关系强度。过程中最短路径的值作为关系强度。

3.5 学者推荐值整合

学者的行为习惯因人而异,其选择合作学者的依据也会有所不同,学者可能倾向兴趣相似度较高的用户,也可能比较喜欢接受合作学者的朋友。因此,以学者科研能力为基础,引入 β 参数探索学者选择合作学者时的行为偏重。β 值越大,说明学者更倾向于与其兴趣相似的学者合作。

对 3.2节,3.3节,3.4节提出的三种评估值进行整合得到学者推荐值。最后,对推荐值进行排序,选择前 n 名学者作为推荐学者。

Scoreu,vSAvsim(u,v)(1)TSu,v

其中Scoreu,v向学者u 推荐学者v 的推荐值。

3-(10)

3.6 本章小结

本章提出一种考虑用户画像和合作关系的学者推荐方法。该方法分别评估了学者的研究能力,兴趣相似度,合作关系质量,最后根据预测得到的用户推荐度排序,向目标用户推荐合作学者。

第四章 基于用户画像和合作关系的学者推荐实证研究

本章主要通过实验对所构建的基于用户画像和和合作关系的学者推荐方法的有效性进行验证。首先给出数据集的获取逻辑以及数据集展示;然后详细给出用户画像模型和学者合作关系模型的构建过程;最后在真实数据集上运行该学者推荐方法并讨论了其优越性。

4.1 数据收集

百度学术是百度公司2014年上线的免费学术资源服务平台,目前整合收录了120万个国内外学术站点,涵盖了各类学术期刊,会议论文,学位论文,专利,图书等4亿多篇。该平台现集学术检索,期刊频道,学术主页,文献互助、订阅收藏等特色服务为一体。本文以“学者主页‖频道作为研究对象,从网站中收集真实数据集验证本文所构建学者推荐方法的有效性。

随机选取某学者介绍本文数据采集的逻辑及数据类型,其百度学者主页如图4.1所示。收集的数据包括两部分:1)学者的学术背景信息,如所在学校、所在院系、研究领域、H指数、G指数等;2)学者的学术成果信息,如成果的名称、关键词和摘要,成果的合作者、发表时间、发表刊物等。本文以一组学者名单为数据采集入口,获取其每篇成果的合作学者信息,再进一步采集其合作学者的“合作学者”,也就是二级合作学者,采用广度优先的方法不断迭代进行学者数据采集。这样很大程度上避免了学者研究领域差异过大的问题,同时保证了数据的内在关联,易于构建用户合作网络。

图4.1 百度学者主页

然后进行数据的去重、缺失值处理,将得到的完整数据进行文本处理。文本处理过程由文本分词和去停用词两个阶段构成。本文采用文本处理常用的Jieba分词工具进行分词,避免领域内特定词汇被分词工具切分,人工维护分词词典,部分自定义词典文本如表4.1所示。由于英文文本与中文文本分词规则不同,且存在中文与英文的一词多译,故本文对学者中、英文研究成果分开处理,最后合并到同一个数据集中。

表4.1 自定义分词词典(部分)

自定义词典

主题图 协同过滤 社会网络 全民阅读 微信

模糊检索 个性化推荐 跨语言 试行版 中介作用

反竞争 云计算 跨学科 在线学习 层次聚类法

数字图书馆 长尾理论 模糊综合评价 深度学习 高引

应急策略 社交媒体 文本挖掘 机器学习 供给侧

关系强度 社交网络 词索引 层次分析法

进行分词处理后,得到的词中,如中文中的“的,地,了,呢”等,以及一些特殊符号,标点如“#,$,%”等无效数据,这类词对学者研究兴趣的发现与识别无关,这一系列的词汇称为停用词。去停用词不仅可以有效地降低词的维度,而且还可以提高学者研究兴趣的识别效率。数据预处理流程如图4.2所示。最后得到有效数据1103名学者,共28883条成果数据。部分数据如下表4.2,表4.3,表4.4所示。

学者成果数据缺失数据修复数据去重去除标点符号学者特征TF-IDF特征提取Jieba分词去停用词

图4.2 数据预处理流程

表4.2 学者数据集

姓名 学校 院系 领域 被引频次 成果数 H指数 G指数 成果 社交博客标签分布的布拉德福定律验证分析,移动环境下融合情境信息的情报学,图夏立新 华中师范大学 信息管理系 书馆学 925 117 17 23 慧图书馆发展新形态,异质网络资源度推荐模式研究——以豆瓣网为例,... 熊回香 华中师范大学 信息管理系 情报学 514 40 12 21 基于加权派系的个性化信息推荐研究,基于用户兴趣主题模型的个性化推荐研究,科研社交网站中基于相似兴趣的学者推荐研究,基于标签与关系网络的用户聚类推荐研究,基于社交媒体的档案服务研究,... 基于文献计量的我国区块链研究的知识网络与结构分析,新能源汽车用户王学东 华中师范大学 信息管理系 科学技术史 828 93 15 23 持续使用意愿研究,寄宿制高中生心理健康现状调查及其影响因素、教育对策研究,基于标签共现的学术博客知识资源聚合研究,... 易明 邓卫华 王鑫鑫 王宗军 华中师范大学 华中农业大学 武汉科技大学 华中科技大学 信息管理系 经济管理学院 管理学院 管理学院 工程 信息资源研究赵杨 武汉大学 中心 图书馆学 436 55 11 19 科学技术史 科学技术史 科学技术史 管理科学与4715 277 33 57 4 294 297 61 41 26 13 9 9 17 15 17 LPP视角下网络社区用户口碑信息传播行为研究,基于信息扩散级联理论的网络社区口碑信息树状传播研究,... 群组推荐模型研究——基于用户APP行为数据的实证分析,融合与重构:智... ... ... ... ... ... ... ... ... ... ... ... ... 表4.3 成果数据集

论文 基于知识供应链的知识服务模型研究 基于主题图构建知识专家学术社区研究 基于主题图的电子政务信息资源整合模型研究 数字图书馆馆藏发展的中外比较 面向用户需求的个性化政务信息服务模式 集成视角下全民阅读评估标准体系的构建 作者 韩永青,邓胜利,夏立新 张玉涛,夏立新 张玉涛,夏立新 刘启强,夏立新 李冠楠,夏立新,翟姗姗 孙晶琼,夏立新,李成龙 发表时间 2008 2009 2009 2007 2010 2015 发表期刊 中国图书馆学报 图书情报工作 情报杂志 图书与情报 图书情报工作 中国图书馆学报 期刊级别 CSSCI CSSCI CSSCI CSSCI CSSCI CSSCI 关键字 知识服务模型,知识供应链,图书情报机构,知识管理 主题图,分众分类法,标签,知识专家学术社区 主题图,电子政务,信息整合 数字图书馆,数字馆藏,馆藏发展 用户需求,个性化,政务信息服务 全民阅读,评估标准,评估体系,指标体系 ... 面向用户的文献信息服务集成探索 移动社交平台用户体验的影响因素分析与实证... 邓胜利 邓胜利,陈娟,钟雨露 ... 2006 2016 2005 2015 2012 2011 2012 ... 图书情报工作 情报理论与实践 图书情报工作 图书情报知识 情报理论与实践 图书情报知识 情报资料工作 ... CSSCI CSSCI CSSCI CSSCI ... 信息用户,信息资源,信息服务,服务集成 移动社交平台,用户体验,微信,影响因素 用户满意度,研究概况,现状分析,消费水平 网络问答社区,用户信息行为,知识搜寻行为,知识贡献——以微信为例 用户满意度理论发展与应用研究 网络问答社区用户信息行为研究进展及展望 面向战略性新兴产业的信息服务与保障研究 虚拟社区中知识创新影响因素的实证研究 信息聚合服务的发展与演变研究 邓胜利,罗贝宁 邓胜利,孙雅梦,陈晓宇 邓胜利,周婷 吴琼,邓胜利 邓胜利 行为,知识采纳行为 CSSCI CSSCI CSSCI 战略性新兴产业,信息服务,信息保障 知识创新,虚拟社区,社会资本论 信息聚合,社会化信息聚合,发展,演变 ... ... ... ... ... ... 表4.4 学者科研成果关键词集

姓名 夏立新 熊回香 王学东 易明 邓卫华 王鑫鑫 韩永清 赵杨 叶佳鑫

关键字

知识服务模型,知识供应链,图书情报机构,知识管理,主题图,分众分类法,标签,知识专家学术社区,主题图,电子政务,信息整合,数字图书馆;... Web3.0分众分类,标签,个性化信息聚合,信息聚合技术,个人知识管理,个人门户构建,Web2.0,信息组织,分众分类;基于内容的图像检索;高层语义,...

Web,虚拟团队,知识共享平台,平台构建,用户个性化需求,团队成员,团队知识,互联网,社会网络,嵌入性,知识共享过程,对策,知识共享,证券电子商务;信息流,... 社会化标签,社会网络分析,SNA,兴趣视图,个性化信息服务,标签,个性化,信息推荐,综述,虚拟社区,标签,知识协同,电子商务,虚拟组织,; 社会化标签,社会网络分析,SNA,兴趣视图,个性化信息服务,标签,标签,知识协同,知识链,知识转移,知识创新,知识传播,网络计量,图论,... 网络经济,企业组织结构,企业组织结构变革,图书馆,电子资源,电子资源管理系统,XML,Web,标记语言,企业内联网,信息审计,信息流程,... 知识服务模型,知识供应链,图书情报机构,知识管理,本体,学科,情报检索,知识组织,本体构建,信息用户,信息消费,TPB模型,行为模型,认知心理 数字图书馆,移动服务,服务质量评价,Wiki,知识共享,知识创新,核心竞争力,移动图书馆,移动信息服务质量,服务质量控制体系,用户体验,... 微博,标签生成,标签质量,LDA,大众分类,标签,同义词词林,等级结构,社群标签,标签生成,BTM,复杂网络,微博,用户相似度,学者评价,...

蒋武轩 杨雪萍 郭思源

科研社交网站,学术能力,关系网络,合作者推荐,社群标签,标签生成,BTM,复杂网络,跨媒体,知识图谱,多模态数据,语义相关性,社会化标注,... 社会化标注,标签,资源推荐,聚类分析,协同过滤,大众分类,社会化标签,用户兴趣模型,个性化推荐,科研社交网站,学术能力,关系网络,合作者推荐,,... 社会化标注系统,大众分类,本体,标签,标签语义,标签本体模型,Web2.0,标签,主题图,Ontopia,...

邓敏 许颖颖 杨滋荣

拓扑关系,线目标,拓扑距离,概念邻域,余维数,社会化标注系统,大众分类,本体,标签,标签语义,标签本体模型,Web2.0,标签,主题图,Ontopia,... Web 3.0,个性化信息聚合,信息聚合技术,数据挖掘,关联规则,查询扩展,信息检索,虚拟团队,知识共享,平台构建,... 数字人文,科研支持,人文计算,图书馆服务,跨媒体,知识图谱,多模态数据,语义相关性,...

陆颖颖 王伟军

数字档案馆,用户需求,服务模式,主题图,非物质文化遗产,数字资源,可视化,科研社交网站,个性化推荐,语义挖掘,社交网络分析

Web2.0,互联网,信息服务,知识管理,电子商务,网站,评价,私有云,开源系统,OpenStack,KVM,知识管理,知识管理系统,知识门户,公共信息服务平台,...

... ...

4.2 实验设计

本文实验的硬件环境为:Intel Core i7 CPU 540 @ 2.5GHz,16GB RAM的macOS Mojave操作系统,算法实现和数据爬虫采用Python 3编程语言。数据集分为训练集(80%)和测试集(20%)并进行5折交叉验证。训练组随机分为5组。随机选取4组作为训练集,第5组作为测试集。为了与对比方法的预测结果作比较,本文采用了推荐领域中广泛使用准确率(Precision)、召回率(Recall)和F1值三种评价指标客观评估所提方法的推荐结果。 4.2.1 用户画像模型

本文采用 LDA 主题模型来构建用户兴趣特征,将学者发表成果的名称、摘要、关键词作为模型的输入,通过得到的用户-主题概率矩阵进行用户兴趣相似度的计算。利用LDA主题模型生成的主题-词概率分布结果如表4.5 所示。

表4.5主题-词概率分布(部分)

主题

单词:概率

生态: 2.618370 研究: 0.050001 影响: 0.0546741 分析: 0.0500005

Topic #0 土壤: 0.05000036 评价: 1.0184823 水稻: 0.05000022 污染: 0.6379978

含量: 0.05000022 产: 0.0500012 玉米: 2.153028 农业: 2.413837045 健康: 5.383598 调查: 0.0500022中国: 0.0500085 …

Topic #1 研究: 0.0500022 膳食: 2.491293 肥胖: 7.86729034 高血压: 0.050005

营养: 4.45523 居民: 34.4632249 糖尿病: 15.15735 儿童: 0.0500012 思想: 0.0500022 教育: 2.4322 政治: 0.05000021 …

Topic #2 中国: 1.026562 文化: 0.05000019 社会: 0.05000019 理论: 0.0500002

研究: 0.05000022马克思主义:0.05000019 道德:0.05000019工作:1.612022 研究: 0.05000023 语义: 0.05000262 知识: 0.05000024 …

Topic #3 本体: 0.05000022 网络: 0.05000026检索: 0.05000015 系统: 0.05000086

文本: 0.05000022 信息: 0.0500002关联: 0.05000019 分类: 0.05000022 细胞: 6.88634805 基因: 0.0500018 表达: 11.0872292 急性: 14.28119848

Topic #4 白血病: 0.05000023 治疗: 0.0500027 患者:0.05000039 影响:0.0500027

研究: 0.0500025 蛋白:0.05000022 干细胞:0.05000084 …

分析: 1.1012262 研究: 3.8145093 评价: 0.05000021 期刊: 0.05000023

Topic #5 学术: 0.05000108 引文: 0.05000037 文献: 0.05001662 知识: 0.05000045

学科: 0.0500092 计量学: 0.05000281 论文: 0.05000023 …

表4.5 为主题与词的概率分布表,主题1 包括有生态、土壤、玉米、健康、农业等词,根据经验判断该主题可能与农业生产生态环境有关。主题2 包含社会、马克思主义、道德等词,可以判断出该主题与思想道德研究有关。同理可知,其他主题分别与语义分类、医疗卫生、学术资源有关。可以看出每类主题的特征词相对集中,可以清楚的表达出主题内容,主题聚类效果较好,这也印证了下文困惑度的实验结果。然后利用公式3-(5)可以更准确的计算学者间的主题相似度。用户-主题概率分布如表4.6 所示。

表4.6 用户主题概率分布(部分)

用户

主题概率分布

3.31125835e-05, 3.31125831e-05, 3.31125835e-05, 3.31125834e-05,

U1

3.29406088e-01, 3.31125834e-05, 3.31125836e-05, 3.31125832e-05, 3.31125831e-05, 3.31125833e-05, 4.96943274e-02, 3.31125833e-05, 3.31125835e-05, 3.31125838e-05, 3.31125831e-05, …

4.95049509e-04, 4.95049515e-04, 4.95049506e-04, 4.95049513e-04,

U2

6.19468825e-02, 4.95049506e-04, 1.01742519e-01, 4.95049506e-04, 4.95049506e-04, 4.95049511e-04, 4.95049512e-04, 4.95049509e-04, 4.95049507e-04, 4.95049512e-04, 4.95049507e-04, …

1.92975688e-05, 2.55216585e-02, 8.95795302e-04, 1.753295e-02,

U3

1.92975690e-05, 1.17030218e-02, 1.929756e-05, 1.92975686e-05, 1.92975687e-05, 1.92975690e-05, 3.14229946e-02, 5.90321691e-03, 1.92975688e-05, 1.929756e-05, 1.92975688e-05, …

1.06157114e-04, 1.06157114e-04, 1.06157114e-04, 1.06157115e-04,

U4

1.26629859e-01, 1.06157114e-04, 1.06157113e-04, 1.06157113e-04, 1.06157113e-04, 1.06157115e-04, 1.06157115e-04, 1.06157114e-04, 1.06157113e-04, 1.06157115e-04, 1.06157115e-04, …

0.031796, 0.00096154, 0.00096154, 0.00096154, 0.25393666,

U5

0.00096154, 0.00096154, 0.00096154, 0.00096154, 0.00096154, 0.26525386, 0.00096154, 0.00096154, 0.00096154, 0.00096154 0.2670012, 0.00096154, 0.00096154, 0.16296724, …

用户数据经过一系列处理之后成为表现用户特征的标签信息。为了直观的表现用户画像的特征,基于统计分析的方法进行用户画像的可视化,如图4.3所示。从 4 个维度完整全面的刻画用户的特征,研究兴趣标签大小表示了用户对该内容感兴趣的程度,图中可以看出该用户对数字图书馆、主题图等话题比较关注,

除此之外还喜欢研究信息领域。对于用户的合作记录可以看出该用户经常与其所在机构合作,其次为南京大学和武汉大学。

机构合作偏好: 华中师范大学 南京大学 武汉大学领域合作偏好: 情报学 图书馆学 食品科学合作偏好研究兴趣合作偏好学者: 王忠义 翟姗姗 程秀峰 陈卓群 石义金关系维度固有属性学校:华中师范大学院系:信息管理系成果数:117被引频次:925H指数:17G指数:23

图4.3 用户画像可视化

4.2.2 学者研究能力评估

学者的研究能力评估由其发表成果的数量和质量决定的;采用公式3-(2)计算各学者的研究能力及标准化后的值如表4.7所示。

表4.7 学者研究能力评分

学者 夏立新 韩永青 邓胜利 张玉涛 刘启强 翟姗姗 李冠楠 王忠义 … 熊回香 王伟军 …

研究能力评分

28.85 4.35 39.3 1.6 2.7 9.25 1.5 11.4 … 16.4 28.35 …

MNZ标准化后 0.3221322132 0.0406040604 0.4987129987129987 0.0135135135135135 0.0276705276705276 0.1119691119691119 0.0122265122265122 0.1396396396396396

0.203970397039 0.3577863577863577

4.2.3 合作关系质量评估

基于学者间共同合作发表的成果,计算学者间的合作关系质量。考虑到网络中关系的传递性,将关系强度(已有合作关系)和网络关系传递特性(无合作经历)结合,考虑三度以内的强关系计算潜在合作关系质量。表4.8展示了学者合作关系质量的评估结果。

表4.8 合作关系质量评分

学者 韩永青 邓胜利 张玉涛 刘启强 李冠楠 翟姗姗 王忠义 张进 … 叶光辉 桂思思 …

合作关系质量 0.025483259218296184 0.0038168173443219595 0.017685769078152704 0.0440496944438041 0.008403742856552626 0.11955599885356721 0.13661863636395744 0.0490224783497794

0.10044781315323968 0.008406180358217667

4.3 实验结果与分析

4.3.1 参数选择

1.主题数K的确定

LDA 模型进行主题识别时,隐含主题数 K 需要人工设定,根据困惑度来衡量主题聚类的效果。将 K 设为 5-100,增量为 5 ,其对应的困惑度值如图4.4 所示。由图4.4可以发现,随着主题数的增加,困惑度呈现先降后升的趋势,在主题数为20时取得极小值。说明K=20时,主题聚类效果最好,因此用户兴趣主题数K值为20。

图4.4不同K值下的困惑度

2.参数β的敏感性分析

为考察公式3-(10)中β对推荐性能的影响,设定β取值从0.1到0.9,增量为0.1,实验结果如图4.5所示。图4.5 (a)可以发现随着 β 值的增加,准确率呈现先升后降的趋势,并在 β=0.2 处达到最值。当 β 值较小时,合作关系质量评分在推荐值中的比例较高;β 值的增加使得兴趣相似度比重逐渐增加,准确率和召回率呈现相同波动。可以看出,在科研社交网络中,学者更倾向接受朋友推荐或有间接合作关系的学者。

图4.5不同β值对推荐结果的影响

3.推荐个数n的敏感性分析

在生成推荐结果时,推荐列表的长度会影响推荐算法的性能。为研究推荐个数对推荐结果的影响,分别将n值范围为[4,20],增量为2,实验结果具体如图4.6 所示。从图4.6 中可以看出,随着推荐个数的增加,准确率呈现显著下降的趋势,在推荐个数在4-10的范围内下降显著,然后下降趋势逐渐变缓;召回率和F1值保持持续增长的趋势。可能的原因是学者的合作关系用户数量较少,往往与某些固定用户进行合作,使得数据集中的正例数据偏少;随着推荐列表的增加,准确率迅速下降。

图4.6 推荐个数n对推荐结果的影响

4.3.2 对比实验和分析

为评估本文所构建的基于用户画像与合作关系推荐算法的效果,与基于用户的协同过滤算法(UCF)、基于信任关系的推荐算法(MoleTrust)以及基于词嵌入的推荐算法(Word2Vec) 进行比较。UCF算法以两个用户之间共同合作者的数量进行相似度计算,不受研究内容的影响。MoleTrust算法以数据集中的合作关系替代信任关系,根据合作关系构建深度为3的合作关系网络。Word2Vec算法以学者发表刊物的关键词作为语料,基于学者研究内容产生推荐列表。

图4.7 实验结果对比分析

图4.7描述了本文算法与UCF、MoleTrust和Word2Vec的性能对比。可以看出,本文算法在Precision、Recall和F1值三项评价指标上均优于UCF、Word2Vec,与UCF相比分别提升了54.2%、55.5%和54.5%,与Word2Vec相比分别提升了.73%、84.61%和84.56%。因为UCF在推荐过程中不使用任何附加信息,Word2Vec仅根据用户研究内容产生推荐,二者均未在推荐过程中引入社会关系,这证明了社会信息在提高推荐质量方面的有效性。在现实世界中,用户并不是的,他们不仅有自己的特点,而且很容易受到朋友的影响,更喜欢朋友的推荐。因此,整合用户的社会关系网络可以有效地提高准确率。进一步与MoleTrust相比较,在推荐个数小于10时,本文算法获得更准确的推荐结果,分别提升了3.33%、26.82%和24.02%。这表明,提炼用户兴趣标签作为附加信息,确定用户研究兴趣在精准推荐中起到重要作用,它表示LDA主题模型提炼过的特征偏好在推荐中的优势。在推荐个数大于10时,本文算法在Precision上小于MoleTrust.这说明当进一步扩大好友推荐范围时,用户可能不局限于研究兴趣,而是倾向于关系网络中用户,从而进行更多领域的学术合作。社交网络为避免用户选择疲劳推荐好友数一般不超过10人,在Top-10以内,本文算法在Precision、Recall和F1值指标上均优于其他三种对比算法,以上结果验证了同时考虑用户画像和合作关系对精准推荐具有积极作用。

4.4 本章小结

本章设计实验并验证了本文所构建的算法。首先介绍了数据集的采集、实验环境以及使用的评价指标。然后详细介绍了实验过程及实验过程中的数据分析。最后通过与其它算法对比证明了本文所构建算法的优越性和有效性。

第五章 总结与展望

5.1 研究总结

得益于Web 2.0技术的发展与普及,科研社交网络吸引着大量科研人员的加入,由于信息交流的便捷,科研社交网络中的学术资源迅速增大,出现“信息过载”问题。同时科学研究的日渐深入,科研难度逐渐加大,迫切需要科研合作推动科学研究的发展。建立有效的学者推荐机制是促进科研合作的主要途径。用户画像可以从不同维度剖析用户特征精准定位用户需求,为推荐服务提供客观有效的依据。学者合作关系建立的时间、频次等可以很好的反映已有合作关系的学者间的关系强度,而通过关系的传递性可以将学者与尚未合作的学者联系起来。然而目前鲜有研究从用户画像和合作关系的两个角度对科研社交网络中的学者推荐问题进行探索。因此,为了减少学者搜索成本,提高推荐满意度,本文探讨了科研社交网络中学者推荐机制并取得了以下两项成果:

(1)提出了一种基于用户画像与合作关系的学者推荐方法。基于用户研究主题的相似度和合作关系为研究重点,从学者研究能力、兴趣相似度和合作关系质量三个方面建立学者推荐模型。

(2)通过真实数据集验证本文提出的学者推荐方法的可行性。以抓取到的百度学术数据集为例,经过综合分析和参数讨论得到实验结果。同时对比其他推荐方法,总结不同推荐方法性能间的差异。研究结果发现:相比于寻找兴趣相似的学者,科研社交网络的用户更倾向于选择其合作网络的好友。

5.2 研究展望

虽然本文提出的方法取得了较高的推荐质量,在一定程度上解决了学者推荐问题,但是进一步的研究还可以从以下几个方向进行改进和探索。

(1)根据本文的研究结果,可以看到,科研社交网络上的社会信息可以显著提高推荐的准确性。在实际的科研合作中,突出学者互补关系的多样性指标同样重要,但准确性和多样性之间存在着此消彼长的平衡关系,因此在下一步的工作中可以考虑如何平衡二者关系使得推荐效果更加科学合理。

(2)科研社交网络平台数据更新不及时,有些学者的研究论文已在知网等数据服务平台中收录,但未在学者主页中及时更新。下一步工作可以结合知网、万方等数据知识服务平台获得多源数据,将作者顺序、基金项目、师生关系等其他附加信息纳入推荐算法中。

(3)本文实验过程选用了“百度学术”平台的数据集来验证所构建方法的可行性和有效性,下一步工作可以在其他科研社交网络数据集,如科学网、

ResearchGate等进行研究和扩展,进一步探索多源异构数据对学者推荐的影响。

参考文献

[1] 2017年度中国科技论文统计与分析[J].科学, 2018, 70(6): 57-59.

[2] Nascimento C, Laender A H F, Silva A S, Goncalves M A. A source independent framework

for research paper recommendation[C]. JCDL'11: Proceedings of the 11th annual international ACM/IEEE joint conference on Digital libraries. 2011, 297-306.

[3] Jeng W, He D, Jiang J. User participation in an academic social networking service: A survey

of open group users on Mendeley[J]. Journal of the Association for Information Science & Technology, 2015, 66(5): 0-904. [4] 贾新露,王曰芬.学术社交网络的概念、特点及研究热点[J].图书馆学研究, 2016, (5):

7-13. [5] 赵杨,李露琪.国内外学术社交网络研究现状述评与思考[J].情报资料工作, 2016, (6): 41-47.

[6] Adomavicius G, Tuzhilin A. Towards the next generation of recommender systems: A survey

of the State-of-the-Art and possible extensions [J]. IEEE transactions on knowledge and data engineering, 2005, 17(6): 734-49. [7] Martín G H, Schockaert S, Cornelis C, et al. Using semi-structured data for assessing

research paper similarity[J]. Information Sciences, 2013, 221: 245-261. [8] 陈长华, 李小涛, 邹小筑, 等. 融合Word2vec与时间因素的馆藏学术论文推荐算法[J].

图书馆论坛, 2019, 39(5): 110-117.

[9] 谭红叶, 要一璐, 梁颖红. 基于知识脉络的科技论文推荐[J]. 山东大学学报(理学版),

2016, 51(5): 94-101. [10] 熊回香, 李跃艳. 基于Word2vec的学者推荐与跨语言论文推荐模型研究[J]. 情报科学,

2019, 37(12): 19-26. [11] 杨辰,刘婷婷,刘雷,等.融合语义和社交特征的电子文献资源推荐方法研究[J].情报学

报, 2019, 38(6): 632-0.

[12] 房小可, 叶莎莎, 严承希. 融合情境语义的虚拟学术社区知识推荐模型研究[J]. 情报理

论与实践, 2019, 42(9): 154-159.

[13] Bogers T, Bosch A V D. Recommending scientific articles using citeULike[C]// ACM, 2008:

287-290.

[14] Wang C, Blei D M. Collaborative topic modeling for recommending scientific articles[C]//

ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2011: 448-456.

[15] Lee D H, Brusilovsky P. Using self-defined group activities for improving recommendations

in collaborative tagging systems[C]// ACM Conference on Recommender Systems, Recsys 2010, September. DBLP, 2010: 221-224.

[16] Lai C H, Liu D R, Lin C S. Novel personal and group-based trust models in collaborative

filtering for document recommendation[J]. Information Sciences, 2013, 239(4): 31-49.

[17] Kim H K, Oh H Y, Gu J C, et al. Commenders: A recommendation procedure for online book

communities[J]. Electronic Commerce Research and Applications, 2011, 10(5): 501-509. [18] Hwang S Y, Wei C P, Liao Y F. Coauthorship networks and academic literature

recommendation[J]. Electronic Commerce Research and Applications, 2010, 9(4): 323-34.

[19] Wang G, He X R, Ishuga C I. HAR-SI: A novel hybrid article recommendation approach

integrating with social information in scientific social network[J]. Knowledge Based Systems, 2018, 148(5): 85-99.

[20] Hettich S, Pazzani M J. Mining for proposal reviewers: lessons learned at the national science

foundation[C]// Proceedings of the Twelfth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Philadelphia, PA, USA, ACM, 2006: 862-871. [21] 刘萍, 郑凯伦, 邹德安. 基于LDA模型的科研合作推荐研究[J]. 情报理论与实践, 2015,

38(9): 79-85. [22] 蒲姗姗. 基于知识互补的科研合作专家推荐模型研究[J]. 情报理论与实践, 2018, 41(8):

96-101.

[23] 谢海涛,肖雯,黄劲松.科研社交网络中跨学科情报推荐方法研究[J].情报杂志, 2019, 38(5):

190-198. [24] 熊回香,窦燕.基于 LDA 主题模型的标签混合推荐研究[J].图书情报工作, 2018, 62(3):

53-56. [25] 李仲,韩红旗,吴广印,翟晓瑞,李琳娜,刘玉博.基于文本稀疏分布式表征的学术合作推荐

[J]. 情报科学, 2019, 37(6): 113-118.

[26] Yang A, Li J, Tang Y, et al. The similar scholar recommendation in Scho@t [C]// Computer

Supported Cooperative Work in Design(CSCWD), IEEE 16th International Conference on IEEE, 2012, 666-670.

[27] Li J, Xia F, Wang W, et al. ACRec: A co-authorship based random walk model for academic

collaboration recommendation[C]// International Conference on World Wide Web. ACM, 2014, 1209-1213. [28] 汪俊, 岳峰, , 许云红, 杨辰. 科研社交网络中基于链接预测的专家推荐研究[J].

情报杂志, 2015, 34(6): 151-157.

[29] 夏秋菊, 栗文超, 薛晶晶, 焦坤, 唐蓓. 面向学术领域的新型社交平台:科研社交网络[J].

情报杂志, 2014, 33(9): 167-172.

[30] 李江, 李东, 冯培桦, 许维潇. 基于专长吻合度、学术影响力与社会关联值的专家推荐模

型研究[J]. 情报学报, 2017, 36(4): 338-345.

[31] 熊回香, 杨雪萍, 蒋武轩,等. 基于学术能力及合作关系网络的学者推荐研究[J] .情报科

学, 2019, 37(5): 71-78.

[32] Simsek A, Karagoz P. Wikipedia enriched advertisement recommendation for microblogs by

using sentiment enhanced user profiles[J]. Journal of Intelligent Information Systems, 2018, 18(5): 1-25.

[33] Fedushko S, Shakhovska N, Syerov Y. Verifying the medical specialty from user profile of

online community for health-related advices[EB/OL]. 2018. [34] 刘海鸥, 孙晶晶, 张亚明, 等. 在线社交活动中的用户画像及其信息传播行为研究[J]. 情报科学, 2018, 36(12): 17-21.

[35] Cooper A. The inmates are running the asylum[M]. Macmillan Publishing Co. Inc. 1999. [36] 袁莎, 唐杰, 顾晓韬. 开放互联网中的学者画像技术综述[J]. 计算机研究与发展, 2018,

55(9): 1903-1919. [37] 王仁武, 张文慧. 学术用户画像的行为与兴趣标签构建与应用[J]. 现代情报, 2019, 39(9):

54-63.

[38] 曾鸿, 吴苏倪. 基于微博的大数据用户画像与精准营销[J]. 现代经济信息, 2016, (16):

306-308.

[39] Lafouge T, Lardy J P, Abdllah N B. Improving information retrieval by combining user

profile and document segmentation[J]. Information Processing Management An International Journal, 1993, (3): 305-315. [40] 刘海鸥, 孙晶晶, 苏妍嫄, 张亚明. 基于用户画像的旅游情境化推荐服务研究[J]. 情报

理论与实践, 2018, 41(10): 87-92.

[41] Campos D, Fernández-Luna J M, Huete J F, Redondo-Expósito L. Automatic construction of

multi-faceted user profiles using text clustering and its application to expert recommendation and filtering problems[J]. Knowledge-Based Systems, 2019, 190. [42] 王凌霄, 沈卓, 李艳. 社会化问答社区用户画像构建[J]. 情报理论与实践, 2018, 41(1):

129-134. [43] 范晓玉, 窦永香, 赵捧未, 周潇. 融合多源数据的科研人员画像构建方法研究[J]. 图书

情报工作, 2018, 62(15): 31-39.

[44] 刘海鸥, 孙晶晶, 苏妍嫄, 张亚明. 国内外用户画像研究综述[J]. 情报理论与实践, 2018,

41(11): 155-160.

[45] 王庆, 赵发珍. 基于―用户画像‖的图书馆资源推荐模式设计与分析[J]. 现代情报, 2018,

38(3): 105-109, 137.

[46] Bao J, Zheng Y, Wilkie D, et al. Recommendations in location-based social networks: A

survey[J]. GeoInformatica, 2015, 19(3): 525-565.

[47] Massa S, Avesani P. Trust-aware recommender systems[C]// Proceedings of the ACM

Conference on Recommender Systems. ACM, 2007, 17-24.

[48] Golbeck J A. Computing and applying trust in web-based social networks[M]. University of

Maryland at College Park, 2005.

[49] Lesani M, Montazeri N. Fuzzy trust aggregation and personalized trust inference in virtual

social networks[J]. Computational Intelligence, 2010, 25(2): 51-83. [50] Jøsang A, Gray E, Kinateder M. Simplification and analysis of transitive trust networks[J].

Web Intelligence and Agent Systems, 2006, 4(2): 139-161. [51] 陈婷, 朱青, 周梦溪, 等. 社交网络环境下基于信任的推荐算法[J]. 软件学报, 2017,

28(3): 721-731. [52] 景楠, 王建霞, 许皓, 等. 基于用户社会关系的社交网络好友推荐算法研究[J]. 中国管

理科学, 2017, 25(3): 137-146.

[53] 潘云涛, 苏成, 赵筱媛,等. 专家识别推荐模块技术框架研究[J]. 情报学报, 2016, 35(9):

923-931.

[54] Parvin H, Moradi P, Esmaeili S. TCFACO: Trust-aware collaborative filtering method based

on ant colony optimization[J]. Expert Systems with Applications, 2019, 118: 152-168.

[55] Ar Y, Bostanci E. A genetic algorithm solution to the collaborative filtering problem[J].

Expert Systems with Applications, 2016, 61: 122-128.

[56] Karabadji N E I, Beldjoudi S, Seridi H, et al. Improving memory-based user collaborative

filtering with evolutionary multi-objective optimization[J]. Expert Systems with Applications, 2018, 98: 153–165.

[57] Massa P, Avesani P. Trust metrics on controversial users: Balancing between tyranny of the

majority[J]. International Journal on Semantic Web & Information Systems, 2007, 3(1): 39-.

[58] Pasquale D M, Fotia L, Messina F, et al. Providing recommendations in social networks by

integrating local and global reputation[J]. Information Sciences, 2018, 78: 58-67.

[59] Kim Y A, Song H S. Strategies for predicting local trust based on trust propagation in social

networks[J]. Knowledge-Based Systems, 2011, 24(8): 1360-1371.

[60] Gruzd A, Staves K, Wilk A. Connected scholars: Examining the role of social media in

research practices of faculty using the UTAUT model [J]. Computers in Human Behavior, 2012, 28(6): 2340-2350. [61] Nández G, Borrego A. Use of social networks for academic purposes: a case study[J].

Electronic Library, 2013, 31(6): 781-791.

[62] Thelwall M, Kousha K. Academia.edu: Social network or academic network [J]. Journal of

the Association for Information Science and Technology, 2014, 65(4): 721-731.

[63] Wei J, He D, Jiang J. User participation in an academic social networking service: A survey

of open group users on Mendeley [J]. Journal of the Association for Information Science & Technology, 2015, (5): 0-904.

[] Pazzani M J, Billsus D. Content-Based Recommendation System. Lecture Notes in Computer

Science, 2007, 325-341.

[65] Sarwar B, Karypis G, Konstan J, et al. Item-based collaborative filtering recommendation

algorithms[C]//Proceedings of the 10th International Conference on World Wide Web. ACM, 2001, 285-295.

[66] Zahra S, Ghazanfar M A, Khalid A, et al. Novel centroid selection approaches for KMeans

clustering based recommender systems[J]. Information Sciences, 2015, 320(1): 156-1.

[67] Singh M, Mehrotra M. Impact of biclustering on the performance of biclustering based

collaborative filtering[J]. Expert Systems with Applications, 2018, 113: 443-456.

[68] Birtolo C, Ronca D. Advances in clustering collaborative filtering by means of fuzzy

C-means and trust[J]. Expert Systems with Applications, 2013, 40(17): 6997-7009.

[69] Kant V, Bharadwaj K K. Integrating collaborative and reclusive methods for effective

recommendations: A fuzzy bayesian approach[J]. International Journal of Intelligent Systems, 2013, 28(11): 1099-1123.

[70] Seo S, Huang J, Yang H, et al. Interpretable convolutional neural networks with dual local

and global attention for review rating prediction[C]// Eleventh ACM Conference on Recommender Systems. ACM, 2017, 297-305.

[71] Portugal I, Alencar P, Cowan D. The use of machine learning algorithms in recommender

systems: A systematic review[J]. Expert Systems with Applications, 2018, 97: 205-227.

[72] Koren Y, Bell R, Volinsky C. Matrix factorization techniques for recommender systems[J].

Computer, 2009, 42(8): 30-37.

致谢

时间流逝如白驹过隙,转眼间在青岛大学的研究生求知生涯即将结束。回顾研究生的三年时光,从入学之际的斗志满满,科研之际的犹豫彷徨到如今的积极乐观,生活充实。这一路上我收获了很多,不仅有自己的坚持努力,还要感谢的关系、帮助、包容过我的老师、同学和家人。这段绚丽而美好的时光,我将会一直铭刻在心!

首先,衷心的感谢我的导师张磊老师。感谢您三年来一如既往的认真、严谨和耐心。教会我养成阅读优质论文的习惯,培养我做好科学研究的素质。您严谨求实的科研态度、兢兢业业的工作作风、平易近人的待人态度一直潜移默化的影响着我。您还教会我要关注自己精神素质的提升,鼓励积极乐观的对待生活中的难题,真诚宽容的处世之道。在此,特别感谢张磊老师,我不仅从您身上学到了知识,更学到了很多人生的哲理,这已成为我未来人生的指路明灯!

然后,要感谢商学院的老师们,老师们的谆谆教导是培养我对不同学科兴趣的启蒙和指引。要特别感谢张亮老师,张亮老师在研究问题的方法,逻辑体系的构建和论文的写作技巧等方面不遗余力的帮助。您占用自己的时间,耐心细致的给我提出论文修改意见,在此请允许我向您表达崇高的敬意和真挚的感谢!我还要感谢我的同门和舍友们以及其他三年里一起成长的同学们,谢谢你们的关心和温暖陪伴,让我的研究生生活更加丰富充实。感谢大家的相互扶持与鼓励,希望大家都能完成自己预期的目标。

此外,我要感谢我的家人,感谢你们一直以来的支持,三年里的困难与挫折,你们的爱永远是我的精神支柱,是我勇往无前的动力,愿你们多喜乐,长安宁!

最后,感谢审阅论文和组织答辩的各位专家老师,感谢参与我研究生阶段的每一位。

毕业不是结束,而是新征程的开始。未来可期,相信我们的明天会更好!

在校期间发表的论文

[1] 张磊, 魏全申, 李峰. 基于价值网络的智能可持续产品服务系统运作范式[J].科技管理研究, 2019, (21): 185-193.

[2] Zhang Liang, Wei Quanshen, Zhang Lei, et.al . Diversity Balancing for Two-Stage Collaborative Filtering in Recommender Systems[J]. Applied Sciences, 2020,10(4): 1257.

学位论文独创性声明

本人声明,所呈交的学位论文系本人在导师指导下完成的研究成果。文中依法引用他人的成果,均已做出明确标注或得到许可。论文内容未包含法律意义上已属于他人的任何形式的研究成果,也不包含本人已用于其他学位申请的论文或成果。

本人如违反上述声明,愿意承担由此引发的一切责任和后果。

论文作者签名: 日期: 2020 年 6 月 16 日

学位论文知识产权权属声明

本人在导师指导下所完成的学位论文及相关的职务作品,知识产权归属学校。学校享有以任何方式发表、复制、公开阅览、借阅以及申请专利等权利。本人离校后发表或使用学位论文或与该论文直接相关的学术论文或成果时,署名单位仍然为青岛大学。

本学位论文属于:

保密 □,在 年解密后适用于本声明。 不保密 。

(请在以上方框内打“√” )

论文作者签名: 日期:2020 年 6 月 16 日 导师签名: 日期:2020 年 6 月 16 日 (本声明的版权归青岛大学所有,未经许可,任何单位及任何个人不得擅自使用)

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 7swz.com 版权所有 赣ICP备2024042798号-8

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务