专利内容由知识产权出版社提供
专利名称:网页数据去重的方法及装置专利类型:发明专利发明人:史立华
申请号:CN201510601060.3申请日:20150918公开号:CN1065477A公开日:20170329
摘要:本发明公开了一种网页数据去重的方法及装置,涉及信息技术领域,解决了现有的网页数据去重的准确率较低的问题。本发明的主要技术方案为:首先从待插入的网页数据中获取网页内容数据和网页标记数据,然后根据所述网页内容数据和所述网页标记数据生成网页标识信息,最后判断分布式搜索引擎中是否存储有所述网页标识信息,若否,则将所述待插入的网页数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中。本发明主要用于去除重复的网页数据。
申请人:北京国双科技有限公司
地址:100086 北京市海淀区双榆树小区知春路76号翠宫饭店8层A间
国籍:CN
代理机构:北京鼎佳达知识产权代理事务所(普通合伙)
更多信息请下载全文后查看