您好,欢迎来到微智科技网。
搜索
您的当前位置:首页网页数据去重的方法及装置[发明专利]

网页数据去重的方法及装置[发明专利]

来源:微智科技网
专利内容由知识产权出版社提供

专利名称:网页数据去重的方法及装置专利类型:发明专利发明人:史立华

申请号:CN201510601060.3申请日:20150918公开号:CN1065477A公开日:20170329

摘要:本发明公开了一种网页数据去重的方法及装置,涉及信息技术领域,解决了现有的网页数据去重的准确率较低的问题。本发明的主要技术方案为:首先从待插入的网页数据中获取网页内容数据和网页标记数据,然后根据所述网页内容数据和所述网页标记数据生成网页标识信息,最后判断分布式搜索引擎中是否存储有所述网页标识信息,若否,则将所述待插入的网页数据和与所述待插入的网页数据对应的网页标识信息对应存储到所述分布式搜索引擎中。本发明主要用于去除重复的网页数据。

申请人:北京国双科技有限公司

地址:100086 北京市海淀区双榆树小区知春路76号翠宫饭店8层A间

国籍:CN

代理机构:北京鼎佳达知识产权代理事务所(普通合伙)

更多信息请下载全文后查看

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 7swz.com 版权所有 赣ICP备2024042798号-8

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务