(19)中华人民共和国国家知识产权局
(12)发明专利申请
(21)申请号 CN201410609659.7 (22)申请日 2014.11.03
(71)申请人 航天信息股份有限公司
地址 100195 北京市海淀区杏石口路甲18号航天信息园
(10)申请公布号 CN105630817A
(43)申请公布日 2016.06.01
(72)发明人 龚勇浩;戴晓栋;张玉魁;尹春天;范立波;杜英垒;黄新华 (74)专利代理机构 北京工信联合知识产权代理事务所(普通合伙)
代理人 李勇
(51)Int.CI
G06F17/30;
权利要求说明书 说明书 幅图
(54)发明名称
一种电子内容解析的方法及系统
(57)摘要
本发明公开了一种电子内容解析的方
法及系统,属于文本内容提取技术领域,电子基于版式文件格式,主要包括位置解析模块、文本合并模块和文本关联识别模块,其中:位置解析模块调用版式文件解析引擎模块对电子内容进行位置解析,获取以字符为单位的位置信息集合;文本合并模块采用字符间隙对属于同一文本域的字符进行合并,得到文本域集合;文本
关联识别模块结合标签字典和文本域间隙对文本域集合进行文本域的关联识别;完成整个电子的解析工作,将解析数据存储到数据库中。该方法能有效地提高文本内容提取的通用性和适用性,能够解析出不同种类、不同样式风格的内容。
法律状态
法律状态公告日2016-06-01 2016-06-01 2016-06-29 2016-06-29 2019-06-25
法律状态信息
公开 公开
实质审查的生效 实质审查的生效 授权
法律状态
公开 公开
实质审查的生效 实质审查的生效 授权
权利要求说明书
一种电子内容解析的方法及系统的权利要求说明书内容是....请下载后查看
说明书
一种电子内容解析的方法及系统的说明书内容是....请下载后查看