专利内容由知识产权出版社提供
专利名称:一种非对照语料的文本概要生成方法及装置专利类型:发明专利发明人:付永晗,孔嘉明,宫勐申请号:CN201910133846.5申请日:20190222公开号:CN110162618A公开日:20190823
摘要:本发明涉及一种非对照语料的文本概要生成方法及装置,其中方法包括步骤:以句子为文本单元对整个文本进行划分,同时提取整个文本中的语意连接词的位置;随机提取若干个前述文本单元依序组合作为初步文本概要,随机提取组合过程重复若干次,形成多个初步文本概要;在每个初步文本概要中,以每个语意连接词的位置为基础,校验计算有关的匹配度;取每个初步文本概要中的形成的全部匹配度,计算每个初步概要文本综合匹配度;以最大的综合匹配度对应的初步文本概要,作为整个文本的最终文本概要。在没有对照语料的情形下,通过多次“探针”尝试自动概要的生成,利用其中的语意连接词对其进行校正,构成“尽量适合摘要性文本的”短文本。
申请人:北京捷风数据技术有限公司
地址:100000 北京市海淀区北太平庄路18号3层3-0719
国籍:CN
代理机构:佛山帮专知识产权代理事务所(普通合伙)
代理人:颜德昊
更多信息请下载全文后查看