专利内容由知识产权出版社提供
专利名称:一种从文档集中挖掘特征词的系统和方法专利类型:发明专利
发明人:屠守中,黄民烈,朱小燕申请号:CN201510017522.7申请日:20150113公开号:CN104573027A公开日:20150429
摘要:本发明公开了一种从文档集中挖掘特征词的系统和方法,其中所述方法包括:对所述文档集中的每个分句进行分词处理,得到分词结果表;计算分词结果表中每两个分词结果之间的正相关似然比统计量;对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出。本发明所提供的系统和方法,可以更有效地挖掘出能够更强地表现文档集旨意的特征词。
申请人:清华大学
地址:100084 北京市海淀区清华园1号清华大学
国籍:CN
代理机构:北京汉昊知识产权代理事务所(普通合伙)
代理人:朱海波
更多信息请下载全文后查看