您好,欢迎来到微智科技网。
搜索
您的当前位置:首页基于HMM的蒙古文自动词性标注研究

基于HMM的蒙古文自动词性标注研究

来源:微智科技网
第39卷第2期 2010年3月 内蒙古师范大学学报(自然科学汉文版) Journal of Inner Mongolia Normal University(Natural Science Edition) Vo1.39 No.2 Mar.2010 基于H MM的蒙古文自动词性标注研究 艳 红,王斯日古楞 (内蒙古师范大学计算机与信息工程学院,内蒙古呼和浩特010022) 摘要:描述了基于统计的蒙古文自动词性标注系统的功能和总体结构,并对系统的性能进行测试.以规模 为95万词的语料库作为训练语料,对5万词的测试文本进行~级词性标注.结果表明封闭测试和开放测试的准 确率分别达到96.96 和96.79 关键词:蒙古文词性标注;统计方法;隐马尔可夫模型;Viterbi算法 中图分类号:TP 391.12 文献标识码:A 文章编号:1001-8735(2010)02-0206-04 蒙古文语料库是蒙古文信息处理研究中统计数据的提供者,词性标注则是语料库建设中的重要环节,对 蒙古语语料库标注、机器翻译和大规模文本信息检索等都有重要的意义.一个词可能属于多种词类,但在实 际语言环境中只能属于一种词类,词性标注就是指出一个词在实际语言环境中的正确类型.蒙古文词性标注 是蒙古文信息处理技术中的一项基础性课题,本文主要介绍基于统计的蒙古文自动词性标注系统的设计与 实现. 1 词性标注方法的选取 词性标注方法有基于规则的方法、基于语料库的统计方法、基于规则和统计相结合的方法.基于规则的 方法,需要大量的人力来制定规则,而且不容易保证规则的完备性和在真实文本处理中的有效性.基于统计 的方法是对部分语料进行手工标注,然后对标注语料进行统计,得到标记与标记同现的频率,产生一个与标 记同现的同现频率矩阵.在进行自动标注时,从文本中取出两端没有词性歧义的词串,利用标记同现频率的 乘积计算此词串的所有可能的标记组成的标记串的权值,选择权值最大的标记串作为标注结果.基于统计的 标注方法有抑制小概率事件发生的作用,但会受到长距离搭配上下文的,而这一缺陷通过规则的方法很 容易实现,所以人们提出规则和统计相结合的方法. 在蒙古文自动词性标注方面,文献[1-1实现了基于规则的蒙古文自动词性的标注;文献[2]完成了基于 切分和词典的词性标注系统,由于不能解决兼类词的问题,该系统用基于统计的方法进行了改进和修补;文 献[33提出了一个改进的基于转换的蒙古文词性标注方法,用于解决原基于转换方法中规则学习训练时间 过长的问题.目前,基于语料库统计方法的蒙古文自动词性标注的研究成果尚不多见,为提高标注的准确性, 本文尝试采取基于语料库的统计方法对蒙古文进行自动词性标注. 2 语料库及标记集的选择 2.】语料库的选择 本研究使用内蒙古大学蒙古学学院已标注词性的100万词级的《现代蒙古文数据库》,该语料库采用蒙 古文拉丁转写方式,内容包括文学作品、蒙古文教材、报刊和政治论著. 2.2标记集的选择 词性标记规范参考内蒙古大学蒙古学学院的“面向信息处理的蒙古语词语分类及其标记集”,并采用其 收稿日期:2009-07-12 基金项目:国家自然科学基金资助项目(60363005) 作者简介:艳 红(1983一),女(蒙古族),内蒙古兴安盟人,内蒙古师范大学硕士研究生 通信作者:王斯日古楞(1970一),女(土族),内蒙占锡林浩特市人,内蒙古师范大学副教授,主要从事蒙占文信息处理和机器翻译研究 第2期 艳红等:基于HMM的蒙古文自动词性标注研究 ・207・ 中的一级标记集,见表1. 表1词性标记集 Tab.1 Par卜0f.speech tagging set 标记 词性 标记 词性 标记 词性 标记 词性 A 形容词 H 情态词 P 不确定词 U 模拟词 c 连接词 I 感叹词 Q 量词 V 动词 D 副词 M 数词 R 代词 w 标点 F 构形附加成分 N 名词 S 语气词 Y 复合词 G 后置词 0 时位词 T 时间词 3 系统的功能与整体框架 3.1 系统的功能 系统采用的语料有100万个词,考虑程序运行 的速度问题,将语料库以文本文件格式存储,这样 读取大规模语料库的速度会有所提高,从而提高程 序运行的速度.程序开始运行时首先读取训练语 料,通过训练语料获得隐马尔可夫模型(HMM)参 数,并对其进行参数平滑,从而得到相应的有效参 数,即词性转移概率矩阵、词汇概率矩阵和词性出 现频度表.然后读取测试文本,并根据句子结束符 号进行断句.对于每个句子,使用Viterbi算法获得 每个词的最佳词性.最后将标注词性的所有句子输 出到Result.txt文件中.系统的运行过程如图1 所示. 3.2系统的整体框架 3.2.1 打开训练语料库模块的实现定义了两个 vector类型的变量Source—Word和Source—Pos: Source_Word中存放训练语料中出现的蒙古文单 词;Source—Pos中存放训练语料库中出现的词性 图1词性标注系统结构流程图 标记.同时定义了两个map类型的变量wor0一 Fig.1 Flow chart of par}0f_speech tagging system structure Num和Pos—Num:wor0一Num以蒙古文单词为 索引,存放该单词在训练语料中出现的频率;Pos—Num以蒙古文词性标记为索引,存放该标记在训练语料 中出现的频率. 3.2.2获得模型参数模块的实现本系统使用二元隐马尔可夫模型,即假设当前词性的出现只与紧邻的前 面词的词性有关.确定好语言模型后就可以求解模型参数,求解模型参数的过程是通过训练语料库获得的. 训练语料时首先计算词性转移频率矩阵PosToPos—Frequency、词汇频率矩阵PosToWord—Frequency和词 性出现频度表Word—Frequency.根据频率矩阵和频度表计算出词性转移概率矩阵PosToPos—Probability和 词汇概率矩阵PosToWord_Probability. 3.2.3 平滑参数模块的实现 依据所选的训练语料库,采用插值法进行参数平滑,转移概率系数取0.15. 通过对以上计算出的概率进行参数平滑获取二元隐马尔可夫模型的参数,即词性转移概率矩阵PosToPos— Probability和词汇概率矩阵PosToWord—Probability. 3.2.4 断句模块的实现在本模块中,系统先将测试文本读人内存中,再根据蒙古文的句子结束符号进行 断句.断句的句子结束符号有句号(.)、感叹号(!)、分句号(;)、冒号(:)、省略号(……)、问号(?).断句时需要 ・ 208・ 内蒙古师范大学学报(自然科学汉文版) 第39卷 注意一些特殊情况:句子结束符号后面出现非句子结束符号时,应判断出现在该句子结束符号后面的符号是 否属于本句,若属于本句,则断句时将其归人本句中.例如 <<JA SAYIN YABV/JV BAYI/N—A VV?>> 断句首先找到“?”,再取下一个词,即符号“>>’’,因为符号“>>”是与符号“<<”相匹配使用的,因此将其 归入本句中. 3.2.5 Viterbi算法进行词性标注模块的实现 Viterbi算法的基本过程为: (1)初始化. ( )=霸b ( 1), 1≤ ≤N, A1( )一O. (2)递归算法通向每个词硼, 的每个词性标记t,的最佳路径. ( )一max[ 一1( )×a ]×bj(叫 ), 2≤ ≤M,1≤ ≤N, △ ( ) arg ma [ 一1( )×口 ]×bj( ), 2≤ ≤M,1≤ ≤N. (3)达到最后一个词WM时,计算这个词的最佳词性标记. P : max[ M( )], £ 一arg max[ M( )]. (4)从叫M的最佳词性标记开始,顺次回推取得每个词的最佳词性标记. 一△ +1( +1), m—M一1,M一2,…,2,1. 其中:7c 表示句首词出现第i个词性的概率;b,(叫 )表示第 个词(叫 )的各个词性标记取词语叫 的条件 概率;n 表示从第m个词(训 )的各个词性标记向第 +1个词( + )的各个词性标记转移的概率;M表 示当前句子中的单词个数;N表示词性种类个数. 在此模块中首先处理句首词,即计算句首词取某词性的最大概率,然后处理非句首句尾的词,即计算从 前一个词的所有词性分别转到当前词所有词性的概率,调用Max函数对每种可能的词性选择一个概率值最 大的路径,再分别乘以当前词取这些词性的概率,得到相应的权值,存放到Most—State二维数组中,接着处 理句尾词,即从前一个词的词性转到最后一个词的路径中选择权值最大的确定为最后一个词的词性.最后用 递归方法回推,访问Most—State数组,选取权值最大的词性作为当前词的词性,直到确定完句首词的词性 为止. 4 测试结果及分析 4.1测试结果 为了评价蒙古文自动词性标注系统的性能,采用词性标注正确率进行评价,即 ×100 . 其中:NAL 表示用来测试的语料库中词的总数量;N 是测试时标注正确的词的数量.该公式是对词性标注 系统的整体评价. 在测试时随机从训练语料库中抽取5万个词作为封闭测试集和开放测试集,分别对不同词级的训练语 料进行封闭测试和开放测试.测试结果见图2. 4.2测试结果分析 对于词性标注系统,影响其标注正确率的因素主要有: (1)训练语料库规模的大小和语料内容涉及的领域.从图2可以看出,语料规模越大,标注的正确率越 高,但语料库的大小和标注的准确率并非是线性关系,语料的规模增加到一定程度后,在扩大训练语料时,其 准确率的增加会相对变缓.此外,训练语料库涉及的内容越广,标注的正确率越高. (2)词 标记集的大小.词性标记集的划分越细,越会降低排歧效率,从而降低标注的正确率.我们分别 采用一级、二级、三级词性标记集,以95万词级的语料库作为训练语料,对5万个词进行封闭和开放测试,结 果见图3.由图3可知,标记集级别增加时,标注准确率降低. (3)测试语料的内容.若测试语料中的很多词在训练语料中从未出现过,也会降低标注的正确率. 第2期 、瓣嚣茸列鞲 艳红等:基于HMM的蒙古文自动词性标注研究 ・209・ 9 9 9 9 9 9 9 9 7 7 6 6 5 5 4 4 (4)训练语料库是人工标注的,而且训练语料的规模也比较大,因此难免会出现错误的标注,这也是影 5 O 5 O 5 O 5 O O O O O O O O O 响标注正确率的一个因素. 98.0o 96.00 褂 善94.00 划 鞲 92.00 9O.0o 45 55 65 75 85 95 一级 二级 三级 训练语料库规模/万 标注集类型 图2训练语料规模与标注正确率的关系 图3词性标记集类型与标注正确论的关系 Fig.2 The relationship between training corpus size Fig.3 The relationship between type of part—of-speech and tagging accuracy rate tagging set and tagging accuracy rate 5 总结 蒙古文自动词性标注是蒙古文信息处理领域中一个比较困难的问题.本文采用二元隐马尔可夫模型,运 用线性插值法解决了数据稀疏问题,最后采用Viterbi算法完成了对蒙古文的自动词性标注.以95万词级的 语料库作为训练语料,对5万词级的实验语料进行了一级、二级和三级词性标注,其中一级标注的开放测试 和封闭测试正确率分别达到96.7948 和96.962 7 ,但是与应用系统的要求还有一定的差距.为了提高标 注系统的正确率,需要进一步研究如何将蒙古文的切分与隐马尔可夫模型相结合起来进行词性消歧. 参考文献: Eli赵斯琴.蒙古语词性标注系统的设计[J].内蒙古师范大学学报:自然科学汉文版,2006,35(2):186—188 [2] 图格木乐.蒙古文资源库相关技术研究[D].呼和浩特:内蒙古大学蒙古学学院.2007. [3]胡冠龙,张建,李淼.改进的基于转换方法的拉丁蒙文词性标注[J].计算机应用.2007,27(4):963—965. [4]嘎IEI迪,斯日古楞.蒙古文信息处理技术及自然语言理解[M].呼和浩特:内蒙古大学出版社,2006. [5] 梁以敏.基于统计的汉语词性标注方法的研究[D].大连:大连理工大学计算机科学与技术学院,2004. E6]魏欧.吴健.孙玉芳.基于统计的汉语词性标注方法的分析与改进[J].软件学报,2000,l1(4):467—480. [7]陈小荷.现代汉语自动分析:Visual C++实现[M].北京:北京语言文化大学出版社。2000. Study on Mongolian Part—of-Speech Tagging Based on H MM Yanhong,WANG Siriguleng (College of Computer and Information Engineering Science,lnner Mongolia Normal University,Hohhot 010022,China) Abstract:The functions and overall structure of a Mongolian part—of—speech tagging system based on statistics method is presented,and its performance test is completed with 950 000 words training corpUS and 50 000 words test text.The close and open test result of the pos tagging on level one shows that tagging accuracies are about 96.96 and 96.79 A respecti0vely. Key words:Mongolian part—of-speech tagging;statistical method;hiden markov model;veterbi algorithm 【责任编辑金淑兰】 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 7swz.com 版权所有 赣ICP备2024042798号-8

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务