一种消除混合歧义的新方法_消除歧义的方法

  中图分类号:TP311.52 文献标识码:A 文章编号:1003-2738(2011)11-0361-01       摘要:由于混合歧义以及交叉歧义的存在,歧义一直是困扰分词技术发展的瓶颈。本文以含有歧义词语的句子作为研究对象,考虑了由于不同的分词方法导致的共生词语的出现,构建了辨别不同断句方法的公式。初步试验与例证表明该方法具有较好的灵活性,优于现存技术。
   关键词:信息处理;混合歧义;消除歧义;方程
  
  
   一、前言
   在中文文本信息处理中,自动分词是一项由计算机将完整的句子划分为多个词语单元的技术。由于分词的精度严重影响了读者对于文本的分析与理解程度,因此该技术在信息处理领域具有一定的重要意义,比如文本分类、文本信息检索以及本文自动总结等。分词技术的瓶颈是消除歧义,其中包括混合歧义与交叉歧义。
   以下列存有混合歧义的句子为例:
   1.你要考虑你自己的/将来/;市长/将/来/我们学校考察工作。
   2.他/才能/有资格获得冠军;人/才/能/推动科技进步。
   3.国家的/中长期/计划是指导国家战略发展的计划;这是国际共产主义运动/中/长期/没有解决的一个重大理论问题。
   在本文中,综合考虑了多种分词方法所导致的不同结果,例如歧义词“中长期”可以分解为“中”,“长期”或者“中长期”两种不同的结果,在可能的结果与其在文本中前后的词语之间,根据匹配词语的数量构建方程来消除句子中的歧义。
   二、相关概念
   定义1:将连续的字符串分解为多个词语的技术为分词技术,且由不同分词方法导致的词语含义发生变化称为歧义。
   定义2:现有任一字符串***AB***,W为词组,如果AB∈W,A∈W,B∈W,则AB可以被分解为/AB/,或者/A/B/,此时AB被称为混合歧义。
   定义3:现有数组D={d1,d2,…,dm},且单元di={t1,t2,…,tn}(i=1,2, …,m)。T={t1,t2, …,tp}为D中所有的单元。因此可得:单元集:T中任一子集均为D中的单元集,记为X,|X|=k为X中单元个数,如果单元个数等于k,则称单元集为k单元集。
   令,将方程的单元集定义为:
  
   F(X),F(X,Y)是关于单元集X与的方程,|D|是D集合的长度。
   三、混合歧义
   (一)定义
   定义4:令共生词集A∈T,B∈T,T为文本,α为常数由试验确定。则:
  
   定义5:令,为混合歧义词。如果被视为整体,则分解结果为,进一步分解为。
   若,被称为整体右边共生词集。
   若,被称为整体左边共生词集。
   若,被称为分离右共生词集。
   若,被称为分离左共生词集。
   定义6:令为混合歧义句。并构建方程消除歧义,由方程对比结果可确定将歧义词做整体保留或分解处理。
   (二)设计原则
   混合歧义性词语被保留为整体还是分解主要应由词语所在上下文决定。根据不同分词方法与上下文信息,结合两者的匹配度,确定对词语做何种分词。所以首先需获得不同分词方法的结果,在结果与上下文之间计算出匹配度构建方程挑选合适的分词方法,最终消除歧义。
   如:在句子“国家的‘中长期’计划是指导国家战略发展的计划;这是国际共产主义运动‘中长期’没有解决的一个重大理论问题”中“中长期”具有混合歧义性,分词结果有“中长期”与“中”“长期”。根据上下文有“国家的中长期”,“中长期计划”,“国家的中”,“长期计划”,“运动中长期”,“中长期没有”。“运动中”,“长期没有”等。但是“国家的中”与“运动中长期”不能构成词语,匹配为0。
   由式1、2可得,所以混合歧义词应被保留整体。
   针对“这是国际共产主义运动中长期没有解决的一个重大理论问题”,由式1、2可得,所以应对混合歧义词采用分离分解。
  
  
   四、试验
   试验对象为纯文本,在文本格式化之前完成内容的编辑。
   (一)样本描述
   现有样本句(1) 你要考虑你自己的将来;市长将来我们学校考察工作;(2) 他才能有资格获得冠军;人才能推动科技进步;(3) 国家的中长期计划是指导国家战略发展的计划;这是国际共产主义运动中长期没有解决的一个重大理论问题;样本句中包含混合歧义词“将来”、“才能”、“中长期”。现将北京大学[4]开发的分词测试平台与猎兔分词平台[5]对3个样本句的分词结果如图1 a、b所示。由结果可知,两个平台均无法消除混合歧义。
   (二)试验评价
   选择包含8组混合歧义词的文本评价本文所说明的算法。结论:依据试验结果,本文介绍的消除歧义方法具有较好的灵活性和可靠性,在消除混合歧义方面优于现有技术。
   五、总结
   基于关联规则,本文对消除混合歧义的新方法进行了讨论。该方法计算了不同分词方法处理的结果与上下文之间的匹配度,构建了方程消除歧义。根据计算与试验结果表明该方法灵活、可靠,并优于传统技术。
  
   参考文献:
   [1] Yuzi Liu, Zhongshi He. Based on SVM and Rules for the Disambiguation of Combinatorial Ambiguous Phrases [J]. CU, 2005, (10): 50-53.
   [2] Yun Xiao. Solving Combinatorial Ambiguity in Chinese Word Segmentation Using Contextual Information [J]. CEA, 2001, (19): 87-90.
   [3] Dexin Ding, Weiguang Qu. Research of Disambiguating Combination Ambiguity in Chinese Word Segmentation Based on CRF [J]. NNU, 2008,8 (4):73-77.
   [4] http://www.icl.pku.省略/
   [5] http://www.省略/SCSeg.jpg

推荐访问:歧义 新方法 混合 一种消除混合歧义的新方法 消除歧义的方法 消除歧义的常用方法