日前,在由清华大学和东北大学负责主办的中文信息学会句法评测(CIPS-ParsEval-2009)中,中科院声学所中科信利HNC语言处理团队获得汉语事件描述单元识别第一名、汉语功能块分析第二名的佳绩。本次评测有来自美国、欧洲、中国大陆、香港和台湾地区的共24支队伍参加。
有效地真实文本评测是提升自然语言处理技术的一个重要途径。英语方面的CoNLL (Conference on Computational Natural Language Learning) 评测是国际上著名的自然语言处理会议,它的评测任务就包括基本名词短语识别、文本块分析、子句识别、命名实体识别、语义角色标注、依存分析、句法依存和语义角色一体化处理等,涉及到自然语言处理的若干子课题。汉语方面,基于块分析的句法分析的好坏则直接影响句法分析系统的优劣,而中文信息学会句法评测(CIPS-ParsEval-2009)正是中国中文信息处理学界在句法语义分析层面上举办的最高赛事。该评测包括汉语词性标注处理、汉语基本块分析、汉语功能块分析、汉语事件描述单元识别和句法结构树识别五项评测任务,其中三项涉及汉语文本的块分析问题。其目标是对汉语“字/词-块-句”不同层次的句法分析技术进行比较全面的评测;通过大规模评测,开发针对不同任务的有效处理工具,为不同应用提供有效的、不同层次的汉语文本分析工具。
汉语块是句法语义信息的结合体,块内部的词语关联性是句法语义联系的桥梁。一个理想的句法分析系统应是既能找到明确的句法判据,又可以形成合理的语义解释。我所HNC语言处理团队借助于自身独特的理论基础和自然语言处理技术积累,从1998年就开始进行以汉语语义块和句类为核心的自然语言核心技术研究。在汉语研究过程中,HNC语言处理技术采用不同于传统现代汉语的依存树法分析句子,在涉及自然语言处理相关课题中,特别是在功能块分析以及事件描述框架上形成了独特见解,经过近几年的艰苦攻关,取得了良好的突破,为本次评测取得好成绩奠定了基础,未来我们将努力实现该技术的工程实用化。
我们的成绩