HNC及其基本内容
电子计算机是人类20世纪的伟大发明之一。发明之初,人们主要用它来计算弹道的轨迹,以便更准确地使用大炮打击敌人。这主要进行的是数字计算。很快人们就发现可以利用计算机的逻辑运算能力进行不同语言之间的翻译,例如从俄语翻译成英语,这样即使不懂俄语的人也能看懂俄语的书刊报纸。研究人员认为学习一门外语不外乎就是掌握这门语言的语法规则,大量的词汇和习惯用语。人们也确实是这样学习外语的。对于计算机而言,语法规则可以在用计算机的规则进行表示,词汇和习惯用语可以按照一定的结构存贮计算机中,这样就可以进行语言的翻译了。然而实际的结果表明用计算机进行不同语种的翻译绝不是这么简单。尽管计算机已经能够适应和处理多种编程语言,但是面对人类自然语言的多义模糊计算机束手无策。什么是自然语言,就是我们日常使用的语言,是相对于人工设计的计算机编程语言(例如Basic,Java,等等)而言的。什么是多义模糊,就是同一个词语在不同的使用情况下,具有不同的语义内容,例如“教授”,可以表示一种职称,或者对人的称呼,如张教授,王教授等等;也可以是一个传授知识的动作,例如“王老师教授我们高等数学”。人脑特别适应处理这种模糊,因此人们之间可以顺畅的进行交流。
如何让计算机拥有象人类一样的语言智能,能够理解人类的自然语言是自然语言理解的研究课题,也是当今信息时代面临的一项重大科学难题。自然语言理解处理研究一旦获得突破,这样就相当于掌握制造语言超人的能力,这个语言超人可以不眠不休,一天24小时,一目千行阅读资料,从中提取有用的知识。也可以将不同语言的资料翻译成用户的母语,方便使用者的使用。从而形成巨大的语言知识处理和知识服务产业,并深刻影响计算机科学与技术的发展,从而有力地推动信息时代从初级阶段向高级阶段的迈进。
中国科学院声学研究所黄曾旸研究员面向这一时代的召唤,创立的概念层次网络(简称HNC)理论。它将人们对于语言的理解方法及概念符号化,使计算机能够模拟人脑的语言智能进行语言理解和推论,从而真正“理解”人的语言。
HNC理论的目标是:以概念联想脉络为主线,建立一种模拟大脑语言感知过程的自然语言表达模式和计算机理解处理模式,使计算机获得消解模糊的能力。HNC通过研制交互引擎来实现这一目标。
HNC智能过滤器
HNC已经形成了面向语句的句类分析技术,达到国际领先水平。同时,以HNC为基础的各种应用技术已经形成,并成功应用于信息检测和屏蔽不良信息的软件系统中,正在为净化互联网的网络内容发挥作用。
概念层次网络(Hierarchical Network of Concepts,简称HNC)理论,并发展形成了HNC自然语言理解处理技术,它的最大特点是能够进入语义深层处理自然语言语言的内容,而不是仅仅利用语言的表层信息进行处理。因此尽管涉及同样的关键词,但是HNC技术能够区分不良信息和对不良信息进行批判的网络内容。HNC团队已经取得了多项成果,形成了自主知识产权的自然语言理解处理技术,为形成满足信息时代要求的各种特定的信息处理技术奠定了坚实的基础。
“网络不良信息检测系统”的研发就是将这些自然语言理解处理技术与先进的网络技术结合而形成的。
这一系统的主要特点包括:
1、 针对网络上出现的色情、反动、低俗等不良信息文本内容进行检测。
2、 利用网络爬虫自动对指定网站的网页内容进行下载、检测并给检测报告。
3、 基于最新的自然语言内容理解技术,不同于以往的基于关键字词的检测系统,能够区分出不良信息和反不良信息的网页内容。
4、 对不能做出判断的内容能提出警告,供人工判别,和传统的检测系统相比能够大大地提高网页的处理数量和减少监管人员人工干预的工作量。
5、 快速处理海量文本内容,在单线程的条件下能够达到200kB/S以上。
6、 支持简体中文、繁体中文。
7、 高准确率,对该系统进行测试,成功率达85%以上。
与关键词检测系统的对比数据
|
网页数量 |
敏感词页面数 |
手工处理敏感词数 |
实际问题网页数 |
关键词检测 |
1715 |
38 |
72 |
0 |
智能检测 |
1715 |
0 |
0 |
0 |
|