概念层次网络(Hierarchical Network of Concepts,简称HNC)理论,并发展形成了HNC自然语言理解处理技术,它的最大特点是能够进入语义深层处理自然语言语言的内容。HNC已经形成了面向语句的句类分析技术,达到国际领先水平。智能网络文本信息检测系统,能模拟人浏览网页的方式对互联网的内容进行审查清理,对于不能做出判断的内容,系统还能提出警告,供人工判别。
这一系统的主要特点包括:
1、 针对网络上出现的色情、反动、低俗等不良信息文本内容进行检测。
2、 利用网络爬虫自动对指定网站的网页内容进行下载、检测并给检测报告。
3、 基于最新的自然语言内容理解技术,不同于以往的基于关键字词的检测系统,能够区分出不良信息和反不良信息的网页内容。
4、 对不能做出判断的内容能提出警告,供人工判别,和传统的检测系统相比能够大大地提高网页的处理数量和减少监管人员人工干预的工作量。
5、 快速处理海量文本内容,在单线程的条件下能够达到200kB/S以上。
6、 支持简体中文、繁体中文。
7、 高准确率,对该系统进行测试,成功率达85%以上。
本项目立足于自然语言的语句理解处理,拟开发适用于互联网海量文本的敏感信息检测,舆情分析与跟踪,商业情报的发掘、管理与服务等系列产品,是用户能够更加有效地利用各种信息资源。
联系人:张全 010-62559371
与关键词检测系统的对比数据
|
网页数量 |
敏感词页面数 |
手工处理敏感词数 |
实际问题网页数 |
关键词检测 |
1715 |
38 |
72 |
0 |
智能检测 |
1715 |
0 |
0 |
0 |