OA系统图书馆网站地图所长信箱English中国科学院
 
首页机构概况科研成果研究队伍国际交流科技合作研究生教育文化建设党群园地科学传播信息公开
  科普工作  
您现在的位置:首页 > 老网站 > 科学传播 > 科普工作
智能网络文本信息检测系统 Intelligent Text Information Detection System
2010/09/08 | 作者:科技处 | 【 【打印】【关闭】

概念层次网络(Hierarchical Network of Concepts,简称HNC)理论,并发展形成了HNC自然语言理解处理技术,它的最大特点是能够进入语义深层处理自然语言语言的内容。HNC已经形成了面向语句的句类分析技术,达到国际领先水平。智能网络文本信息检测系统,能模拟人浏览网页的方式对互联网的内容进行审查清理,对于不能做出判断的内容,系统还能提出警告,供人工判别。

这一系统的主要特点包括:

1、 针对网络上出现的色情、反动、低俗等不良信息文本内容进行检测。

2、 利用网络爬虫自动对指定网站的网页内容进行下载、检测并给检测报告。

3、 基于最新的自然语言内容理解技术,不同于以往的基于关键字词的检测系统,能够区分出不良信息和反不良信息的网页内容。

4、 对不能做出判断的内容能提出警告,供人工判别,和传统的检测系统相比能够大大地提高网页的处理数量和减少监管人员人工干预的工作量。

5、 快速处理海量文本内容,在单线程的条件下能够达到200kB/S以上。

6、 支持简体中文、繁体中文。

7、 高准确率,对该系统进行测试,成功率达85%以上。

本项目立足于自然语言的语句理解处理,拟开发适用于互联网海量文本的敏感信息检测,舆情分析与跟踪,商业情报的发掘、管理与服务等系列产品,是用户能够更加有效地利用各种信息资源。

联系人:张全 010-62559371

与关键词检测系统的对比数据

 

网页数量

敏感词页面数

手工处理敏感词数

实际问题网页数

关键词检测

1715

38

72

0

智能检测

1715

0

0

0

 
  相关新闻
Copyright 1996 - 中国科学院声学所 版权所有 备案序号:京ICP备16057196号 京公网安备110402500001号
地址:北京市海淀区北四环西路21号中国科学院声学研究所  邮编:100190