论文
基于CSS的网页分割算法
第一作者: | 孙晓辉 |
---|---|
英文第一作者: | Sun Xiaohui |
联系作者: | 孙晓辉 |
英文联系作者: | Sun Xiaohui |
发表年度: | 2008 |
卷: | 29 |
摘要: | 在页面变换,信息抽取,信息过滤等应用中,首先需要将原始页面分割成为若干合适的信息块以便于后续的处理。本文提出了一种基于CSS的网页分割算法,通过对网页进行解析和布局处理,提取出其中的CSS信息,并且使用重复模式检测和聚类的方法对生成的CSS树进行分割。试验证明该方法能够有效地分割网页,并且不依赖于特定的浏览器,适合嵌入式系统使用。 关键词:网页分割HTML CSS聚类信息块 |
刊物名称: | 微计算机应用 |