|
|
|
| 论文题目 |
基于CSS的网页分割算法 |
| 论文题目(英文) |
|
| 作者 |
孙晓辉 |
| 发表年度 |
2008 |
| 卷 |
29 |
| 期 |
9 |
| 页码 |
46-51 |
| 期刊名称 |
微计算机应用 |
| 摘要 |
在页面变换,信息抽取,信息过滤等应用中,首先需要将原始页面分割成为若干合适的信息块以便于后续的处理。本文提出了一种基于CSS的网页分割算法,通过对网页进行解析和布局处理,提取出其中的CSS信息,并且使用重复模式检测和聚类的方法对生成的CSS树进行分割。试验证明该方法能够有效地分割网页,并且不依赖于特定的浏览器,适合嵌入式系统使用。 关键词:网页分割HTML CSS聚类信息块 |
| 摘要_英文 |
As apreproeessing process,web page segmentation is important for webpage transcoding,information extraction and information filtering.A CSS based segmentation algorithm is propot,which utilizes parsing and layout of web pages to extract CSS information,then a duplicate pattern detection and clustering method is appliedfor splitting.The experiment results show that the method is effective and does not depend On specific browser,which nlakes it suitable for embedded applications. Keywords:web page segmentation,HTML,CSS,clustering,information block |
|
|
|