| 程序包 | 说明 |
|---|---|
| cn.edu.hfut.dmic.webcollector.example |
| 类和说明 |
|---|
| BreadthCrawler
BreadthCrawler是基于Berkeley DB的插件,于2.20版重新设计
BreadthCrawler可以设置正则规律,让遍历器自动根据URL的正则遍历网站,可以关闭这个功能,自定义遍历
如果autoParse设置为true,遍历器会自动解析页面中符合正则的链接,加入后续爬取任务,否则不自动解析链接。
|
Copyright © 2017. All Rights Reserved.