| 类 | 说明 |
|---|---|
| BerkeleyCrawler | |
| BerkeleyDBManager | |
| BerkeleyDBReader | |
| BerkeleyDBUtils | |
| BerkeleyGenerator | |
| BreadthCrawler |
BreadthCrawler是基于Berkeley DB的插件,于2.20版重新设计
BreadthCrawler可以设置正则规律,让遍历器自动根据URL的正则遍历网站,可以关闭这个功能,自定义遍历
如果autoParse设置为true,遍历器会自动解析页面中符合正则的链接,加入后续爬取任务,否则不自动解析链接。
|
Copyright © 2017. All Rights Reserved.