| 程序包 | 说明 |
|---|---|
| cn.edu.hfut.dmic.webcollector.crawler | |
| cn.edu.hfut.dmic.webcollector.example | |
| cn.edu.hfut.dmic.webcollector.plugin.berkeley | |
| cn.edu.hfut.dmic.webcollector.plugin.ram |
| 限定符和类型 | 类和说明 |
|---|---|
class |
AutoParseCrawler |
| 限定符和类型 | 类和说明 |
|---|---|
class |
DemoBingCrawler
本教程演示了WebCollector 2.20的新特性:
1)MetaData:
MetaData是每个爬取任务的附加信息,灵活应用MetaData可以大大简化爬虫的设计.
|
class |
DemoDepthCrawler
本教程和深度遍历没有任何关系
一些爬取需求希望加入深度信息,即遍历树中网页的层
利用2.20版本中的新特性MetaData可以轻松实现这个功能
|
class |
DemoHashSetNextFilter
WebCollector 2.x版本的tutorial(2.20以上) 2.x版本特性: 1)自定义遍历策略,可完成更为复杂的遍历业务,例如分页、AJAX
2)可以为每个URL设置附加信息(MetaData),利用附加信息可以完成很多复杂业务,例如深度获取、锚文本获取、引用页面获取、POST参数传递、增量更新等。
|
class |
DemoMetaCrawler
WebCollector 2.x版本的tutorial(2.20以上)
2.x版本特性:
1)自定义遍历策略,可完成更为复杂的遍历业务,例如分页、AJAX
2)可以为每个URL设置附加信息(MetaData),利用附加信息可以完成很多复杂业务,例如深度获取、锚文本获取、引用页面获取、POST参数传递、增量更新等。
|
class |
DemoNextFilter
WebCollector 2.x版本的tutorial(2.20以上) 2.x版本特性: 1)自定义遍历策略,可完成更为复杂的遍历业务,例如分页、AJAX
2)可以为每个URL设置附加信息(MetaData),利用附加信息可以完成很多复杂业务,例如深度获取、锚文本获取、引用页面获取、POST参数传递、增量更新等。
|
class |
DemoPostCrawler
本教程演示了如何自定义http请求
有些爬取任务中,可能只有部分URL需要使用POST请求,我们可以利用2.20版本中添 加的MetaData功能,来完成POST请求的定制。
|
class |
DemoTypeCrawler
WebCollector 2.40新特性 page.matchType
在添加CrawlDatum时(添加种子、或在抓取时向next中添加任务),
可以为CrawlDatum设置type信息
type的本质也是meta信息,为CrawlDatum的附加信息
在添加种子或向next中添加任务时,设置type信息可以简化爬虫的开发
例如在处理列表页时,爬虫解析出内容页的链接,在将内容页链接作为后续任务
将next中添加时,可设置其type信息为content(可自定义),在后续抓取中,
通过page.matchType("content")就可判断正在解析的页面是否为内容页
设置type的方法主要有3种:
1)添加种子时,addSeed(url,type)
2)向next中添加后续任务时:next.add(url,type)或next.add(links,type)
3)在定义CrawlDatum时:crawlDatum.type(type)
|
class |
TutorialCrawler
WebCollector 2.x版本的tutorial(2.20以上)
2.x版本特性:
1)自定义遍历策略,可完成更为复杂的遍历业务,例如分页、AJAX
2)可以为每个URL设置附加信息(MetaData),利用附加信息可以完成很多复杂业务,例如深度获取、锚文本获取、引用页面获取、POST参数传递、增量更新等。
|
| 限定符和类型 | 类和说明 |
|---|---|
class |
BerkeleyCrawler |
class |
BreadthCrawler
BreadthCrawler是基于Berkeley DB的插件,于2.20版重新设计
BreadthCrawler可以设置正则规律,让遍历器自动根据URL的正则遍历网站,可以关闭这个功能,自定义遍历
如果autoParse设置为true,遍历器会自动解析页面中符合正则的链接,加入后续爬取任务,否则不自动解析链接。
|
| 限定符和类型 | 类和说明 |
|---|---|
class |
RamCrawler
基于内存的Crawler插件,适合一次性爬取,并不具有断点爬取功能
长期任务请使用BreadthCrawler
|
Copyright © 2017. All Rights Reserved.