| 程序包 | 说明 |
|---|---|
| cn.edu.hfut.dmic.webcollector.example |
| 限定符和类型 | 类和说明 |
|---|---|
class |
DemoDepthCrawler
本教程和深度遍历没有任何关系
一些爬取需求希望加入深度信息,即遍历树中网页的层
利用2.20版本中的新特性MetaData可以轻松实现这个功能
|
class |
DemoHashSetNextFilter
WebCollector 2.x版本的tutorial(2.20以上) 2.x版本特性: 1)自定义遍历策略,可完成更为复杂的遍历业务,例如分页、AJAX
2)可以为每个URL设置附加信息(MetaData),利用附加信息可以完成很多复杂业务,例如深度获取、锚文本获取、引用页面获取、POST参数传递、增量更新等。
|
class |
DemoNextFilter
WebCollector 2.x版本的tutorial(2.20以上) 2.x版本特性: 1)自定义遍历策略,可完成更为复杂的遍历业务,例如分页、AJAX
2)可以为每个URL设置附加信息(MetaData),利用附加信息可以完成很多复杂业务,例如深度获取、锚文本获取、引用页面获取、POST参数传递、增量更新等。
|
class |
DemoPostCrawler
本教程演示了如何自定义http请求
有些爬取任务中,可能只有部分URL需要使用POST请求,我们可以利用2.20版本中添 加的MetaData功能,来完成POST请求的定制。
|
class |
TutorialCrawler
WebCollector 2.x版本的tutorial(2.20以上)
2.x版本特性:
1)自定义遍历策略,可完成更为复杂的遍历业务,例如分页、AJAX
2)可以为每个URL设置附加信息(MetaData),利用附加信息可以完成很多复杂业务,例如深度获取、锚文本获取、引用页面获取、POST参数传递、增量更新等。
|
Copyright © 2017. All Rights Reserved.