| 类 | 说明 |
|---|---|
| DemoBingCrawler |
本教程演示了WebCollector 2.20的新特性:
1)MetaData:
MetaData是每个爬取任务的附加信息,灵活应用MetaData可以大大简化爬虫的设计.
|
| DemoDepthCrawler |
本教程和深度遍历没有任何关系
一些爬取需求希望加入深度信息,即遍历树中网页的层
利用2.20版本中的新特性MetaData可以轻松实现这个功能
|
| DemoHashSetNextFilter |
WebCollector 2.x版本的tutorial(2.20以上) 2.x版本特性: 1)自定义遍历策略,可完成更为复杂的遍历业务,例如分页、AJAX
2)可以为每个URL设置附加信息(MetaData),利用附加信息可以完成很多复杂业务,例如深度获取、锚文本获取、引用页面获取、POST参数传递、增量更新等。
|
| DemoMetaCrawler |
WebCollector 2.x版本的tutorial(2.20以上)
2.x版本特性:
1)自定义遍历策略,可完成更为复杂的遍历业务,例如分页、AJAX
2)可以为每个URL设置附加信息(MetaData),利用附加信息可以完成很多复杂业务,例如深度获取、锚文本获取、引用页面获取、POST参数传递、增量更新等。
|
| DemoNextFilter |
WebCollector 2.x版本的tutorial(2.20以上) 2.x版本特性: 1)自定义遍历策略,可完成更为复杂的遍历业务,例如分页、AJAX
2)可以为每个URL设置附加信息(MetaData),利用附加信息可以完成很多复杂业务,例如深度获取、锚文本获取、引用页面获取、POST参数传递、增量更新等。
|
| DemoPostCrawler |
本教程演示了如何自定义http请求
有些爬取任务中,可能只有部分URL需要使用POST请求,我们可以利用2.20版本中添 加的MetaData功能,来完成POST请求的定制。
|
| DemoSelenium |
本教程演示如何利用WebCollector爬取javascript生成的数据
|
| DemoTypeCrawler |
WebCollector 2.40新特性 page.matchType
在添加CrawlDatum时(添加种子、或在抓取时向next中添加任务),
可以为CrawlDatum设置type信息
type的本质也是meta信息,为CrawlDatum的附加信息
在添加种子或向next中添加任务时,设置type信息可以简化爬虫的开发
例如在处理列表页时,爬虫解析出内容页的链接,在将内容页链接作为后续任务
将next中添加时,可设置其type信息为content(可自定义),在后续抓取中,
通过page.matchType("content")就可判断正在解析的页面是否为内容页
设置type的方法主要有3种:
1)添加种子时,addSeed(url,type)
2)向next中添加后续任务时:next.add(url,type)或next.add(links,type)
3)在定义CrawlDatum时:crawlDatum.type(type)
|
| TutorialCrawler |
WebCollector 2.x版本的tutorial(2.20以上)
2.x版本特性:
1)自定义遍历策略,可完成更为复杂的遍历业务,例如分页、AJAX
2)可以为每个URL设置附加信息(MetaData),利用附加信息可以完成很多复杂业务,例如深度获取、锚文本获取、引用页面获取、POST参数传递、增量更新等。
|
Copyright © 2017. All Rights Reserved.