| 程序包 | 说明 |
|---|---|
| cn.edu.hfut.dmic.webcollector.crawldb | |
| cn.edu.hfut.dmic.webcollector.crawler | |
| cn.edu.hfut.dmic.webcollector.model |
| 限定符和类型 | 方法和说明 |
|---|---|
void |
DBManager.inject(Links links) |
void |
DBManager.inject(Links links,
boolean force) |
| 限定符和类型 | 方法和说明 |
|---|---|
void |
Crawler.addSeed(Links links)
与addSeed(CrawlDatums datums)类似
|
void |
Crawler.addSeed(Links links,
boolean force)
与addSeed(CrawlDatums datums, boolean force) 类似
|
void |
Crawler.addSeed(Links links,
String type)
与addSeed(CrawlDatums datums)类似
|
void |
Crawler.addSeed(Links links,
String type,
boolean force)
与addSeed(CrawlDatums datums, boolean force) 类似
|
| 限定符和类型 | 方法和说明 |
|---|---|
Links |
Links.add(Collection<String> urls) |
Links |
Links.add(Links links) |
Links |
Links.add(String url) |
Links |
Links.addAllFromDocument(org.jsoup.nodes.Document doc) |
Links |
Links.addByRegex(org.jsoup.nodes.Document doc,
RegexRule regexRule) |
Links |
Links.addByRegex(org.jsoup.nodes.Document doc,
RegexRule regexRule,
boolean parseImg) |
Links |
Links.addByRegex(org.jsoup.nodes.Document doc,
String rule) |
Links |
Links.addBySelector(org.jsoup.nodes.Document doc,
String cssSelector)
添加doc中,满足选择器的元素中的链接 选择器cssSelector必须定位到具体的超链接
例如我们想抽取id为content的div中的所有超链接,这里 就要将cssSelector定义为div[id=content] a
|
Links |
Links.filterByRegex(RegexRule regexRule) |
Links |
Links.filterByRegex(String regex) |
Links |
Page.getLinks(String cssSelector)
已过时。
|
Links |
Page.links() |
Links |
Page.links(String cssSelector)
获取满足选择器的元素中的链接 选择器cssSelector必须定位到具体的超链接 例如我们想抽取id为content的div中的所有超链接,这里
就要将cssSelector定义为div[id=content] a
|
| 限定符和类型 | 方法和说明 |
|---|---|
Links |
Links.add(Links links) |
CrawlDatums |
CrawlDatums.add(Links links) |
CrawlDatums |
CrawlDatums.add(Links links,
String type) |
| 构造器和说明 |
|---|
CrawlDatums(Links links) |
CrawlDatums(Links links,
String type) |
Links(Links links) |
Copyright © 2017. All Rights Reserved.