| 程序包 | 说明 |
|---|---|
| cn.edu.hfut.dmic.webcollector.crawler | |
| cn.edu.hfut.dmic.webcollector.model | |
| cn.edu.hfut.dmic.webcollector.util |
| 限定符和类型 | 字段和说明 |
|---|---|
protected RegexRule |
AutoParseCrawler.regexRule
URL正则约束
|
| 限定符和类型 | 方法和说明 |
|---|---|
RegexRule |
AutoParseCrawler.getRegexRule()
获取正则规则
|
| 限定符和类型 | 方法和说明 |
|---|---|
void |
AutoParseCrawler.setRegexRule(RegexRule regexRule)
设置正则规则
|
| 限定符和类型 | 方法和说明 |
|---|---|
Links |
Links.addByRegex(org.jsoup.nodes.Document doc,
RegexRule regexRule) |
Links |
Links.addByRegex(org.jsoup.nodes.Document doc,
RegexRule regexRule,
boolean parseImg) |
Links |
Links.filterByRegex(RegexRule regexRule) |
| 限定符和类型 | 方法和说明 |
|---|---|
RegexRule |
RegexRule.addNegative(String negativeregex)
添加一个反正则规则
|
RegexRule |
RegexRule.addPositive(String positiveregex)
添加一个正正则规则
|
RegexRule |
RegexRule.addRule(String rule)
添加一个正则规则 正则规则有两种,正正则和反正则
URL符合正则规则需要满足下面条件: 1.至少能匹配一条正正则 2.不能和任何反正则匹配
正正则示例:+a.
|
Copyright © 2017. All Rights Reserved.