- add(CrawlDatum) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatums
-
- add(String, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatums
-
- add(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatums
-
- add(CrawlDatums) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatums
-
- add(Links, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatums
-
- add(Links) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatums
-
- add(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
-
- add(Links) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
-
- add(Collection<String>) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
-
- add(String, int) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.Proxys
-
- add(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.Proxys
-
- addAllFromDocument(Document) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
-
- addAllFromFile(File) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.Proxys
-
- addByRegex(Document, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
-
- addByRegex(Document, RegexRule) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
-
- addByRegex(Document, RegexRule, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
-
- addBySelector(Document, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
-
添加doc中,满足选择器的元素中的链接 选择器cssSelector必须定位到具体的超链接
例如我们想抽取id为content的div中的所有超链接,这里 就要将cssSelector定义为div[id=content] a
- addEmpty() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.Proxys
-
- addFetchItem(Fetcher.FetchItem) - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.FetchQueue
-
- addHeader(String, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
-
- addHeader(String, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
-
- addNegative(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.util.RegexRule
-
添加一个反正则规则
- addPositive(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.util.RegexRule
-
添加一个正正则规则
- addRegex(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
-
添加URL正则约束
- addRule(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.util.RegexRule
-
添加一个正则规则 正则规则有两种,正正则和反正则
URL符合正则规则需要满足下面条件: 1.至少能匹配一条正正则 2.不能和任何反正则匹配
正正则示例:+a.
- addSeed(CrawlDatum, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
-
添加种子任务
- addSeed(CrawlDatum) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
-
等同于 addSeed(datum, false)
- addSeed(CrawlDatums, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
-
添加种子集合
- addSeed(CrawlDatums) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
-
等同于 addSeed(datums,false)
- addSeed(Links, String, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
-
与addSeed(CrawlDatums datums, boolean force) 类似
- addSeed(Links, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
-
与addSeed(CrawlDatums datums, boolean force) 类似
- addSeed(Links, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
-
与addSeed(CrawlDatums datums)类似
- addSeed(Links) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
-
与addSeed(CrawlDatums datums)类似
- addSeed(String, String, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
-
与addSeed(CrawlDatum datum, boolean force)类似
- addSeed(String, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
-
与addSeed(CrawlDatum datum, boolean force)类似
- addSeed(String, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
-
与addSeed(CrawlDatum datum)类似
- addSeed(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
-
与addSeed(CrawlDatum datum)类似
- afterParse(Page, CrawlDatums) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
-
- afterParse(Page, CrawlDatums) - 类 中的方法cn.edu.hfut.dmic.webcollector.example.DemoDepthCrawler
-
- attrs(String, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
-
获取网页中满足指定css选择器的所有元素的指定属性的集合
例如通过getAttrs("img[src]","abs:src")可获取网页中所有图片的链接
- autoParse - 类 中的变量cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
-
是否自动抽取符合正则的链接并加入后续任务
- AutoParseCrawler - cn.edu.hfut.dmic.webcollector.crawler中的类
-
- AutoParseCrawler(boolean) - 类 的构造器cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
-