跳过导航链接
A B C D E F G H I J K L M N O P Q R S T U V W 

A

add(CrawlDatum) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatums
 
add(String, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatums
 
add(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatums
 
add(CrawlDatums) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatums
 
add(Links, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatums
 
add(Links) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatums
 
add(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
 
add(Links) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
 
add(Collection<String>) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
 
add(String, int) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.Proxys
 
add(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.Proxys
 
addAllFromDocument(Document) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
 
addAllFromFile(File) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.Proxys
 
addByRegex(Document, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
 
addByRegex(Document, RegexRule) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
 
addByRegex(Document, RegexRule, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
 
addBySelector(Document, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
添加doc中,满足选择器的元素中的链接 选择器cssSelector必须定位到具体的超链接 例如我们想抽取id为content的div中的所有超链接,这里 就要将cssSelector定义为div[id=content] a
addEmpty() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.Proxys
 
addFetchItem(Fetcher.FetchItem) - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.FetchQueue
 
addHeader(String, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
addHeader(String, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
addNegative(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.util.RegexRule
添加一个反正则规则
addPositive(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.util.RegexRule
添加一个正正则规则
addRegex(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
添加URL正则约束
addRule(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.util.RegexRule
添加一个正则规则 正则规则有两种,正正则和反正则 URL符合正则规则需要满足下面条件: 1.至少能匹配一条正正则 2.不能和任何反正则匹配 正正则示例:+a.
addSeed(CrawlDatum, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
添加种子任务
addSeed(CrawlDatum) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
等同于 addSeed(datum, false)
addSeed(CrawlDatums, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
添加种子集合
addSeed(CrawlDatums) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
等同于 addSeed(datums,false)
addSeed(Links, String, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
与addSeed(CrawlDatums datums, boolean force) 类似
addSeed(Links, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
与addSeed(CrawlDatums datums, boolean force) 类似
addSeed(Links, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
与addSeed(CrawlDatums datums)类似
addSeed(Links) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
与addSeed(CrawlDatums datums)类似
addSeed(String, String, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
与addSeed(CrawlDatum datum, boolean force)类似
addSeed(String, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
与addSeed(CrawlDatum datum, boolean force)类似
addSeed(String, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
与addSeed(CrawlDatum datum)类似
addSeed(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
与addSeed(CrawlDatum datum)类似
afterParse(Page, CrawlDatums) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
 
afterParse(Page, CrawlDatums) - 类 中的方法cn.edu.hfut.dmic.webcollector.example.DemoDepthCrawler
 
attrs(String, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
获取网页中满足指定css选择器的所有元素的指定属性的集合 例如通过getAttrs("img[src]","abs:src")可获取网页中所有图片的链接
autoParse - 类 中的变量cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
是否自动抽取符合正则的链接并加入后续任务
AutoParseCrawler - cn.edu.hfut.dmic.webcollector.crawler中的类
 
AutoParseCrawler(boolean) - 类 的构造器cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
 

B

BerkeleyCrawler - cn.edu.hfut.dmic.webcollector.plugin.berkeley中的类
 
BerkeleyCrawler(String, Executor) - 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyCrawler
 
BerkeleyDBManager - cn.edu.hfut.dmic.webcollector.plugin.berkeley中的类
 
BerkeleyDBManager(String) - 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBManager
 
BerkeleyDBReader - cn.edu.hfut.dmic.webcollector.plugin.berkeley中的类
 
BerkeleyDBReader(String) - 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBReader
 
BerkeleyDBUtils - cn.edu.hfut.dmic.webcollector.plugin.berkeley中的类
 
BerkeleyDBUtils() - 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBUtils
 
BerkeleyGenerator - cn.edu.hfut.dmic.webcollector.plugin.berkeley中的类
 
BerkeleyGenerator(Environment) - 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyGenerator
 
BreadthCrawler - cn.edu.hfut.dmic.webcollector.plugin.berkeley中的类
BreadthCrawler是基于Berkeley DB的插件,于2.20版重新设计 BreadthCrawler可以设置正则规律,让遍历器自动根据URL的正则遍历网站,可以关闭这个功能,自定义遍历 如果autoParse设置为true,遍历器会自动解析页面中符合正则的链接,加入后续爬取任务,否则不自动解析链接。
BreadthCrawler(String, boolean) - 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.berkeley.BreadthCrawler
构造一个基于伯克利DB的爬虫 伯克利DB文件夹为crawlPath,crawlPath中维护了历史URL等信息 不同任务不要使用相同的crawlPath 两个使用相同crawlPath的爬虫并行爬取会产生错误
BUFFER_SIZE - 类 中的变量cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBManager
 

C

charset() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
 
charset(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
 
CharsetDetector - cn.edu.hfut.dmic.webcollector.util中的类
字符集自动检测
CharsetDetector() - 类 的构造器cn.edu.hfut.dmic.webcollector.util.CharsetDetector
 
clean() - 类 中的方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
clear() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawldb.DBManager
 
clear() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.FetchQueue
 
clear() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatums
 
clear() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
 
clear() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBManager
 
clear() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.ram.RamDBManager
 
close() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawldb.DBManager
 
close() - 接口 中的方法cn.edu.hfut.dmic.webcollector.crawldb.Generator
 
close() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBManager
 
close() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBReader
 
close() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyGenerator
 
close() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.ram.RamDBManager
 
close() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.ram.RamGenerator
 
close() - 类 中的方法cn.edu.hfut.dmic.webcollector.util.MysqlHelper
 
closeSegmentWriter() - 接口 中的方法cn.edu.hfut.dmic.webcollector.crawldb.SegmentWriter
 
closeSegmentWriter() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBManager
 
closeSegmentWriter() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.ram.RamDBManager
 
cn.edu.hfut.dmic.contentextractor - 程序包 cn.edu.hfut.dmic.contentextractor
 
cn.edu.hfut.dmic.webcollector.crawldb - 程序包 cn.edu.hfut.dmic.webcollector.crawldb
 
cn.edu.hfut.dmic.webcollector.crawler - 程序包 cn.edu.hfut.dmic.webcollector.crawler
 
cn.edu.hfut.dmic.webcollector.example - 程序包 cn.edu.hfut.dmic.webcollector.example
 
cn.edu.hfut.dmic.webcollector.fetcher - 程序包 cn.edu.hfut.dmic.webcollector.fetcher
 
cn.edu.hfut.dmic.webcollector.model - 程序包 cn.edu.hfut.dmic.webcollector.model
 
cn.edu.hfut.dmic.webcollector.net - 程序包 cn.edu.hfut.dmic.webcollector.net
 
cn.edu.hfut.dmic.webcollector.plugin.berkeley - 程序包 cn.edu.hfut.dmic.webcollector.plugin.berkeley
 
cn.edu.hfut.dmic.webcollector.plugin.nextfilter - 程序包 cn.edu.hfut.dmic.webcollector.plugin.nextfilter
 
cn.edu.hfut.dmic.webcollector.plugin.ram - 程序包 cn.edu.hfut.dmic.webcollector.plugin.ram
 
cn.edu.hfut.dmic.webcollector.util - 程序包 cn.edu.hfut.dmic.webcollector.util
 
code() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
 
code() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
code(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
computeInfo(Node) - 类 中的方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
computeScore(Element) - 类 中的方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
computeVar(ArrayList<Integer>) - 类 中的方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
config(HttpURLConnection) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
Config - cn.edu.hfut.dmic.webcollector.util中的类
全局配置
Config() - 类 的构造器cn.edu.hfut.dmic.webcollector.util.Config
 
content - 类 中的变量cn.edu.hfut.dmic.contentextractor.News
 
content() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
返回网页/文件的内容
content() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
content(byte[]) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
contentElement - 类 中的变量cn.edu.hfut.dmic.contentextractor.News
 
ContentExtractor - cn.edu.hfut.dmic.contentextractor中的类
ContentExtractor could extract content,title,time from news webpage
contentType() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
 
contentType() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
copy(File, File) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
 
Counter - cn.edu.hfut.dmic.webcollector.util中的类
 
Counter() - 类 的构造器cn.edu.hfut.dmic.webcollector.util.Counter
 
Counter(int) - 类 的构造器cn.edu.hfut.dmic.webcollector.util.Counter
 
CrawlDatum - cn.edu.hfut.dmic.webcollector.model中的类
爬取任务的数据结构
CrawlDatum() - 类 的构造器cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
CrawlDatum(String) - 类 的构造器cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
CrawlDatum(String, String) - 类 的构造器cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
CrawlDatum(String, String[]) - 类 的构造器cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
crawlDatum() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
 
crawlDatum(CrawlDatum) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
 
crawlDatum - 类 中的变量cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
CrawlDatumFormater - cn.edu.hfut.dmic.webcollector.util中的类
 
CrawlDatumFormater() - 类 的构造器cn.edu.hfut.dmic.webcollector.util.CrawlDatumFormater
 
CrawlDatums - cn.edu.hfut.dmic.webcollector.model中的类
用于存储多个CrawlDatum的数据结构
CrawlDatums() - 类 的构造器cn.edu.hfut.dmic.webcollector.model.CrawlDatums
 
CrawlDatums(Links, String) - 类 的构造器cn.edu.hfut.dmic.webcollector.model.CrawlDatums
 
CrawlDatums(Links) - 类 的构造器cn.edu.hfut.dmic.webcollector.model.CrawlDatums
 
CrawlDatums(CrawlDatums) - 类 的构造器cn.edu.hfut.dmic.webcollector.model.CrawlDatums
 
CrawlDatums(Collection<CrawlDatum>) - 类 的构造器cn.edu.hfut.dmic.webcollector.model.CrawlDatums
 
crawlDB - 类 中的变量cn.edu.hfut.dmic.webcollector.plugin.ram.RamDB
 
Crawler - cn.edu.hfut.dmic.webcollector.crawler中的类
 
Crawler() - 类 的构造器cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
Crawler(DBManager, Executor) - 类 的构造器cn.edu.hfut.dmic.webcollector.crawler.Crawler
根据任务管理器和执行器构造爬虫
crawlPath - 类 中的变量cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBReader
 
createBingUrl(String, int) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.example.DemoBingCrawler
根据关键词和页号拼接Bing搜索对应的URL
createCrawlDatum(DatabaseEntry, DatabaseEntry) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBUtils
 
createDefaultDBConfig() - 类 中的静态方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBUtils
 

D

data - 类 中的变量cn.edu.hfut.dmic.webcollector.util.Counter
 
dataList - 类 中的变量cn.edu.hfut.dmic.webcollector.model.CrawlDatums
 
dataList - 类 中的变量cn.edu.hfut.dmic.webcollector.model.Links
 
datum - 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.FetchItem
 
datumToJsonStr(CrawlDatum) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.CrawlDatumFormater
 
datumToString(CrawlDatum) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.CrawlDatumFormater
 
DBManager - cn.edu.hfut.dmic.webcollector.crawldb中的类
 
DBManager() - 类 的构造器cn.edu.hfut.dmic.webcollector.crawldb.DBManager
 
dbManager - 类 中的变量cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
dbManager - 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
 
decode() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
通过猜测编码的方式获取html源码字符串
decode(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
DEFAULT_HTTP_METHOD - 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.Config
 
DEFAULT_USER_AGENT - 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.Config
 
defaultDBConfig - 类 中的静态变量cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBUtils
 
deleteDir(File) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
 
DemoBingCrawler - cn.edu.hfut.dmic.webcollector.example中的类
本教程演示了WebCollector 2.20的新特性: 1)MetaData: MetaData是每个爬取任务的附加信息,灵活应用MetaData可以大大简化爬虫的设计.
DemoBingCrawler(String, int) - 类 的构造器cn.edu.hfut.dmic.webcollector.example.DemoBingCrawler
 
DemoDepthCrawler - cn.edu.hfut.dmic.webcollector.example中的类
本教程和深度遍历没有任何关系 一些爬取需求希望加入深度信息,即遍历树中网页的层 利用2.20版本中的新特性MetaData可以轻松实现这个功能
DemoDepthCrawler(String, boolean) - 类 的构造器cn.edu.hfut.dmic.webcollector.example.DemoDepthCrawler
 
DemoHashSetNextFilter - cn.edu.hfut.dmic.webcollector.example中的类
WebCollector 2.x版本的tutorial(2.20以上) 2.x版本特性: 1)自定义遍历策略,可完成更为复杂的遍历业务,例如分页、AJAX 2)可以为每个URL设置附加信息(MetaData),利用附加信息可以完成很多复杂业务,例如深度获取、锚文本获取、引用页面获取、POST参数传递、增量更新等。
DemoHashSetNextFilter(String, boolean) - 类 的构造器cn.edu.hfut.dmic.webcollector.example.DemoHashSetNextFilter
 
DemoMetaCrawler - cn.edu.hfut.dmic.webcollector.example中的类
WebCollector 2.x版本的tutorial(2.20以上) 2.x版本特性: 1)自定义遍历策略,可完成更为复杂的遍历业务,例如分页、AJAX 2)可以为每个URL设置附加信息(MetaData),利用附加信息可以完成很多复杂业务,例如深度获取、锚文本获取、引用页面获取、POST参数传递、增量更新等。
DemoMetaCrawler() - 类 的构造器cn.edu.hfut.dmic.webcollector.example.DemoMetaCrawler
 
DemoNextFilter - cn.edu.hfut.dmic.webcollector.example中的类
WebCollector 2.x版本的tutorial(2.20以上) 2.x版本特性: 1)自定义遍历策略,可完成更为复杂的遍历业务,例如分页、AJAX 2)可以为每个URL设置附加信息(MetaData),利用附加信息可以完成很多复杂业务,例如深度获取、锚文本获取、引用页面获取、POST参数传递、增量更新等。
DemoNextFilter(String, boolean) - 类 的构造器cn.edu.hfut.dmic.webcollector.example.DemoNextFilter
 
DemoPostCrawler - cn.edu.hfut.dmic.webcollector.example中的类
本教程演示了如何自定义http请求 有些爬取任务中,可能只有部分URL需要使用POST请求,我们可以利用2.20版本中添 加的MetaData功能,来完成POST请求的定制。
DemoPostCrawler(String, boolean) - 类 的构造器cn.edu.hfut.dmic.webcollector.example.DemoPostCrawler
假设我们要爬取三个链接 1)http://www.A.com/index.php 需要POST,并且需要附带数据id=a 2)http://www.B.com/index.php?
DemoSelenium - cn.edu.hfut.dmic.webcollector.example中的类
本教程演示如何利用WebCollector爬取javascript生成的数据
DemoSelenium() - 类 的构造器cn.edu.hfut.dmic.webcollector.example.DemoSelenium
 
DemoTypeCrawler - cn.edu.hfut.dmic.webcollector.example中的类
WebCollector 2.40新特性 page.matchType 在添加CrawlDatum时(添加种子、或在抓取时向next中添加任务), 可以为CrawlDatum设置type信息 type的本质也是meta信息,为CrawlDatum的附加信息 在添加种子或向next中添加任务时,设置type信息可以简化爬虫的开发 例如在处理列表页时,爬虫解析出内容页的链接,在将内容页链接作为后续任务 将next中添加时,可设置其type信息为content(可自定义),在后续抓取中, 通过page.matchType("content")就可判断正在解析的页面是否为内容页 设置type的方法主要有3种: 1)添加种子时,addSeed(url,type) 2)向next中添加后续任务时:next.add(url,type)或next.add(links,type) 3)在定义CrawlDatum时:crawlDatum.type(type)
DemoTypeCrawler() - 类 的构造器cn.edu.hfut.dmic.webcollector.example.DemoTypeCrawler
 
doc - 类 中的变量cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
doc() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
 
doinput - 类 中的变量cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
dooutput - 类 中的变量cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
dump() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.FetchQueue
 

E

editDistance(String, String) - 类 中的方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
execute(CrawlDatum, CrawlDatums) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
 
execute(CrawlDatum, CrawlDatums) - 接口 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Executor
 
executeInterval - 类 中的变量cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
executor - 类 中的变量cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
Executor - cn.edu.hfut.dmic.webcollector.fetcher中的接口
Created by hu on 2016/2/18.
executor - 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
 

F

FETCH_FAILED - 类 中的静态变量cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
 
FETCH_SUCCESS - 类 中的静态变量cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
 
fetchAll(Generator) - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
抓取当前所有任务,会阻塞到爬取完成
fetchDB - 类 中的变量cn.edu.hfut.dmic.webcollector.plugin.ram.RamDB
 
fetcher - 类 中的变量cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
Fetcher - cn.edu.hfut.dmic.webcollector.fetcher中的类
抓取器
Fetcher() - 类 的构造器cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
 
Fetcher.FetchItem - cn.edu.hfut.dmic.webcollector.fetcher中的类
 
Fetcher.FetchQueue - cn.edu.hfut.dmic.webcollector.fetcher中的类
 
Fetcher.QueueFeeder - cn.edu.hfut.dmic.webcollector.fetcher中的类
 
FetchItem(CrawlDatum) - 类 的构造器cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.FetchItem
 
FetchQueue() - 类 的构造器cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.FetchQueue
 
FileSystemOutput - cn.edu.hfut.dmic.webcollector.util中的类
FileSystemOutput并不属于WebCollector内核,它只是实现一个 简单的输出,将网页根据url路径,保存到本地目录,按照网站目录 结构来存储网站内容。
FileSystemOutput(String) - 类 的构造器cn.edu.hfut.dmic.webcollector.util.FileSystemOutput
 
FileUtils - cn.edu.hfut.dmic.webcollector.util中的类
 
FileUtils() - 类 的构造器cn.edu.hfut.dmic.webcollector.util.FileUtils
 
filter(CrawlDatum, CrawlDatum) - 接口 中的方法cn.edu.hfut.dmic.webcollector.fetcher.NextFilter
if the crawler visit http://a.com/ and detect http://a.com/b.html then nextItem = http://a.com/b.html and referer = http://a.com/ if you want to filter nextItem, return null else you should return nextItem
filter(CrawlDatum, CrawlDatum) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.nextfilter.HashSetNextFilter
 
filterByRegex(RegexRule) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
 
filterByRegex(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
 
followRedirects - 类 中的变量cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
forcedSeeds - 类 中的变量cn.edu.hfut.dmic.webcollector.crawler.Crawler
 

G

Generator - cn.edu.hfut.dmic.webcollector.crawldb中的接口
抓取任务生成器
generator - 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.QueueFeeder
 
generator - 类 中的变量cn.edu.hfut.dmic.webcollector.plugin.ram.RamDBManager
 
get(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatums
 
get(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
 
get() - 类 中的方法cn.edu.hfut.dmic.webcollector.util.Counter
 
getAttrs(String, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
已过时。
已废弃,使用attrs代替
getCharset() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
已过时。
getCode() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
已过时。
getContent() - 类 中的方法cn.edu.hfut.dmic.contentextractor.News
 
getContent() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
已过时。
getContent() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
已过时。
getContentByDoc(Document) - 类 中的静态方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
getContentByHtml(String) - 类 中的静态方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
getContentByHtml(String, String) - 类 中的静态方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
getContentByUrl(String) - 类 中的静态方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
getContentElement() - 类 中的方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
getContentElement() - 类 中的方法cn.edu.hfut.dmic.contentextractor.News
 
getContentElementByDoc(Document) - 类 中的静态方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
getContentElementByHtml(String) - 类 中的静态方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
getContentElementByHtml(String, String) - 类 中的静态方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
getContentElementByUrl(String) - 类 中的静态方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
getContentType() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
已过时。
getCrawlDatum() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
已过时。
getCrawlDatum() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
getDataSource() - 类 中的方法cn.edu.hfut.dmic.webcollector.util.MysqlHelper
 
getDate(Element) - 类 中的方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
getDBManager() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
返回任务管理器
getDBManager() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
 
getDoc() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
已过时。
getException() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
 
getExecuteCount() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
getExecuteInterval() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
获取执行间隔
getExecuteInterval() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
 
getExecuteTime() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
getExecutor() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
获取每个爬取任务的最大执行次数
getExecutor() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
 
getFetchItem() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.FetchQueue
 
getFirstHeader(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
getGenerator() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawldb.DBManager
 
getGenerator() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBManager
 
getGenerator() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.ram.RamDBManager
 
getHeader(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
getHeader(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
已过时。
getHeaderMap() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
getHeaders() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
getHeaders() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
已过时。
getHtml() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
已过时。
getHtml(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
已过时。
getHtml() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
getHtmlByCharsetDetect() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
已过时。
getKey() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
已过时。
使用key()代替
getLinks(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
已过时。
getMAX_RECEIVE_SIZE() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
getMAX_REDIRECT() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
getMaxExecuteCount() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
getMaxExecuteCount() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyGenerator
 
getMaxExecuteCount() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.ram.RamGenerator
 
getMetaData() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
getMetaData(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
已过时。
getMetaData() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
已过时。
getMetaData(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
已过时。
getMethod() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
getNews() - 类 中的方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
getNewsByDoc(Document) - 类 中的静态方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
getNewsByHtml(String) - 类 中的静态方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
getNewsByHtml(String, String) - 类 中的静态方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
getNewsByUrl(String) - 类 中的静态方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
getNextFilter() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
getNextFilter() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
 
getOutputData() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
getProxy() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
getRealUrl() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
getRegexRule() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
获取正则规则
getRequester() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
 
getResponse(CrawlDatum) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
 
getResponse(CrawlDatum) - 类 中的方法cn.edu.hfut.dmic.webcollector.example.DemoPostCrawler
 
getResponse() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
已过时。
getResponse() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
已过时。
getResponse(CrawlDatum) - 接口 中的方法cn.edu.hfut.dmic.webcollector.net.Requester
 
getSize() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.FetchQueue
 
getStatus() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
getTemplate() - 类 中的方法cn.edu.hfut.dmic.webcollector.util.MysqlHelper
 
getThreads() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
返回线程数
getThreads() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
返回爬虫的线程数
getTime(Element) - 类 中的方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
getTime() - 类 中的方法cn.edu.hfut.dmic.contentextractor.News
 
getTimeoutForConnect() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
getTimeoutForRead() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
getTitle(Element) - 类 中的方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
getTitle() - 类 中的方法cn.edu.hfut.dmic.contentextractor.News
 
getTitleByEditDistance(Element) - 类 中的方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
getTopN() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
返回每次迭代爬取的网页数量上限
getTopN() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyGenerator
 
getTotalGenerate() - 接口 中的方法cn.edu.hfut.dmic.webcollector.crawldb.Generator
 
getTotalGenerate() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyGenerator
 
getTotalGenerate() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.ram.RamGenerator
 
getUrl() - 类 中的方法cn.edu.hfut.dmic.contentextractor.News
 
getUrl() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
已过时。
已废弃,使用url()代替
getUrl() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
已过时。
getUrl() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
已过时。
getVisitor() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
获取Visitor
guessEncoding(byte[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.CharsetDetector
根据字节数组,猜测可能的字符集,如果检测失败,返回utf-8
guessEncodingByMozilla(byte[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.CharsetDetector
根据字节数组,猜测可能的字符集,如果检测失败,返回utf-8

H

HashSetNextFilter - cn.edu.hfut.dmic.webcollector.plugin.nextfilter中的类
Filter nextItem whose key is contained in the hashset
HashSetNextFilter() - 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.nextfilter.HashSetNextFilter
 
header(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
 
header(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
headerMap - 类 中的变量cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
headers(Map<String, List<String>>) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
headers() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
html() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
返回网页的源码字符串
HttpRequest - cn.edu.hfut.dmic.webcollector.net中的类
 
HttpRequest(String) - 类 的构造器cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
HttpRequest(String, Proxy) - 类 的构造器cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
HttpRequest(CrawlDatum) - 类 的构造器cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
HttpRequest(CrawlDatum, Proxy) - 类 的构造器cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
HttpResponse - cn.edu.hfut.dmic.webcollector.net中的类
 
HttpResponse(URL) - 类 的构造器cn.edu.hfut.dmic.webcollector.net.HttpResponse
 

I

inc() - 类 中的方法cn.edu.hfut.dmic.webcollector.util.Counter
 
inc(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.util.Counter
 
incrExecuteCount(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
indexOf(CrawlDatum) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatums
 
indexOf(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
 
infoMap - 类 中的变量cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
initSegmentWriter() - 接口 中的方法cn.edu.hfut.dmic.webcollector.crawldb.SegmentWriter
 
initSegmentWriter() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBManager
 
initSegmentWriter() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.ram.RamDBManager
 
inject(CrawlDatum, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawldb.DBManager
 
inject(CrawlDatums, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawldb.DBManager
 
inject(CrawlDatum) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawldb.DBManager
 
inject(CrawlDatums) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawldb.DBManager
 
inject(Links, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawldb.DBManager
 
inject(Links) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawldb.DBManager
 
inject(String, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawldb.DBManager
 
inject(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawldb.DBManager
 
inject(CrawlDatum) - 接口 中的方法cn.edu.hfut.dmic.webcollector.crawldb.Injector
 
inject() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
inject(CrawlDatum, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBManager
 
inject(CrawlDatums, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBManager
 
inject(CrawlDatum, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.ram.RamDBManager
 
inject(CrawlDatums, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.ram.RamDBManager
 
injectForcedSeeds() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
Injector - cn.edu.hfut.dmic.webcollector.crawldb中的接口
 
isAutoParse() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
 
isDBExists() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawldb.DBManager
 
isDBExists() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBManager
 
isDBExists() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.ram.RamDBManager
 
isDoinput() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
isDooutput() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
isEmpty() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatums
 
isEmpty() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
 
isEmpty() - 类 中的方法cn.edu.hfut.dmic.webcollector.util.RegexRule
 
isFollowRedirects() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
isNotFound() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
isParseImg() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
 
isRedirect() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
isResumable() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
返回是否断点爬取
iterator() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatums
 
iterator() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
 

J

jsonStrToDatum(String, String) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.CrawlDatumFormater
 
JsoupUtils - cn.edu.hfut.dmic.webcollector.util中的类
 
JsoupUtils() - 类 的构造器cn.edu.hfut.dmic.webcollector.util.JsoupUtils
 

K

key() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
key(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
key() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
 
key - 类 中的变量cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBReader
 
key - 类 中的变量cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyGenerator
 

L

lcs(String, String) - 类 中的方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
linkDB - 类 中的变量cn.edu.hfut.dmic.webcollector.plugin.ram.RamDB
 
Links - cn.edu.hfut.dmic.webcollector.model中的类
用于存储多个URL的数据结构,继承于ArrayList
Links() - 类 的构造器cn.edu.hfut.dmic.webcollector.model.Links
 
Links(Links) - 类 的构造器cn.edu.hfut.dmic.webcollector.model.Links
 
Links(Collection<String>) - 类 的构造器cn.edu.hfut.dmic.webcollector.model.Links
 
links(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
获取满足选择器的元素中的链接 选择器cssSelector必须定位到具体的超链接 例如我们想抽取id为content的div中的所有超链接,这里 就要将cssSelector定义为div[id=content] a
links() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
 
list() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBManager
 
LOG - 类 中的静态变量cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
LOG - 类 中的静态变量cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
 
LOG - 类 中的静态变量cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
LOG - 类 中的静态变量cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
 
LOG - 类 中的静态变量cn.edu.hfut.dmic.webcollector.model.Page
 
LOG - 类 中的静态变量cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
LOG - 类 中的静态变量cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
LOG - 类 中的静态变量cn.edu.hfut.dmic.webcollector.net.Proxys
 
LOG - 类 中的静态变量cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBReader
 
LOG - 类 中的静态变量cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyGenerator
 
LOG - 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.FileSystemOutput
 

M

main(String[]) - 类 中的静态方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
main(String[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.example.DemoBingCrawler
 
main(String[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.example.DemoDepthCrawler
 
main(String[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.example.DemoHashSetNextFilter
 
main(String[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.example.DemoMetaCrawler
 
main(String[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.example.DemoNextFilter
 
main(String[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.example.DemoPostCrawler
 
main(String[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.example.DemoSelenium
 
main(String[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.example.DemoTypeCrawler
 
main(String[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.example.TutorialCrawler
 
makeAbs(Document, String) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.JsoupUtils
 
matchContentType(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
判断当前Page的Http响应头的Content-Type是否符合正则
matchType(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
matchType(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
判断当前Page(CrawlDatum)的type是否为type
matchUrl(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
判断当前Page的URL是否和输入正则匹配
matchUrl(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
判断当前Page的URL是否和输入正则匹配
MAX_EXECUTE_COUNT - 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.Config
 
MAX_RECEIVE_SIZE - 类 中的变量cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
MAX_RECEIVE_SIZE - 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.Config
 
MAX_REDIRECT - 类 中的变量cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
MAX_REDIRECT - 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.Config
 
maxExecuteCount - 类 中的变量cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
maxExecuteCount - 类 中的变量cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyGenerator
 
maxExecuteCount - 类 中的变量cn.edu.hfut.dmic.webcollector.plugin.ram.RamGenerator
 
merge() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawldb.DBManager
 
merge() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBManager
 
merge() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.ram.RamDBManager
 
meta(String, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
meta(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
meta(String, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatums
 
meta(String, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
 
meta(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
 
META_KEY_TYPE - 类 中的静态变量cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
method - 类 中的变量cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
MysqlHelper - cn.edu.hfut.dmic.webcollector.util中的类
 
MysqlHelper(String, String, String, int, int) - 类 的构造器cn.edu.hfut.dmic.webcollector.util.MysqlHelper
 

N

News - cn.edu.hfut.dmic.contentextractor中的类
 
News() - 类 的构造器cn.edu.hfut.dmic.contentextractor.News
 
next() - 接口 中的方法cn.edu.hfut.dmic.webcollector.crawldb.Generator
 
next() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBReader
 
next() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyGenerator
 
next() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.ram.RamGenerator
 
nextFilter - 类 中的变量cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
nextFilter - 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
 
NextFilter - cn.edu.hfut.dmic.webcollector.fetcher中的接口
 
nextRandom() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.Proxys
 

O

open() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawldb.DBManager
 
open() - 接口 中的方法cn.edu.hfut.dmic.webcollector.crawldb.Generator
 
open() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBManager
 
open() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyGenerator
 
open() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.ram.RamDBManager
 
open() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.ram.RamGenerator
 
output(Page) - 类 中的方法cn.edu.hfut.dmic.webcollector.util.FileSystemOutput
 
outputData - 类 中的变量cn.edu.hfut.dmic.webcollector.net.HttpRequest
 

P

Page - cn.edu.hfut.dmic.webcollector.model中的类
Page是爬取过程中,内存中保存网页爬取信息的一个容器,Page只在内存中存 放,用于保存一些网页信息,方便用户进行自定义网页解析之类的操作。
Page(CrawlDatum, HttpResponse) - 类 的构造器cn.edu.hfut.dmic.webcollector.model.Page
 
parseImg - 类 中的变量cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
 
parseLink(Page, CrawlDatums) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
 
Proxys - cn.edu.hfut.dmic.webcollector.net中的类
 
Proxys() - 类 的构造器cn.edu.hfut.dmic.webcollector.net.Proxys
 
put(Database, String, String) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBUtils
 
putMetaData(String, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
已过时。
putMetaData(String, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatums
已过时。

Q

queue - 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.FetchQueue
 
queue - 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.QueueFeeder
 
QueueFeeder(Fetcher.FetchQueue, Generator, int) - 类 的构造器cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.QueueFeeder
 

R

RamCrawler - cn.edu.hfut.dmic.webcollector.plugin.ram中的类
基于内存的Crawler插件,适合一次性爬取,并不具有断点爬取功能 长期任务请使用BreadthCrawler
RamCrawler() - 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.ram.RamCrawler
 
RamCrawler(boolean) - 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.ram.RamCrawler
 
RamDB - cn.edu.hfut.dmic.webcollector.plugin.ram中的类
 
RamDB() - 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.ram.RamDB
 
ramDB - 类 中的变量cn.edu.hfut.dmic.webcollector.plugin.ram.RamDBManager
 
RamDBManager - cn.edu.hfut.dmic.webcollector.plugin.ram中的类
 
RamDBManager(RamDB) - 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.ram.RamDBManager
 
RamGenerator - cn.edu.hfut.dmic.webcollector.plugin.ram中的类
 
RamGenerator(RamDB) - 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.ram.RamGenerator
 
random - 类 中的静态变量cn.edu.hfut.dmic.webcollector.net.Proxys
 
read(File) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
 
read(String) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
 
read(File, String) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
 
read(String, String) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
 
readFile(File) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
已过时。
readFile(String) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
已过时。
readFile(File, String) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
已过时。
readFile(String, String) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
已过时。
redirectDB - 类 中的变量cn.edu.hfut.dmic.webcollector.plugin.ram.RamDB
 
regex(String, int, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
 
regex(String, int) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
 
regex(String, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
 
regex(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
 
regexRule - 类 中的变量cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
URL正则约束
RegexRule - cn.edu.hfut.dmic.webcollector.util中的类
 
RegexRule() - 类 的构造器cn.edu.hfut.dmic.webcollector.util.RegexRule
 
RegexRule(String) - 类 的构造器cn.edu.hfut.dmic.webcollector.util.RegexRule
 
RegexRule(ArrayList<String>) - 类 的构造器cn.edu.hfut.dmic.webcollector.util.RegexRule
 
remove(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatums
 
remove(CrawlDatum) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatums
 
remove(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
 
remove(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
 
removeHeader(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
requester - 类 中的变量cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
 
Requester - cn.edu.hfut.dmic.webcollector.net中的接口
 
response() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
 
response(HttpResponse) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
 
response() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
resumable - 类 中的变量cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
root - 类 中的变量cn.edu.hfut.dmic.webcollector.util.FileSystemOutput
 
run() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.QueueFeeder
 
RUNNING - 类 中的静态变量cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
running - 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.QueueFeeder
 

S

satisfy(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.util.RegexRule
判断输入字符串是否符合正则规则
sdf - 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.CrawlDatumFormater
 
seeds - 类 中的变量cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
SegmentWriter - cn.edu.hfut.dmic.webcollector.crawldb中的接口
爬取过程中,写入爬取历史、网页Content、解析信息的Writer
select(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
 
select(String, int) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
 
set(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.util.Counter
 
setAutoParse(boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
设置是否自动抽取符合正则的链接并加入后续任务
setCharset(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
已过时。
setCode(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
已过时。
setContent(String) - 类 中的方法cn.edu.hfut.dmic.contentextractor.News
 
setContent(byte[]) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
已过时。
setContentElement(Element) - 类 中的方法cn.edu.hfut.dmic.contentextractor.News
 
setCookie(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
setCrawlDatum(CrawlDatum) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
已过时。
setCrawlDatum(CrawlDatum) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
setDataSource(BasicDataSource) - 类 中的方法cn.edu.hfut.dmic.webcollector.util.MysqlHelper
 
setDBManager(DBManager) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
设置任务管理器
setDBManager(DBManager) - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
 
setDoc(Document) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
设置网页解析后的DOM树(Jsoup的Document对象)
setDoinput(boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
setDooutput(boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
setException(Exception) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
 
setExecuteCount(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
setExecuteInterval(long) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
设置执行间隔
setExecuteInterval(long) - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
 
setExecuteTime(long) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
setExecutor(Executor) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
设置执行器
setExecutor(Executor) - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
 
setFollowRedirects(boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
setHeader(String, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
setHeader(String, List<String>) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
setHeaderMap(Map<String, List<String>>) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
setHeaders(Map<String, List<String>>) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
已过时。
setHtml(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
设置网页的源码字符串
setHtml(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
setKey(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
已过时。
使用key(String key)代替
setMAX_RECEIVE_SIZE(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
setMAX_REDIRECT(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
setMaxExecuteCount(int) - 接口 中的方法cn.edu.hfut.dmic.webcollector.crawldb.Generator
 
setMaxExecuteCount(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
设置每个爬取任务的最大执行次数,爬取或解析失败都会导致执行失败。
setMaxExecuteCount(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyGenerator
 
setMaxExecuteCount(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.ram.RamGenerator
 
setMetaData(HashMap<String, String>) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
setMetaData(HashMap<String, String>) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
已过时。
setMetaData(String, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
已过时。
setMethod(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
setNextFilter(NextFilter) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
setNextFilter(NextFilter) - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
 
setNotFound(boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
setOutputData(byte[]) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
setParseImg(boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
 
setProxy(Proxy) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
setRealUrl(URL) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
setRedirect(boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
setRegexRule(RegexRule) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
设置正则规则
setRequester(Requester) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
 
setResponse(HttpResponse) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
已过时。
setResumable(boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
设置是否断点爬取
setStatus(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
setTemplate(JdbcTemplate) - 类 中的方法cn.edu.hfut.dmic.webcollector.util.MysqlHelper
 
setThreads(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
设置线程数
setThreads(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
设置爬虫的线程数
setTime(String) - 类 中的方法cn.edu.hfut.dmic.contentextractor.News
 
setTimeoutForConnect(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
setTimeoutForRead(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
setTitle(String) - 类 中的方法cn.edu.hfut.dmic.contentextractor.News
 
setTopN(int) - 接口 中的方法cn.edu.hfut.dmic.webcollector.crawldb.Generator
 
setTopN(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
设置每次迭代爬取的网页数量上限
setTopN(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyGenerator
 
setTopN(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.ram.RamGenerator
 
setUrl(String) - 类 中的方法cn.edu.hfut.dmic.contentextractor.News
 
setUrl(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
已过时。
使用url(String url)代替
setUrl(URL) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
已过时。
setUserAgent(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
setVisitor(Visitor) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
设置Visitor
size - 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.QueueFeeder
 
size() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatums
 
size() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
 
start(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
开始爬取,迭代次数为depth
start() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.ram.RamCrawler
 
status - 类 中的变量cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
STATUS_DB_FAILED - 类 中的静态变量cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
STATUS_DB_SUCCESS - 类 中的静态变量cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
STATUS_DB_UNEXECUTED - 类 中的静态变量cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
stop() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
停止爬虫
stop() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
停止爬取
STOPED - 类 中的静态变量cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
stopFeeder() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.QueueFeeder
 
strSim(String, String) - 类 中的方法cn.edu.hfut.dmic.contentextractor.ContentExtractor
 
strToEntry(String) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBUtils
 

T

template - 类 中的变量cn.edu.hfut.dmic.webcollector.util.MysqlHelper
 
THREAD_KILLER - 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.Config
 
threads - 类 中的变量cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
time - 类 中的变量cn.edu.hfut.dmic.contentextractor.News
 
TIMEOUT_CONNECT - 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.Config
 
TIMEOUT_READ - 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.Config
 
timeoutForConnect - 类 中的变量cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
timeoutForRead - 类 中的变量cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
title - 类 中的变量cn.edu.hfut.dmic.contentextractor.News
 
topN - 类 中的变量cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
topN - 类 中的变量cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyGenerator
 
topN - 类 中的变量cn.edu.hfut.dmic.webcollector.plugin.ram.RamGenerator
 
toString() - 类 中的方法cn.edu.hfut.dmic.contentextractor.News
 
toString() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
toString() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
toString() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatums
 
toString() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Links
 
totalGenerate - 类 中的变量cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyGenerator
 
totalGenerate - 类 中的变量cn.edu.hfut.dmic.webcollector.plugin.ram.RamGenerator
 
totalSize - 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.FetchQueue
 
TutorialCrawler - cn.edu.hfut.dmic.webcollector.example中的类
WebCollector 2.x版本的tutorial(2.20以上) 2.x版本特性: 1)自定义遍历策略,可完成更为复杂的遍历业务,例如分页、AJAX 2)可以为每个URL设置附加信息(MetaData),利用附加信息可以完成很多复杂业务,例如深度获取、锚文本获取、引用页面获取、POST参数传递、增量更新等。
TutorialCrawler(String, boolean) - 类 的构造器cn.edu.hfut.dmic.webcollector.example.TutorialCrawler
 
type() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
type(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
type(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatums
 

U

url - 类 中的变量cn.edu.hfut.dmic.contentextractor.News
 
url() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
url(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
url() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
返回网页的url
url() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
url(URL) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 

V

value - 类 中的变量cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBReader
 
value - 类 中的变量cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyGenerator
 
visit(Page, CrawlDatums) - 类 中的方法cn.edu.hfut.dmic.webcollector.example.DemoBingCrawler
 
visit(Page, CrawlDatums) - 类 中的方法cn.edu.hfut.dmic.webcollector.example.DemoDepthCrawler
 
visit(Page, CrawlDatums) - 类 中的方法cn.edu.hfut.dmic.webcollector.example.DemoHashSetNextFilter
 
visit(Page, CrawlDatums) - 类 中的方法cn.edu.hfut.dmic.webcollector.example.DemoMetaCrawler
 
visit(Page, CrawlDatums) - 类 中的方法cn.edu.hfut.dmic.webcollector.example.DemoNextFilter
 
visit(Page, CrawlDatums) - 类 中的方法cn.edu.hfut.dmic.webcollector.example.DemoPostCrawler
 
visit(Page, CrawlDatums) - 类 中的方法cn.edu.hfut.dmic.webcollector.example.DemoTypeCrawler
 
visit(Page, CrawlDatums) - 类 中的方法cn.edu.hfut.dmic.webcollector.example.TutorialCrawler
 
visit(Page, CrawlDatums) - 接口 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Visitor
 
visitor - 类 中的变量cn.edu.hfut.dmic.webcollector.crawler.AutoParseCrawler
 
Visitor - cn.edu.hfut.dmic.webcollector.fetcher中的接口
 

W

WAIT_THREAD_END_TIME - 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.Config
 
write(String, String, String) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
 
write(File, String, String) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
 
write(String, byte[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
 
write(File, byte[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
 
writeDatum(Database, CrawlDatum) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBUtils
 
writeFetchSegment(CrawlDatum) - 接口 中的方法cn.edu.hfut.dmic.webcollector.crawldb.SegmentWriter
 
writeFetchSegment(CrawlDatum) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBManager
 
writeFetchSegment(CrawlDatum) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.ram.RamDBManager
 
writeFile(String, String, String) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
已过时。
writeFile(File, String, String) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
已过时。
writeFile(String, byte[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
已过时。
writeFile(File, byte[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
已过时。
writeFileWithParent(String, String, String) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
已过时。
writeFileWithParent(File, String, String) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
已过时。
writeFileWithParent(String, byte[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
已过时。
writeFileWithParent(File, byte[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
已过时。
writeParseSegment(CrawlDatums) - 接口 中的方法cn.edu.hfut.dmic.webcollector.crawldb.SegmentWriter
 
writeParseSegment(CrawlDatums) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBManager
 
writeParseSegment(CrawlDatums) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.ram.RamDBManager
 
A B C D E F G H I J K L M N O P Q R S T U V W 
跳过导航链接

Copyright © 2017. All Rights Reserved.