public class Page extends Object
| 限定符和类型 | 字段和说明 |
|---|---|
static org.slf4j.Logger |
LOG |
| 构造器和说明 |
|---|
Page(CrawlDatum datum,
HttpResponse response) |
| 限定符和类型 | 方法和说明 |
|---|---|
ArrayList<String> |
attrs(String cssSelector,
String attrName)
获取网页中满足指定css选择器的所有元素的指定属性的集合
例如通过getAttrs("img[src]","abs:src")可获取网页中所有图片的链接
|
String |
charset() |
void |
charset(String charset) |
int |
code() |
byte[] |
content()
返回网页/文件的内容
|
String |
contentType() |
CrawlDatum |
crawlDatum() |
void |
crawlDatum(CrawlDatum crawlDatum) |
org.jsoup.nodes.Document |
doc() |
ArrayList<String> |
getAttrs(String cssSelector,
String attrName)
已过时。
已废弃,使用attrs代替
|
String |
getCharset()
已过时。
|
byte[] |
getContent()
已过时。
|
CrawlDatum |
getCrawlDatum()
已过时。
|
org.jsoup.nodes.Document |
getDoc()
已过时。
|
Exception |
getException() |
String |
getHtml()
已过时。
|
Links |
getLinks(String cssSelector)
已过时。
|
HashMap<String,String> |
getMetaData()
已过时。
|
String |
getMetaData(String key)
已过时。
|
HttpResponse |
getResponse()
已过时。
|
String |
getUrl()
已过时。
|
List<String> |
header(String name) |
String |
html()
返回网页的源码字符串
|
String |
key() |
Links |
links() |
Links |
links(String cssSelector)
获取满足选择器的元素中的链接 选择器cssSelector必须定位到具体的超链接 例如我们想抽取id为content的div中的所有超链接,这里
就要将cssSelector定义为div[id=content] a
|
boolean |
matchContentType(String contentTypeRegex)
判断当前Page的Http响应头的Content-Type是否符合正则
|
boolean |
matchType(String type)
判断当前Page(CrawlDatum)的type是否为type
|
boolean |
matchUrl(String urlRegex)
判断当前Page的URL是否和输入正则匹配
|
String |
meta(String key) |
void |
meta(String key,
String value) |
String |
regex(String regex) |
String |
regex(String regex,
int group) |
String |
regex(String regex,
int group,
String defaultResult) |
String |
regex(String regex,
String defaultResult) |
HttpResponse |
response() |
void |
response(HttpResponse response) |
org.jsoup.select.Elements |
select(String cssSelector) |
org.jsoup.nodes.Element |
select(String cssSelector,
int index) |
void |
setCharset(String charset)
已过时。
|
void |
setCrawlDatum(CrawlDatum crawlDatum)
已过时。
|
void |
setDoc(org.jsoup.nodes.Document doc)
设置网页解析后的DOM树(Jsoup的Document对象)
|
void |
setException(Exception exception) |
void |
setHtml(String html)
设置网页的源码字符串
|
void |
setMetaData(HashMap<String,String> metaData)
已过时。
|
void |
setMetaData(String key,
String value)
已过时。
|
void |
setResponse(HttpResponse response)
已过时。
|
String |
url()
返回网页的url
|
public Page(CrawlDatum datum, HttpResponse response)
public boolean matchUrl(String urlRegex)
urlRegex - public boolean matchType(String type)
type - public boolean matchContentType(String contentTypeRegex)
contentTypeRegex - public ArrayList<String> attrs(String cssSelector, String attrName)
cssSelector - attrName - @Deprecated public ArrayList<String> getAttrs(String cssSelector, String attrName)
cssSelector - attrName - @Deprecated public Links getLinks(String cssSelector)
cssSelector - public Links links(String cssSelector)
cssSelector - public Links links()
public org.jsoup.select.Elements select(String cssSelector)
public org.jsoup.nodes.Element select(String cssSelector, int index)
@Deprecated public byte[] getContent()
public byte[] content()
@Deprecated public String getUrl()
public String url()
@Deprecated public String getHtml()
public String html()
public void setHtml(String html)
html - 网页的源码字符串@Deprecated public org.jsoup.nodes.Document getDoc()
public String contentType()
public org.jsoup.nodes.Document doc()
public void setDoc(org.jsoup.nodes.Document doc)
doc - 网页解析后的DOM树public HttpResponse response()
public void response(HttpResponse response)
@Deprecated public HttpResponse getResponse()
@Deprecated public void setResponse(HttpResponse response)
public Exception getException()
public void setException(Exception exception)
public CrawlDatum crawlDatum()
public void crawlDatum(CrawlDatum crawlDatum)
@Deprecated public CrawlDatum getCrawlDatum()
@Deprecated public void setCrawlDatum(CrawlDatum crawlDatum)
@Deprecated public HashMap<String,String> getMetaData()
@Deprecated public void setMetaData(HashMap<String,String> metaData)
@Deprecated public void setMetaData(String key, String value)
@Deprecated public String getMetaData(String key)
public String charset()
public void charset(String charset)
@Deprecated public String getCharset()
@Deprecated public void setCharset(String charset)
public String key()
public int code()
Copyright © 2017. All Rights Reserved.