- 论坛徽章:
- 0
|
整理常用的解析代码:
1.获取指定URL地址下面的全部的标签名称
private void visitorFunction() {
try {
Parser parser = new Parser();
parser.setURL("http://www.tianya.cn/publicforum/articleslist/0/no20.shtml");
parser.setEncoding(parser.getEncoding());
NodeVisitor visitor = new NodeVisitor(){
public void visitTag(Tag tag) {
System.out.print("tag name is:"+tag.getTagName()+"\n class is:"+tag.getClass());
}
};
parser.visitAllNodesWith(visitor);
}catch (Exception e) {
// TODO: handle exception
}
}
2.获取指定页面的全部的链接地址即URL地址值
private void visitorFunction() {
try {
Parser parser = new Parser();
parser.setURL("http://www.tianya.cn/publicforum/articleslist/0/no20.shtml");
parser.setEncoding(parser.getEncoding());
NodeVisitor visitor = new NodeVisitor(){
public void visitTag(Tag tag) {
System.out.print("tag name is:"+tag.getTagName()+"\n class is:"+tag.getClass());
}
};
parser.visitAllNodesWith(visitor);
}catch (Exception e) {
// TODO: handle exception
}
}
这个可以用来当URL队列。网页爬虫将以这些为对象进行顺序抓取全部的相关页面信息。
3.private void linkBeanFunction() {
Parser parser = new Parser();
LinkBean linkBean = new LinkBean();
linkBean.setURL("http://www.tianya.cn/publicforum/articleslist/0/no20.shtml");
URL[] urls = linkBean.getLinks();
for (int i = 0; i
AppletTag
,
BaseHrefTag
,
BodyTag
,
Bullet
,
BulletList
,
CompositeTag
,
DefinitionList
,
DefinitionListBullet
,
Div
,
DoctypeTag
,
FormTag
,
FrameSetTag
,
FrameTag
,
HeadingTag
,
HeadTag
,
Html
,
ImageTag
,
InputTag
,
JspTag
,
LabelTag
,
LinkTag
,
MetaTag
,
ObjectTag
,
OptionTag
,
ParagraphTag
,
ProcessingInstructionTag
,
ScriptTag
,
SelectTag
,
Span
,
StyleTag
,
TableColumn
,
TableHeader
,
TableRow
,
TableTag
,
TagNode
,
TextareaTag
,
TitleTag
有这么多的HTML标签是可以套的。即想要什么样的HTML页面标签都是可以取出来的。这样的话可以分门进行探测标签的!
本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u2/84280/showart_2073901.html |
|