论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2009-10-20 11:50 |只看该作者 |倒序浏览

整理常用的解析代码：
1.获取指定URL地址下面的全部的标签名称
private void visitorFunction() {
      try {
         Parser parser = new Parser();
         parser.setURL("http://www.tianya.cn/publicforum/articleslist/0/no20.shtml");
         parser.setEncoding(parser.getEncoding());
         NodeVisitor visitor = new NodeVisitor(){
            public void visitTag(Tag tag) {
                  System.out.print("tag name is:"+tag.getTagName()+"\n class is:"+tag.getClass());
            }
         };
         parser.visitAllNodesWith(visitor);

      }catch (Exception e) {
         // TODO: handle exception
      }
}
2.获取指定页面的全部的链接地址即URL地址值
private void visitorFunction() {
      try {
         Parser parser = new Parser();
         parser.setURL("http://www.tianya.cn/publicforum/articleslist/0/no20.shtml");
         parser.setEncoding(parser.getEncoding());
         NodeVisitor visitor = new NodeVisitor(){
            public void visitTag(Tag tag) {
                  System.out.print("tag name is:"+tag.getTagName()+"\n class is:"+tag.getClass());
            }
         };
         parser.visitAllNodesWith(visitor);

      }catch (Exception e) {
         // TODO: handle exception
      }
}
这个可以用来当URL队列。网页爬虫将以这些为对象进行顺序抓取全部的相关页面信息。
3.private void linkBeanFunction() {
      Parser parser = new Parser();
      LinkBean linkBean = new LinkBean();
      linkBean.setURL("http://www.tianya.cn/publicforum/articleslist/0/no20.shtml");
      URL[] urls = linkBean.getLinks();
      for (int i = 0; i
AppletTag
,
BaseHrefTag
,
BodyTag
,
Bullet
,
BulletList
,
CompositeTag
,
DefinitionList
,
DefinitionListBullet
,
Div
,
DoctypeTag
,
FormTag
,
FrameSetTag
,
FrameTag
,
HeadingTag
,
HeadTag
,
Html
,
ImageTag
,
InputTag
,
JspTag
,
LabelTag
,
LinkTag
,
MetaTag
,
ObjectTag
,
OptionTag
,
ParagraphTag
,
ProcessingInstructionTag
,
ScriptTag
,
SelectTag
,
Span
,
StyleTag
,
TableColumn
,
TableHeader
,
TableRow
,
TableTag
,
TagNode
,
TextareaTag
,
TitleTag
有这么多的HTML标签是可以套的。即想要什么样的HTML页面标签都是可以取出来的。这样的话可以分门进行探测标签的！

本文来自ChinaUnix博客，如果查看原文请点：http://blog.chinaunix.net/u2/84280/showart_2073901.html

文库|博客

返回列表

Chinaunix › 论坛 › 程序设计 › Java › Java文档中心 › HTML Parser 学习二

HTML Parser 学习二 [复制链接]

浏览过的版块