免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1825 | 回复: 0
打印 上一主题 下一主题

HTML Parser 学习二 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-10-20 11:50 |只看该作者 |倒序浏览

                整理常用的解析代码:
1.获取指定URL地址下面的全部的标签名称
private void visitorFunction() {
        try {
            Parser parser = new Parser();
            parser.setURL("http://www.tianya.cn/publicforum/articleslist/0/no20.shtml");
            parser.setEncoding(parser.getEncoding());
            NodeVisitor visitor = new NodeVisitor(){
                public void visitTag(Tag tag) {
                    System.out.print("tag name is:"+tag.getTagName()+"\n class is:"+tag.getClass());
                }
            };
            parser.visitAllNodesWith(visitor);
            
        }catch (Exception e) {
            // TODO: handle exception
        }
    }
2.获取指定页面的全部的链接地址即URL地址值
private void visitorFunction() {
        try {
            Parser parser = new Parser();
            parser.setURL("http://www.tianya.cn/publicforum/articleslist/0/no20.shtml");
            parser.setEncoding(parser.getEncoding());
            NodeVisitor visitor = new NodeVisitor(){
                public void visitTag(Tag tag) {
                    System.out.print("tag name is:"+tag.getTagName()+"\n class is:"+tag.getClass());
                }
            };
            parser.visitAllNodesWith(visitor);
            
        }catch (Exception e) {
            // TODO: handle exception
        }
    }
这个可以用来当URL队列。网页爬虫将以这些为对象进行顺序抓取全部的相关页面信息。
3.private void linkBeanFunction() {
        Parser parser = new Parser();
        LinkBean linkBean = new LinkBean();
        linkBean.setURL("http://www.tianya.cn/publicforum/articleslist/0/no20.shtml");
        URL[] urls = linkBean.getLinks();
        for (int i = 0; i
AppletTag
,
BaseHrefTag
,
BodyTag
,
Bullet
,
BulletList
,
CompositeTag
,
DefinitionList
,
DefinitionListBullet
,
Div
,
DoctypeTag
,
FormTag
,
FrameSetTag
,
FrameTag
,
HeadingTag
,
HeadTag
,
Html
,
ImageTag
,
InputTag
,
JspTag
,
LabelTag
,
LinkTag
,
MetaTag
,
ObjectTag
,
OptionTag
,
ParagraphTag
,
ProcessingInstructionTag
,
ScriptTag
,
SelectTag
,
Span
,
StyleTag
,
TableColumn
,
TableHeader
,
TableRow
,
TableTag
,
TagNode
,
TextareaTag
,
TitleTag
有这么多的HTML标签是可以套的。即想要什么样的HTML页面标签都是可以取出来的。这样的话可以分门进行探测标签的!
               
               
               
               
               

本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u2/84280/showart_2073901.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP