免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3223 | 回复: 2
打印 上一主题 下一主题

分析html 脚本的TAG 再组织存储成树型结构?[已解决] [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2007-08-22 13:05 |只看该作者 |倒序浏览
通过 html::parser 模块分析得到网页各个tag,有什么简单方式把 tag 按组织结构存储成树型组织结构?结构关系如附件图示结构

[ 本帖最后由 sundycindy 于 2007-8-23 18:09 编辑 ]

htmlTree.jpg (11.5 KB, 下载次数: 17)

树型图示

树型图示

论坛徽章:
0
2 [报告]
发表于 2007-08-23 09:22 |只看该作者
你要的是这种结果吗?
脚本:
[root@supersun web]# cat dump.pl

#!/usr/bin/perl -w

use strict;

use HTML::TreeBuilder;
use HTML::Entities;
my $file=shift;

my $tree=HTML::TreeBuilder->new_from_file($file);
#my $util=$tree->address("0.1.2.0");

print $tree->dump,"\n";
$tree->delete();


运行:
[root@supersun web]# perl dump.pl index.html
<html> @0
  <head> @0.0
    <title> @0.0.0
      "网文共赏 Www.21GbooK.Com"
    <meta c http-equiv="Content-Type" /> @0.0.1
    <meta c http-equiv="Refresh" /> @0.0.2
    <style> @0.0.3
      "body{font-size:9pt}\x0atd{font-size:9pt}"
    <base target="_blank" /> @0.0.4
  <body topmargin="15"> @0.1
    <center> @0.1.0
      <table bgcolor="#302818" border="2" bordercolor="#666666" cellpadding="0" cellspacing="0"> @0.1.0.0
        <tr> @0.1.0.0.0
          <td> @0.1.0.0.0.0
            <a href="book.htm" target="_top"> @0.1.0.0.0.0.0
              <img border="0" height="326" src="http://toppic.blogchina.com/inc/22.jpg" width="162" /> @0.1.0.0.0.0.0.0
              <img border="0" height="326" src="http://toppic.blogchina.com/inc/11.jpg" width="329" /> @0.1.0.0.0.0.0.1
        <tr> @0.1.0.0.1
          <td height="26"> @0.1.0.0.1.0
            " "
            <a href="book.htm" style="color:#FFFFFF" target="_top"> @0.1.0.0.1.0.1
              "■ 进入网络文学基地"
      <p> @0.1.0.1
        "粤ICP备05003585号"
      <p> @0.1.0.2
        <iframe border="0" frameborder="0" framespacing="0" height="40" hspace="0" id="baiduframe" marginheight="0" marginwidth="0" scrolling="no" src="http://unstat.baidu.com/bdun.bsc?tn=21gbook&amp;csid=107&amp;rkcs=4&amp;bgcr=FFFFFF&amp;ftcr=000000&amp;rk=1&amp;bd=1&amp;bdas=0" vspace="0" width="468"> @0.1.0.2.0
        <iframe bordercolor="#000000" frameborder="0" height="75" marginheight="0" marginwidth="0" scrolling="no" src="http://adsence.sogou.com/index.html?pid=fscmx&amp;ww=120&amp;dc=2&amp;dir=0&amp;num=6&amp;color=3" width="735"> @0.1.0.2.1
      <p> @0.1.0.3
        <script language="javascript" src="21ns.js"> @0.1.0.3.0
        <script src="http://y.cnxad.com/adcode.aspx?codecrt=pop_sp2&amp;webuserid=1014&amp;encode=YTflCMDHSUQaeDEitXcavOEO1k9uYSBY9Rx67mQxTuU%3d&amp;et=1"> @0.1.0.3.1
        <br /> @0.1.0.3.2
        <script language="javascript" src="http://js.users.51.la/94125.js" type="text/javascript"> @0.1.0.3.3
        <script id="y_js" src="http://stat.aliunion.cn.yahoo.com/stat.js?wid=21197"> @0.1.0.3.4

论坛徽章:
0
3 [报告]
发表于 2007-08-23 18:07 |只看该作者
谢谢!我猜也应该有的:)
:wink:

详细用法参见:
http://search.cpan.org/~petek/HT ... HTML/TreeBuilder.pm
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP