免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 30979 | 回复: 62
打印 上一主题 下一主题

怎么下载网页内容 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-12-26 15:16 |只看该作者 |倒序浏览
20可用积分
我有类似



很多,

我想下载它们的文本内容然后找我感兴趣的东西

我用
  1. wget [url]http://172.16.28.110/mantis/view.php?id=49[/url]
复制代码


下载的怎么没有文本内容。该如何解决?

最佳答案

查看完整内容

curl -d "username=用户名&password=密码&button=登录" http://172.16.28.110/mantis/login_page.php用这个试试:)

论坛徽章:
0
2 [报告]
发表于 2008-12-26 15:16 |只看该作者
curl -d "username=用户名&password=密码&button=登录" http://172.16.28.110/mantis/login_page.php
用这个试试:)

论坛徽章:
0
3 [报告]
发表于 2008-12-26 15:23 |只看该作者
使用curl

论坛徽章:
0
4 [报告]
发表于 2008-12-26 15:24 |只看该作者
我有两个脚本,看看对你有没帮助

第一个知道最后一页页数

  1. #! /bin/bash
  2. #done book from url
  3. url="http://www.linuxsir.org/bbs/thread29701.html"
  4. urlbase=${url%/*}
  5. urlfile=${url##*/}
  6.     wget -q $url
  7.     w3m $urlfile >a

  8. count=2

  9.     urlfile=${urlfile%.*}-$count.html

  10. while [ $count -lt 12 ]
  11. do

  12.     wget -q $urlbase"/"$urlfile
  13.    
  14.     w3m $urlfile >>a
  15. #    cat a
  16.     rm $urlfile       
  17.     echo $count  $urlfile "##################"

  18.     ((count++))
  19.     urlfile=${urlfile%-*}-$count.html
  20. done
复制代码

第二个,是人家的,知道共同特征“下一节”

  1. #! /bin/bash
  2. #done book from url
  3. url="http://www.xunlei-mz.cn/artview_91842_6.html"
  4. urlbase=`echo ${url%/*}`
  5. urlfile=`echo ${url##*/}`
  6. count=0
  7. while(true)
  8. do
  9.     ((count++))
  10.     wget -q $urlbase"/"$urlfile
  11.     iconv -f gb18030 -t utf8 $urlfile >tmp.shtml
  12.    
  13.     w3m tmp.shtml >>a
  14. #    cat a
  15.     rm $urlfile       
  16.     urlfile=`grep "下一节" tmp.shtml |sed "s/'>.*//"|sed "s/.*'//"`
  17.     echo $count  $urlfile "##################"
  18.     if [ -z "$urlfile" ]
  19.     then
  20.         break   
  21.     fi  
  22. done
  23. rm tmp.shtml
复制代码

论坛徽章:
0
5 [报告]
发表于 2008-12-26 15:26 |只看该作者
[root@union rc.d]# curl www.chinaunix.net >unix.net
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 80371    0 80371    0     0  1067k      0 --:--:-- --:--:-- --:--:-- 1404k
[root@union rc.d]# cat unix.net |more
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
<META
content="Linux,unix,Freebsd,Solaris,服务器,存储,数据库,开发,程序设计,网络,安全,备份,硬件,IT培训,IT招聘求职,IT业界,IT人物,IT评论,业界
评论,计算机,数码,IT圈,下载,wiki,blog,博客"
name=keywords>
<META
content="ChinaUnix.net是中国最大的Linux/Unix技术社区网站,我们还交流程序开发,数据库,存储备份,服务器技术,网络安全等技术,并提供IT人才招
聘,软件下载,BLOG,IT培训等服务。"
name=description>
<title>ChinaUnix.net = 全球最大的Linux/Unix应用与开发者社区 = IT人的网上家园</title>
<meta http-equiv="Refresh" content=300;URL=/>
<meta name="robots" content="ALL">
<meta name="distribution" content="Global">
<meta name="rating" content="General">
<meta name="author" content="http://www.chinaunix.net/">
<meta name="language" content="chinese">

<link href="css/index2.css" rel="stylesheet" type="text/css" />

</head>

<body>
<CENTER>

<table width="760" border="0" cellpadding="0" cellspacing="0">
  <tr><FORM name="login" action="http://bbs.chinaunix.net/logging.php?action=login"  method=post>
        <TD nowrap width="*" align="left">
        <script language="javascript" src="http://bbs.chinaunix.net/loginbox.php"></script>
        </TD>
</form>
  <FORM name=search action=http://s.chinaunix.net/bbs.php method=get>
    <TD vAlign=center align=right height=23 nowrap width="304"><a href=http://www.chinaunix.net/hot.shtml style="color: green; text-
decoration: none" target=_blank>今日推荐</a> [<a href=http://bbs3.chinaunix.net title="如果您觉得访问慢,欢迎访问我们的镜像站:http:
//bbs3.chinaunix.net" target=_blank><font color=red>论坛境像</font></a>]
          <INPUT maxLength=50 size=10 name=q>
<input type="hidden" name="title" value="fulltext">
<input type="hidden" name="st" value="title">
<input type="hidden" name="bbs" value="1">
<input type="hidden" name="forums" value="all">           
                  <INPUT name="submit" type=submit style="width:56px;height:17px;border:0;background:url('http://www.chinaunix.net/i
mages_new/search.gif');line-height:22px;cursor:hand;" value="">
    </TD>
  </FORM>
  </TR>
  </tr>
  <tr>
    <td height="1" colspan="2" bgcolor="#CCCCCC">
        <!-- 广告 begin -->
        <div width="760" height="80" id="cuad_35"></div><script language="javascript" src="http://count.chinaunix.net/js.php?id=35">
</script>
    <!-- 广告 end -->
        </td>
  </tr>
  <tr>
    <td height="60" colspan="2"><table width="100%" border="0" cellpadding="0" cellspacing="0">
      <tr>
        <td width="28%" height="60" style="vertical-align: middle"><img src="/images/culogo/indexlogo.gif" width="200" height="53" c
lass="td_m" /></td>
        <td class="td_m">

                <table class=nav width="100%" border="0" align="right" cellpadding="4" cellspacing="0">
--More--

论坛徽章:
3
戌狗
日期:2014-09-10 17:07:162015年辞旧岁徽章
日期:2015-03-03 16:54:15wusuopu
日期:2016-06-17 17:43:45
6 [报告]
发表于 2008-12-26 15:26 |只看该作者
原帖由 smallstar001 于 2008-12-26 15:16 发表
我有类似



很多,

我想下载它们的文本内容然后找我感兴趣的东西

我用
wget http://172.16.28.110/mantis/view.php?id=49

下载的怎么没有文本内容。该如何解决?

http://172.16.28.110/mantis/view.php?id=49 我这打不开

论坛徽章:
0
7 [报告]
发表于 2008-12-26 15:27 |只看该作者
对啊,你给的地址我这边打不开,所以换一个测试了一下。呵呵

论坛徽章:
3
戌狗
日期:2014-09-10 17:07:162015年辞旧岁徽章
日期:2015-03-03 16:54:15wusuopu
日期:2016-06-17 17:43:45
8 [报告]
发表于 2008-12-26 15:29 |只看该作者
原帖由 我是DBA 于 2008-12-26 15:27 发表
对啊,你给的地址我这边打不开,所以换一个测试了一下。呵呵

晕了,172.16是保留地址

论坛徽章:
0
9 [报告]
发表于 2008-12-26 15:31 |只看该作者
恩 是我们公司内部的

论坛徽章:
0
10 [报告]
发表于 2008-12-26 15:32 |只看该作者
使用curl不可以吗、
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP