免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2323 | 回复: 2
打印 上一主题 下一主题

可以在新浪网盘里面批量获取搜索内容的地址及下载文件 [复制链接]

论坛徽章:
1
数据库技术版块每日发帖之星
日期:2015-07-11 22:20:00
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-07-15 10:24 |只看该作者 |倒序浏览
window或者linux平台都可以,只需要自己设置搜索的内容即可

[Perl]代码
  1. use LWP::UserAgent;
  2. use HTML::TreeBuilder;
  3. use LWP::Simple;
  4. use URI;
  5. use Encode;
  6. @list_url=();
  7. @download_url=();
  8. foreach (1..16)#在新浪微盘里面搜索perl会有16个页面的结果
  9.          {
  10.          my $url = URI->new('http://vdisk.weibo.com/search/');
  11.          my($keyword,$sortby,$page) = ("perl","default",$_);#对perl这个关键词做测试
  12.          $url->query_form
  13.          (
  14.            # All form pairs:
  15.            'keyword'  => $keyword,
  16.            'sortby' => $sortby,
  17.            'page' => $page,
  18.          );
  19.          push @list_url,$url;
  20.          }

  21. my $ua = LWP::UserAgent->new;
  22. #open fh,">aa.txt";
  23. foreach (@list_url)#对我们自己合成的目标url做循环爬取适合的链接
  24.           {
  25.           my $response = $ua->get($_);
  26.           $html=$response->content;
  27.            my $tree = HTML::TreeBuilder->new; # empty tree
  28.            $tree->parse($html) or print "error : parse html ";
  29.            @pdf_name=$tree->find_by_attribute("class","sort_name_intro") or print "error : cannot find pdf_name ";
  30.                   foreach (@pdf_name)
  31.                   {
  32.                      $node=$_->look_down(_tag=>'a');
  33.                      $a=$node->attr('href');
  34.                      $b=encode("cp936", decode("utf-8",$node->attr('title')));
  35.                      $c="$a\t$b";
  36.                      push @download_url,$c;#把目标链接的url及文件名添加到下载列表
  37.                   }
  38.           }

  39. foreach (@download_url)
  40.           {
  41.           @tmp=split;
  42.           $html=get($tmp[0]);
  43.           $html=~/fileDown\.init.*?\"url\":\"(.*?)\",/;#这个是关键,我找了半天才找到该页面的真实url地址
  44.           $a=$1;
  45.           $a=~s/\\//g;
  46.           print $a;
  47.           getstore("$a","$tmp[1]");
  48.           }
复制代码

论坛徽章:
1
辰龙
日期:2014-05-15 19:37:15
2 [报告]
发表于 2015-07-16 15:22 |只看该作者
不错不错, 楼主可以试着用 Mojo::UserAgent 看看

论坛徽章:
0
3 [报告]
发表于 2015-07-17 14:22 |只看该作者
我运行了你的程序,编译不过,Error:  getPan.pl 是运行的perl 文件,内容copy 你的贴

Use of uninitialized value $ARGV[0] in concatenation(.) or string at getPan.pl readline() on closed filehandler FILE  at getPan.pl line 16
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP