免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12
最近访问板块 发新帖
楼主: sx98083714
打印 上一主题 下一主题

抓取淘宝产品简介页面时遇到的问题,求解!谢谢! [复制链接]

论坛徽章:
0
11 [报告]
发表于 2010-11-21 07:21 |只看该作者
具体得研究页面代码。

论坛徽章:
0
12 [报告]
发表于 2010-11-21 12:43 |只看该作者
本帖最后由 iamlimeng 于 2010-11-21 12:46 编辑

研究了一下,写了段代码,希望对大家有帮助。
  1. #!/usr/bin/perl

  2. use strict;
  3. #use warnings;
  4. use LWP::UserAgent;
  5. use LWP::ConnCache;
  6. my $url_taobao = "http://meilibody.taobao.com/?search=y";

  7. my $path = "d:/taobao";
  8. mkdir($path) if (not -d $path);
  9. my $lwp = new LWP::UserAgent(agent => 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727; CIBA)');
  10. my $conncache = new LWP::ConnCache;
  11. $lwp->conn_cache($conncache);

  12. my $n = 1;
  13. my @url_main_page;
  14. my $content = get_html($url_taobao);
  15. if ($content) {
  16.         $content =~ s/\n|\r//g;
  17.          my ($page) = ($content =~ /<div class="page-bottom">(.*?)<\/div>/ig);
  18.         @url_main_page = ($page =~ /<a href="(.*?)">\d<\/a>/ig);
  19.          my %url_product = ($content =~ /<div class="desc"><a target="_blank" href="(.*?)" class="permalink">(.*?)<\/a>/ig);
  20.          get_desc($_,$url_product{$_}) for (keys %url_product);
  21. }
  22. else { print qq~ Get "$url_taobao" error!~; }

  23. foreach (@url_main_page) {
  24.         my $content = get_html($_);
  25.         if ($content) {
  26.                  $content =~ s/\n|\r//g;
  27.                  my %url_product = ($content =~ /<div class="desc"><a target="_blank" href="(.*?)" class="permalink">(.*?)<\/a>/ig);
  28.                  get_desc($_,$url_product{$_}) for (keys %url_product);
  29.         }
  30.         else { print qq~ Get "$_" error!~; }
  31. }
  32. print "\n Get All product infomation OK!\7";
  33. <STDIN>;

  34. sub get_desc {
  35.         my ($url,$name) = @_;
  36.         my $url_desc;
  37.         my $content = get_html($url);
  38.         if ($content) {
  39.                  $content =~ s/\n|\r//g;
  40.                  ($url_desc) = ($content =~ /.*?(http:\/\/dsc\.taobaocdn\.com\/.*?)\'/i);
  41.                  my $desc = get_html($url_desc);
  42.                  if ($desc) {
  43.                           open(FH,">$path/product_$n.txt")
  44.                            || print " Create file product_$n.txt error!\n\7";
  45.                            print FH "$name\n\n$desc";
  46.                           close FH;
  47.                           print " $n $name OK!\n";
  48.                  }
  49.                  else { print " $n $name Error!\n"; }
  50.         }
  51.         else { print qq~ $n Get "$url" error!~; }
  52.         $n++;
  53. }

  54. sub get_html {
  55.         my $url_request = shift;
  56.         my $request = HTTP::Request->new(GET=>$url_request);
  57.         $request->header(Accept=>'text/html');
  58.         my $response = $lwp->request($request);
  59.         if ($response->is_success) {
  60.                 return($response->content());
  61.         }
  62.         else  {
  63.                  return 0;
  64.         }
  65. }
复制代码
正则写得不太好,请大家包涵。

论坛徽章:
0
13 [报告]
发表于 2010-11-21 15:41 |只看该作者
iamlimeng我爱死你了,又帮我解决了个问题,再次感谢!

论坛徽章:
0
14 [报告]
发表于 2011-11-25 11:20 |只看该作者
回复 12# iamlimeng


    27行-35行是不是不需要的?

论坛徽章:
0
15 [报告]
发表于 2011-11-26 18:06 |只看该作者
回复 12# iamlimeng

请问大侠:
  1. my ($page) = ($content =~ /<div class="page-bottom">(.*?)<\/div>/ig)
复制代码
这段代码是把名为page-bottom的一段内容替代成什么呢? 正则表达式 =~ s///ig,请问是不是上面少了一个"/",我对正则表达式还不太明白,请赐教,谢谢!

论坛徽章:
0
16
发表于 2011-11-28 14:46
本帖最后由 xufinal 于 2011-11-28 14:54 编辑

~~~

论坛徽章:
0
17 [报告]
发表于 2013-01-06 23:35 |只看该作者
楼主有实现的方法了吗?
我想用Python下载宝贝的图片,读取出来的页面也是“商品加载中”,没办法分析
QQ:329899749 求交流
回复 1# sx98083714


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP