论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2016-09-26 17:38 |只看该作者 |倒序浏览

我正在看perl & LWP，p26的例子alta_count.pl中使用的http://www.altavista.com已经不可使用，如果改为百度该如何修改？

#!/usr/bin/perl
# Example code from Chapter 2 of /Perl and LWP/ by Sean M. Burke
# http://www.oreilly.com/catalog/perllwp/
# sburke@cpan.org
require 5;
use strict;
use warnings;
use URI::Escape;
foreach my $word (@ARGV) {
next unless length $word; # sanity-checking
my $url = 'http://www.altavista.com/sites/search/web?q=%22'
. uri_escape($word) . '%22&kl=XX';#此处如何修改？
my ($content, $status, $is_success) = do_GET($url);
if (!$is_success) {
print "Sorry, failed: $status\n";
} elsif ($content =~ m/>We found ([0-9,]+) results?/) { # like "1,952"
print "$word: $1 matches\n";
} else {
print "$word: Page not processable, at $url\n";
}
sleep 2; # Be nice to Altavista's servers!!!
}
# And then my favorite do_GET routine:
use LWP; # loads lots of necessary classes.
my $browser;
sub do_GET {
$browser = LWP::UserAgent->new unless $browser;
my $resp = $browser->get(@_);
return ($resp->content, $resp->status_line, $resp->is_success, $resp)
if wantarray;
return unless $resp->is_success;
return $resp->content;
}
__END__
Output:
C:\book\code\ch02>perl alta_count.pl asafetida asafoetida
asafetida: 2,024 matches
asafoetida: 5,630 matches

复制代码

文库|博客

fcl21721

白手起家

论坛徽章:: 0

2楼 [报告]

发表于 2016-09-27 13:35 |只看该作者

require 5;
use strict;
use warnings;
use utf8;

use URI::Escape;
use Encode;
foreach my $word (@ARGV) {
  next unless length $word; # sanity-checking
my $url = "http:". "//". "www.". "sogou". ".com". "/sohu?query="
. uri_escape($word) . '';

  my ($content, $status, $is_success) = do_GET($url);
  $content= decode( 'utf8', $content);

  if (!$is_success) {
print "Sorry, failed: $status\n";
  } elsif ($content =~ m{找到约<resnum id="scd_num">(.+)</resnum>条}) { # like "1,952"
print "$word: $1 matches\n";
  } else {
print "$word: Page not processable, at $url\n";
  }
  sleep 2; # Be nice to Altavista's servers!!!
}

# And then my favorite do_GET routine:
use LWP; # loads lots of necessary classes.
my $browser;
sub do_GET {
  $browser = LWP::UserAgent->new unless $browser;
  my $resp = $browser->get(@_);
  return ($resp->content, $resp->status_line, $resp->is_success, $resp)
if wantarray;
  return unless $resp->is_success;
  return $resp->content;
}

C:\Users\Administrator\Desktop\perl\perl\network>perl alta_count.pl clinton trump
clinton: 150,584 matches
trump: 488,868 matches

评分

参与人数 1	信誉积分 +10	收起理由
hztj2005	+ 10	很给力!

查看全部评分

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

hztj2005

家境小康

论坛徽章:: 0

3楼 [报告]

发表于 2016-09-27 16:08 |只看该作者

本帖最后由 hztj2005 于 2016-09-27 16:10 编辑

fcl21721 发表于 2016-09-27 13:35
my $url = "http:". "//". "www.". "sogou". ".com". "/sohu?query="
. uri_escape($word) . '';

请教这个语句是否必须通过抓包才能发现？那么通常用哪个工具抓包呢？
谢谢！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

fcl21721

白手起家

论坛徽章:: 0

4楼 [报告]

发表于 2016-09-27 20:30 |只看该作者

不是啊，我修改的两个地方
1. 那个url，因为原来的url好像已经不用了，现在变成yahoo的了，我改成了搜狗，这个网站好像不能贴url，所以我就让他拼接了。（这个不难的，从ie的地址栏就能看出他的搜索关键字是哪个。另外加了一个转码）
2. 那个正则我也改过了。

抓包用winshark。我也不是很懂，网上有一些视频教程，你可以看看。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

hztj2005

家境小康

论坛徽章:: 0

5楼 [报告]

发表于 2016-09-27 23:34 |只看该作者

fcl21721 发表于 2016-09-27 20:30
不是啊，我修改的两个地方
1. 那个url，因为原来的url好像已经不用了，现在变成yahoo的了，我改成了搜狗， ...

https://www.sogou.com/web?query=clinton&_asf=www.sogou.com&_ast=&w=01015002&p=40040100&ie=utf8&from=index-nologin&oq=cl&ri=0&sourceid=sugg&suguuid=9a99d0ee-fe5e-4739-ab50-163eac05e75e&stj=0%3B0%3B0%3B0&stj2=0&stj0=0&stj1=0&hp=0&hp1=&suglabid=suglabId_1&sut=6421&sst0=1474989520477&lkt=2%2C1474989517074%2C1474989517452

这是我在搜狗输入clinton，按回车之后，搜狗返回结果后，地址栏中复制过来的。而你代码中实际是下面这样的，我就不理解你如何推断出来的。
（如果输入clinton，不按回车，地址栏就是https://www.sogou.com/）

http://www.sogou.com/sohu?query=clinton

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

fcl21721

白手起家

论坛徽章:: 0

6楼 [报告]

发表于 2016-09-28 09:58 |只看该作者

一般的话，搜索关键字就一个，比如kw=, query=，我以前看过selenium的例子，他用的是baidu做为搜索网站的，关键字就一个。那我想其他的估计也就一个关键字（其实你原始的url也就一个搜索关键字），其他的url参数都不重要，像我的例子里面，sohu?是指我是从www|sohu|com里面搜索的，他redirect到搜狗，你这个是直接在搜狗上搜索的，其他的url参数不重要，都是些状态信息。

用winshark看的话，你也不会知道哪个参数是重要的，靠看靠猜吧。