免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 7358 | 回复: 5

Perl停止工作的问题 [复制链接]

论坛徽章:
0
发表于 2012-03-22 16:44 |显示全部楼层

大家,麻烦帮我看个程序,是从股票网站上扒数的东西。一共有298个股票,每个股票又一个贴吧,贴吧的页数用$page_num获取。之后输出成txt,用股票代码命名。

程序可以运行,没有问题。但是很多股票有1000页,运行到200页perl就停止工作了(而且是j<1即仅跑一只股票的时候)><。。。。

就是这个停止工作是为嘛哩,是不是内存不够什么的?有没有什么改进办法呀。我有几百只股票要处理呢,很想一次跑多个股票呀。。。。

求教~~

#!/usr/bin/perl -w

use strict;
use warnings;
use LWP::Simple;
use utf8;

my ($dianji,$huifu,$biaoti,$zuozhe,$zuihougengxin,$fabiaoriqi);
my @content;
my $j=0;
my $stkcd=123456;

open (MYFILE, "code.txt" || die "打开code.txt失败!";
@content=<MYFILE>;
close (MYFILE);

for (;$j<298;++$j)
{
print $content[$j]."\n";

$stkcd=int($content[$j]);

open (TEXT,">".$stkcd.".txt" or die "创建结果文件失败!";
binmode(TEXT, ':encoding(utf');
print TEXT "代码\t\t点击\t\t回复\t\t标题\t\t作者\t\t最后更新\t\t发表日期\n";

my $geturl=get("http://guba.eastmoney.com/topic,".$stkcd."_1.html";
my $page_num=$1 if($geturl =~ /page_num=(\d+);/ig);
for (my $i=1;$i<=$page_num;++$i)
{
                my $url="http://guba.eastmoney.com/topic,".$stkcd."_".$i.".html";
                $geturl=get($url);
                while($geturl =~ /<ul><li\ class=l1>(\d+?)<\/li><li\ class=l2>(\d+?)<\/li><li\ class=l3><.*?\ >(.*?)<\/a><\/li><li\ class=l4>(.*?)<\/li><li\ class=l5>(.*?)<\/li><li\ class=l6>(.*?)<\/li><\/ul><\/div>/g)
                {
                                $dianji=$1;
                                $huifu=$2;
                                $biaoti=$3;
                                $zuozhe=$4;
                                $zuihougengxin=$5;
                                $fabiaoriqi=$6;
                                binmode(TEXT, ':encoding(utf');
                                print TEXT $stkcd."\t\t".$dianji."\t\t".$huifu."\t\t".$biaoti."\t\t".$zuozhe."\t\t".$zuihougengxin."\t\t".$fabiaoriqi."\n";
                }
}
close TEXT;
}

论坛徽章:
0
发表于 2012-03-22 16:47 |显示全部楼层
我好想没在程序中加表情呀...那都是括号什么的

论坛徽章:
42
19周年集字徽章-周
日期:2019-10-14 14:35:31平安夜徽章
日期:2015-12-26 00:06:30数据库技术版块每日发帖之星
日期:2015-12-01 06:20:002015亚冠之首尔
日期:2015-11-04 22:25:43IT运维版块每日发帖之星
日期:2015-08-17 06:20:00寅虎
日期:2014-06-04 16:25:27狮子座
日期:2014-05-12 11:00:00辰龙
日期:2013-12-20 17:07:19射手座
日期:2013-10-24 21:01:23CU十二周年纪念徽章
日期:2013-10-24 15:41:34IT运维版块每日发帖之星
日期:2016-01-27 06:20:0015-16赛季CBA联赛之新疆
日期:2016-06-07 14:10:01
发表于 2019-03-27 15:26 |显示全部楼层
发代码的时候要选择代码

论坛徽章:
0
发表于 2019-05-05 23:59 |显示全部楼层
要用Mojo:OM来处理HTML,不要自己写正则。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

SACC2019中国系统架构师大会

【数字转型 架构演进】SACC2019中国系统架构师大会
2019年10月31日~11月2日第11届中国系统架构师大会(SACC2019)将在北京隆重召开。四大主线并行的演讲模式,1个主会场、20个技术专场、超千人参与的会议规模,100+来自互联网、金融、制造业、电商等领域的嘉宾阵容,将为广大参会者提供一场最具价值的技术交流盛会。




----------------------------------------

大会官网>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP