爬虫编写

用python编写网络爬虫

刚刚开了一个《计算机网络》的课，觉得很有用。正好师兄让我练习编写一个能下载网站网页的程序，正好能用上课上的知识了。为了想作一个效率不差的，而下载网页的性能瓶颈是在网络上，所有决定用Python编写代码。刚学python没几天，学习一种语言的最好方法就是写code.下面的是我用的多线程实现的网络爬虫，并用py2exe生成了一个exe，自身觉得py2exe不太好，又不会更好的，只能...... 这是我这些天的成果。希望有人能提出好...

by xixidechengbao - 网络技术文档中心 - 2009-08-21 23:20:42 阅读（1382）回复（0）

网络技术

其他文章推荐

QQ空间新浪微博腾讯微博人人网开心网豆瓣网百度空间更多

新手想学习下爬虫软件的编写给个建议

本帖最后由 hu_lu_wa 于 2013-01-15 11:44 编辑我用的是C/C++ linux环境 windows 都可以想写一个爬虫软件但是原理具体怎么做还不是很明白，请大哥们给个建议我要从哪学起。

by hu_lu_wa - Linux环境编程 - 2013-01-16 10:28:43 阅读（1480）回复（1）

shell爬虫

小弟用shell完成了一个爬虫程序。爬数据没问在数据更新这遇到问题了。对于动态网页如何能判断出是否更新。 Last-Modified的方法不可取动态网页获取不到 MD5也不可取，每次下载同一个页面MD5值都不一样。麻烦各位大神支支招谢谢了

by yakezone - Shell - 2012-08-03 11:14:44 阅读（3101）回复（6）

想自己写爬虫

对于爬虫我是个新手，想自己编写一个垂直搜索方面的爬虫，请问我该如何下手，有没有这个方面的实例教程？

by hfy9013 - Web开发 - 2013-08-04 20:54:41 阅读（10609）回复（4）

Python爬虫请教

之前一直游离在perl板块，最近可能会划动到python这边。因为有一个功能据说python实现起来比较简单。。今天测了下网页爬虫的功能。到目前为止都木有实际解决的好方法。。所以到此请教各位大拿。自己写了个单纯抓页面的后面就写不下去了。求指教。想抓2级分页数据等等。。其实目标很简单，就是想扒整站分析。以下代码巨烂无比，网上不停翻出来的东西。[code]#coding=utf-8 import re,urllib2 from sgmllib import SGMLParse...

by 墨迹哥 - Python - 2013-07-05 11:10:49 阅读（2165）回复（9）

python爬虫疑惑

请大鸟帮小弟一下啊：我最近在写python的爬虫，有很多疑问:1.网络异常（情况很多）这时候怎么取解决网络异常，直接try一下在except中什么也不做，直接忽略掉？2.我之前一直没有用到多线程，程序运行很长时间之后就卡着不动了，只要ctrl-c一下又可以继续运行了，这是怎么回事呢？，是不是多线程就可以解决这个问题呢？3.如果用一个线程监视url队列，另外一个线程抓网页，那么如果发生像2中的情况怎么结束这个抓网页的线程？

by lgcHR - Python - 2012-04-04 13:21:07 阅读（1455）回复（1）

python求助。爬虫的

#usr/bin/python # -*- coding: utf-8 -*- #by tcsun for test [email]tcsun11@gmail.com[/email] 爬取网页列表 from sgmllib import SGMLParser import threading import time import urllib2 import StringIO import gzip import string import os from Queue import Queue #rewrite SGMLParser for start_a class Basegeturls(SGMLParser): #这个Basegeturls类作用是分析下载的网页，把网页中的所有链接放在self.url...

by sct00 - Python - 2012-02-23 11:21:19 阅读（2305）回复（2）

关于HTMLParser爬虫问题

我的python版本： # python -V Python 2.4.3 有一个程序：[code]#!/usr/bin/python #-*- encoding: gb2312 -*- import HTMLParser class MyParser(HTMLParser.HTMLParser): def __init__(self): HTMLParser.HTMLParser.__init__(self) def handle_starttag(self, tag, attrs): if tag == 'a': for name,value in attrs: ...

by linuxer24 - Python - 2011-12-28 21:01:11 阅读（1634）回复（1）

java网页爬虫

java网页爬虫 .原理；首先，爬虫的目的是什么？ 1：爬取某一网站某一类别的网页信息 2：爬取某一网站的全部页面信息 3：爬取网络中，某一网段或全网的信息对于1：分析首页面url布局，分析url的特点，获取全部url，去掉非目的url，根据目的url，读写文件到本地目录，（继续读取某一目录下的页面url，或，读取某一目录下的url，根据规则获取某一类页面想要的信息指），写入日志。 for,hzw： 1：根据首页面url，读取改...

java

by 凝望长空 - Java - 2011-08-21 21:42:02 阅读（2033）回复（1）

网络爬虫larbin

有谁使用过larbin没有，为什么不能抓取youku,和tudou的网页？？谢谢了

by chinaunixccy - C/C++ - 2010-11-01 13:32:06 阅读（1762）回复（1）

盛拓传媒：

IT168 | 泡泡网 | 汽车之家 | 二手车之家 | 渠道168 | ITPUB | IXPUB | ChinaUnix | 安卓之家 | 苹果园 | 家商城 | 苹果论坛

爬虫编写

用python编写网络爬虫

The file just loaded does not appear to be executable.

查看某进程线程数？

listen(int fd, int backlog)中的backlog不能限制连接数量???

GDB教程

openbox配置pdf

QT

谁有bcm4401网卡驱动程序for sco unix5.0.5!

Resources of NetSnmp

moto a1200开发随笔(4)——h264视频解码器移植心得

在s3c2410上运行应用程序出现的错误！

新手想学习下爬虫软件的编写给个建议

shell爬虫

想自己写爬虫

Python爬虫请教

python爬虫疑惑

python求助。爬虫的

关于HTMLParser爬虫问题

java网页爬虫

网络爬虫larbin

爬虫 编写

爬虫编写