刚刚开了一个《计算机网络》的课,觉得很有用。正好师兄让我练习编写一个能下载网站网页的程序,正好能用上课上的知识了。为了想作一个效率不差的,而下载网页的性能瓶颈是在网络上,所有决定用Python编写代码。刚学python没几天,学习一种语言的最好方法就是写code.下面的是我用的多线程实现的网络爬虫,并用py2exe生成了一个exe,自身觉得py2exe不太好,又不会更好的,只能...... 这是我这些天的成果。希望有人能提出好...
by xixidechengbao - 网络技术文档中心 - 2009-08-21 23:20:42 阅读(1382) 回复(0)
本帖最后由 hu_lu_wa 于 2013-01-15 11:44 编辑 我用的是C/C++ linux环境 windows 都可以 想写一个爬虫软件 但是 原理具体怎么做还不是很明白,请大哥们给个建议我要从哪学起。
小弟用shell完成了一个爬虫程序。 爬数据没问 在数据更新这遇到问题了。 对于动态网页如何能判断出是否更新。 Last-Modified的方法不可取 动态网页获取不到 MD5也不可取,每次下载同一个页面MD5值都不一样。 麻烦各位大神支支招 谢谢了
之前一直游离在perl板块,最近可能会划动到python这边。 因为有一个功能据说python实现起来比较简单。。 今天测了下网页爬虫的功能。 到目前为止都木有实际解决的好方法。。 所以到此请教各位大拿。 自己写了个单纯抓页面的后面就写不下去了。求指教。想抓2级分页数据等等。。 其实目标很简单,就是想扒整站分析。以下代码巨烂无比,网上不停翻出来的东西。[code]#coding=utf-8 import re,urllib2 from sgmllib import SGMLParse...
请大鸟帮小弟一下啊: 我最近在写python的爬虫,有很多疑问:1.网络异常(情况很多)这时候怎么取解决网络异常,直接try一下在except中什么也不做,直接忽略掉?2.我之前一直没有用到多线程,程序运行 很长时间之后就卡着不动了,只要ctrl-c一下又可以继续运行了,这是怎么回事呢?,是不是多线程就可以解决这个问题呢?3.如果用一个线程监视url队列,另外一个线程抓网页,那么如果发生像2中的情况怎么结束这个抓网页的线程?
#usr/bin/python # -*- coding: utf-8 -*- #by tcsun for test [email]tcsun11@gmail.com[/email] 爬取网页列表 from sgmllib import SGMLParser import threading import time import urllib2 import StringIO import gzip import string import os from Queue import Queue #rewrite SGMLParser for start_a class Basegeturls(SGMLParser): #这个Basegeturls类作用是分析下载的网页,把网页中的所有链接放在self.url...
我的python版本: # python -V Python 2.4.3 有一个程序:[code]#!/usr/bin/python #-*- encoding: gb2312 -*- import HTMLParser class MyParser(HTMLParser.HTMLParser): def __init__(self): HTMLParser.HTMLParser.__init__(self) def handle_starttag(self, tag, attrs): if tag == 'a': for name,value in attrs: ...
java网页爬虫 .原理; 首先,爬虫的目的是什么? 1:爬取某一网站某一类别的网页信息 2:爬取某一网站的全部页面信息 3:爬取网络中,某一网段或全网的信息 对于1: 分析首页面url布局,分析url的特点,获取全部url,去掉非目的url,根据目的url,读写文件到本地目录,(继续读取某一目录下的页面url,或,读取某一目录下的url,根据规则获取某一类页面想要的信息指),写入日志。 for,hzw: 1:根据首页面url,读取改...