ChinaUnix.net
相关文章推荐:

爬虫 编写

刚刚开了一个《计算机网络》的课,觉得很有用。正好师兄让我练习编写一个能下载网站网页的程序,正好能用上课上的知识了。为了想作一个效率不差的,而下载网页的性能瓶颈是在网络上,所有决定用Python编写代码。刚学python没几天,学习一种语言的最好方法就是写code.下面的是我用的多线程实现的网络爬虫,并用py2exe生成了一个exe,自身觉得py2exe不太好,又不会更好的,只能...... 这是我这些天的成果。希望有人能提出好...

by xixidechengbao - 网络技术文档中心 - 2009-08-21 23:20:42 阅读(1382) 回复(0)

网络技术

相关讨论

本帖最后由 hu_lu_wa 于 2013-01-15 11:44 编辑 我用的是C/C++ linux环境 windows 都可以 想写一个爬虫软件 但是 原理具体怎么做还不是很明白,请大哥们给个建议我要从哪学起。

by hu_lu_wa - Linux环境编程 - 2013-01-16 10:28:43 阅读(1480) 回复(1)

小弟用shell完成了一个爬虫程序。 爬数据没问 在数据更新这遇到问题了。 对于动态网页如何能判断出是否更新。 Last-Modified的方法不可取 动态网页获取不到 MD5也不可取,每次下载同一个页面MD5值都不一样。 麻烦各位大神支支招 谢谢了

by yakezone - Shell - 2012-08-03 11:14:44 阅读(3101) 回复(6)

对于爬虫我是个新手,想自己编写一个垂直搜索方面的爬虫,请问我该如何下手,有没有这个方面的实例教程?

by hfy9013 - Web开发 - 2013-08-04 20:54:41 阅读(10609) 回复(4)

之前一直游离在perl板块,最近可能会划动到python这边。 因为有一个功能据说python实现起来比较简单。。 今天测了下网页爬虫的功能。 到目前为止都木有实际解决的好方法。。 所以到此请教各位大拿。 自己写了个单纯抓页面的后面就写不下去了。求指教。想抓2级分页数据等等。。 其实目标很简单,就是想扒整站分析。以下代码巨烂无比,网上不停翻出来的东西。[code]#coding=utf-8 import re,urllib2 from sgmllib import SGMLParse...

by 墨迹哥 - Python - 2013-07-05 11:10:49 阅读(2165) 回复(9)

请大鸟帮小弟一下啊: 我最近在写python的爬虫,有很多疑问:1.网络异常(情况很多)这时候怎么取解决网络异常,直接try一下在except中什么也不做,直接忽略掉?2.我之前一直没有用到多线程,程序运行 很长时间之后就卡着不动了,只要ctrl-c一下又可以继续运行了,这是怎么回事呢?,是不是多线程就可以解决这个问题呢?3.如果用一个线程监视url队列,另外一个线程抓网页,那么如果发生像2中的情况怎么结束这个抓网页的线程?

by lgcHR - Python - 2012-04-04 13:21:07 阅读(1455) 回复(1)

#usr/bin/python # -*- coding: utf-8 -*- #by tcsun for test [email]tcsun11@gmail.com[/email] 爬取网页列表 from sgmllib import SGMLParser import threading import time import urllib2 import StringIO import gzip import string import os from Queue import Queue #rewrite SGMLParser for start_a class Basegeturls(SGMLParser): #这个Basegeturls类作用是分析下载的网页,把网页中的所有链接放在self.url...

by sct00 - Python - 2012-02-23 11:21:19 阅读(2305) 回复(2)

我的python版本: # python -V Python 2.4.3 有一个程序:[code]#!/usr/bin/python #-*- encoding: gb2312 -*- import HTMLParser class MyParser(HTMLParser.HTMLParser): def __init__(self): HTMLParser.HTMLParser.__init__(self) def handle_starttag(self, tag, attrs): if tag == 'a': for name,value in attrs: ...

by linuxer24 - Python - 2011-12-28 21:01:11 阅读(1634) 回复(1)

java网页爬虫 .原理; 首先,爬虫的目的是什么? 1:爬取某一网站某一类别的网页信息 2:爬取某一网站的全部页面信息 3:爬取网络中,某一网段或全网的信息 对于1: 分析首页面url布局,分析url的特点,获取全部url,去掉非目的url,根据目的url,读写文件到本地目录,(继续读取某一目录下的页面url,或,读取某一目录下的url,根据规则获取某一类页面想要的信息指),写入日志。 for,hzw: 1:根据首页面url,读取改...

java

by 凝望长空 - Java - 2011-08-21 21:42:02 阅读(2033) 回复(1)

有谁使用过larbin没有,为什么不能抓取youku,和tudou的网页?? 谢谢了

by chinaunixccy - C/C++ - 2010-11-01 13:32:06 阅读(1762) 回复(1)