ChinaUnix.net
相关文章推荐:

scrapy 内存泄露

我用scrapy抓取的内容怎么存不进mysql数据库

by neurasthenic - Python - 2013-07-04 22:15:08 阅读(1195) 回复(1)

相关讨论

最近想用scrapy抓取一些网页,有没人在学习使用这个软件呢?一起交流下~~~~~~~~~~~~

by ddmkchan - Python - 2012-03-05 22:29:38 阅读(1901) 回复(3)

[code] from taobao.proxy_list import PROXY_LIST class ProxyMiddleware(object): def process_request(self, request, spider): try: proxy = random.choice(PROXY_LIST) if proxy: request.meta['proxy'] = 'http://%s' % (proxy) except Exception,e: print 'proxy', e log.msg(e,level=log.ERROR) [/code]PROXY_LIST是个列表,包含了...

by Zhc1993 - Python - 2013-08-30 16:53:59 阅读(6065) 回复(2)

我在 middlewares.py中添加[code] class WebkitDownloader( object ): 52 def process_request( self, request, spider ): 53 if spider.name in settings.WEBKIT_DOWNLOADER: 54 if(type(request) is not FormRequest ): 55 webview = webkit.WebView() 56 webview.connect( 'load-finished', lambda v,f: gtk.main_quit() ) 57 webview.load_uri...

by a10086b - Python - 2013-08-10 18:49:46 阅读(6082) 回复(2)

如果抓同一结构化的数据,比如租房信息,但是从不同的站抓取,比如58,ganji 这样是写多个project吗? 有没有办法在一直project里面同时抓多个站点?

by yakczh_cu - Python - 2013-04-15 10:36:48 阅读(1575) 回复(2)

比如要抓某个新浪博客,里面有分页,怎么样只处理分页的链接,忽略其他链接?

by yakczh_cu - Python - 2013-04-10 07:35:53 阅读(3314) 回复(1)

scrapy crawl xx 这样每次都是从头开始抓

by yakczh_cu - Python - 2014-03-02 16:45:51 阅读(3391) 回复(2)

比如一个种子站点,有列表页和详情页 ,列表页有 A , B 两个区块, 详情页有 B,C,D 三个区块,每个区块分别是某一类信息 那item是设置成一个ABCD的并集, 还是每个区块设置成一个item, 还有parser里面的代码是分开写还是全部写成一个方法?

by yakczh_cu - Python - 2014-02-26 12:19:11 阅读(859) 回复(0)

比如某个商品 "大家印象"标签下有 :“衣服不错”, “态度不错”等印象 我现在想要 点击 "衣服不错" 然后抓取该印象属性下的 评论 但是我发现点击 这个按钮后, url是不会发上变化的,不知道怎么办了,谁有好的解决方案, 帮帮忙, 感激不尽!!!

by a10086b - Python - 2013-08-07 14:52:15 阅读(957) 回复(0)

------使用scrapy,redis, mongodb,graphite实现的一个分布式网络爬虫,底层存储mongodb集群,分布式使用redis实现, 爬虫状态显示使用graphite实现。 这是项目的地址:https://github.com/gnemoug/distribute_crawler.git ------这个工程是我对垂直搜索引擎中分布式网络爬虫的探索实现,它包含一个针对http://www.woaidu.org/ 网站的spider, 将其网站的书名,作者,书籍封面图片,书籍概要,原始网址链接,书籍下载信息和书籍爬取...

by gnemoug - Python - 2013-04-21 11:17:21 阅读(10535) 回复(1)

本帖最后由 yakczh_cu 于 2013-04-06 19:34 编辑 按这个例子来的 http://blog.csdn.net/jiguanghoverli/article/details/8146973 ImportError: Error loading object 'scrapy.core.downloader.webclient.scrapyHTTPClientFactory': No module named win32api

by yakczh_cu - Python - 2013-05-21 14:35:24 阅读(6727) 回复(1)