门户 | 论坛 | 博客 | 文库

scrapy 内存泄露

scrapy 问题

我用scrapy抓取的内容怎么存不进mysql数据库

by neurasthenic - Python - 2013-07-04 22:15:08 阅读（1195）回复（1）

其他文章推荐

QQ空间新浪微博腾讯微博人人网开心网豆瓣网百度空间更多

一起学scrapy

最近想用scrapy抓取一些网页，有没人在学习使用这个软件呢？一起交流下～～～～～～～～～～～～

by ddmkchan - Python - 2012-03-05 22:29:38 阅读（1901）回复（3）

[code] from taobao.proxy_list import PROXY_LIST class ProxyMiddleware(object): def process_request(self, request, spider): try: proxy = random.choice(PROXY_LIST) if proxy: request.meta['proxy'] = 'http://%s' % (proxy) except Exception,e: print 'proxy', e log.msg(e,level=log.ERROR) [/code]PROXY_LIST是个列表，包含了...

by Zhc1993 - Python - 2013-08-30 16:53:59 阅读（6065）回复（2）

有没有人试过 scrapy + webkit

我在 middlewares.py中添加[code] class WebkitDownloader( object ): 52 def process_request( self, request, spider ): 53 if spider.name in settings.WEBKIT_DOWNLOADER: 54 if(type(request) is not FormRequest ): 55 webview = webkit.WebView() 56 webview.connect( 'load-finished', lambda v,f: gtk.main_quit() ) 57 webview.load_uri...

by a10086b - Python - 2013-08-10 18:49:46 阅读（6082）回复（2）

scrapy抓多个站点

如果抓同一结构化的数据,比如租房信息,但是从不同的站抓取,比如58,ganji 这样是写多个project吗? 有没有办法在一直project里面同时抓多个站点?

by yakczh_cu - Python - 2013-04-15 10:36:48 阅读（1575）回复（2）

scrapy抓取如何处理分页

比如要抓某个新浪博客,里面有分页,怎么样只处理分页的链接,忽略其他链接?

by yakczh_cu - Python - 2013-04-10 07:35:53 阅读（3314）回复（1）

scrapy如果要实现从上次中断的地方继续抓取怎么办

scrapy crawl xx 这样每次都是从头开始抓

by yakczh_cu - Python - 2014-03-02 16:45:51 阅读（3391）回复（2）

关于scrapy的parser处理多个内容区块的问题

比如一个种子站点,有列表页和详情页 ,列表页有 A , B 两个区块, 详情页有 B,C,D 三个区块,每个区块分别是某一类信息那item是设置成一个ABCD的并集, 还是每个区块设置成一个item, 还有parser里面的代码是分开写还是全部写成一个方法?

by yakczh_cu - Python - 2014-02-26 12:19:11 阅读（859）回复（0）

Python scrapy 如何抓取不同印象主题下的买家评论

比如某个商品 "大家印象"标签下有：“衣服不错”， “态度不错”等印象我现在想要点击 "衣服不错" 然后抓取该印象属性下的评论但是我发现点击这个按钮后, url是不会发上变化的，不知道怎么办了，谁有好的解决方案，帮帮忙，感激不尽！！！

by a10086b - Python - 2013-08-07 14:52:15 阅读（957）回复（0）

使用scrapy,redis, mongodb实现的一个分布式网络爬虫

------使用scrapy,redis, mongodb,graphite实现的一个分布式网络爬虫,底层存储mongodb集群,分布式使用redis实现, 爬虫状态显示使用graphite实现。这是项目的地址:https://github.com/gnemoug/distribute_crawler.git ------这个工程是我对垂直搜索引擎中分布式网络爬虫的探索实现，它包含一个针对http://www.woaidu.org/ 网站的spider，将其网站的书名，作者，书籍封面图片，书籍概要，原始网址链接，书籍下载信息和书籍爬取...

by gnemoug - Python - 2013-04-21 11:17:21 阅读（10535）回复（1）

scrapy 在win32下跑出错 No module named win32api

本帖最后由 yakczh_cu 于 2013-04-06 19:34 编辑按这个例子来的 http://blog.csdn.net/jiguanghoverli/article/details/8146973 ImportError: Error loading object 'scrapy.core.downloader.webclient.scrapyHTTPClientFactory': No module named win32api

by yakczh_cu - Python - 2013-05-21 14:35:24 阅读（6727）回复（1）

盛拓传媒：

IT168 | 泡泡网 | 汽车之家 | 二手车之家 | 渠道168 | ITPUB | IXPUB | ChinaUnix | 安卓之家 | 苹果园 | 家商城 | 苹果论坛

scrapy 内存泄露

scrapy 问题

请教高手,如何在GEEXBOX硬盘版里添加声卡驱动?

Web安全扫描工具WebCruiser - Web Vulnerability Scanner V1.2.1.0206

The little fox and her hat

警惕混合型新病毒超越机器狗的NS下载器

cygwin and MinGW

Grub配置请教~~

UltraISO PE 9.3.2.2656 绿色简体中文单文件版_非先前的破解版本、光盘的制作工具

使用strace attach到一个已经运行的pid后，这个进程就阻塞不执行了，什么原因呢？

OpenGL and Tk

忘记了mysql 登录密码怎么办？