免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2944 | 回复: 6
打印 上一主题 下一主题

python写了个抓网页的程序 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-07-17 06:00 |只看该作者 |倒序浏览
这个是前段时间写的,现在想修改下,先把老的发上来
还有想请教下高手SGMLParser怎么才能处理中文呢?

[ 本帖最后由 wudagang0123 于 2009-7-22 00:20 编辑 ]

py_spider.rar

1.57 KB, 下载次数: 138

论坛徽章:
0
2 [报告]
发表于 2009-07-17 09:02 |只看该作者
俺喜欢用正则去扒

程序编码都采用utf-8试试,还要看网页里的编码哦

论坛徽章:
0
3 [报告]
发表于 2009-07-17 11:28 |只看该作者
python对编码的支持还是不好,我前段时间写采集淘宝网站的数据才发现商家发布商品的名称里全是特殊编码,用python的开源类库解析全不行,还的自己分析开源库。累啊!

论坛徽章:
0
4 [报告]
发表于 2009-07-21 10:40 |只看该作者
忽悠呀,没有内容!

论坛徽章:
0
5 [报告]
发表于 2009-07-21 11:22 |只看该作者
包里是空的

论坛徽章:
0
6 [报告]
发表于 2009-07-21 15:06 |只看该作者
实在是不好意思,打包的时候少打了个文件
多谢提醒,回来重新上传源码,望楼上几位多多包涵啊

论坛徽章:
0
7 [报告]
发表于 2009-10-15 16:06 |只看该作者
学习一下
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP