12 3 / 3 页下一页

论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2009-08-05 19:06 |只看该作者 |倒序浏览

#!/usr/bin/env python
#-*-coding:gbk
import urllib,time,os
#import codecs
for i in range(1,10):
data = urllib.urlopen('http://djangobook.py3k.cn/chapter0%d/'%i).read()
f=open('0%d.html'%i,'w')
f.writelines(data)
f.close()

复制代码

结果生成的html文件是乱码,
怎么才生成的HTML文件正常呀,

文库|博客

openspace

小富即安

论坛徽章:: 1

2楼 [报告]

发表于 2009-08-05 21:34 |只看该作者

回复 #1 caesarok 的帖子

这个应该先解析一下吧
先看看网页用的什么编码，然后根据此编码进行存储

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

openspace

小富即安

论坛徽章:: 1

3楼 [报告]

发表于 2009-08-05 22:19 |只看该作者

#!/usr/bin/env python
import urllib, time, os
import re
URL = 'http://djangobook.py3k.cn/chapter0%d'
FILE = r'0%d.html'
PATTERN = r'charset=\w+-?\d*'
def grabpage():
for i in range(1, 10):
data = urllib.urlopen(URL % i).read()
coding = charset(data)
if coding is None: continue
data = unicode(data, coding)
f = open(FILE % i, 'w')
f.write(data.encode(coding))
f.close()
def charset(text):
target = re.compile(PATTERN)
m = re.search(target, text)
if m is not None:
return m.group()[8:]
return None
if __name__ == '__main__':
grabpage()

复制代码

处理中文的时候先转换成Unicode，最后再encode写入文件

[ 本帖最后由 openspace 于 2009-8-6 10:29 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

caesarok

家境小康

论坛徽章:: 0

4楼 [报告]

发表于 2009-08-06 09:13 |只看该作者

回复 #3 openspace 的帖子

从你这我找到些方法.

http://djangobook.py3k.cn/ 这里有好书,我想用python写个东东全下下来,呵呵.

PATTERN = r'charset=\w+-?\w*'

但是
data = urllib.urlopen('http://djangobook.py3k.cn/chapter0%d/'%i).read()
才能获取到chapter01~chapter10的文章,
需要下 http://djangobook.py3k.cn/chapter02/ 这些文章,
但是我换成这个data 却显示

> "C:\Python25\python.exe" -u "D:\python\python\network\test\get.py"
Traceback (most recent call last):
File "D:\python\python\network\test\get.py", line 45, in <module>
grabpage()
File "D:\python\python\network\test\get.py", line 23, in grabpage
data = unicode(data, coding)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe7 in position 248: ordinal not in range(128)

复制代码

跟我之前想的别的方法一样, 还是不行!

[ 本帖最后由 caesarok 于 2009-8-6 10:06 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

openspace

小富即安

论坛徽章:: 1

5楼 [报告]

发表于 2009-08-06 10:04 |只看该作者

回复 #4 caesarok 的帖子

没看明白你的问题

我试了一下，运行时没有问题，下载的文件显示没有乱码
你是针对这些网页操作的吗

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

caesarok

家境小康

论坛徽章:: 0

6楼 [报告]

发表于 2009-08-06 10:07 |只看该作者

回复 #5 openspace 的帖子

你好! 我是针对这些网页操作

URL = r'http://djangobook.py3k.cn/chapter0%d'
用了r 字符串转换,其实 URL= r'http://djangobook.py3k.cn/chapter0%d' 不管怎么变, 都是 http://djangobook.py3k.cn 首页的内容,

下 http://djangobook.py3k.cn/chapter01 ~http://djangobook.py3k.cn/chapter09 这些文章,
却不行,

去掉 r 字符串转换,
结果是

> "C:\Python25\python.exe" -u "D:\python\python\network\test\get.py"
Traceback (most recent call last):
File "D:\python\python\network\test\get.py", line 45, in <module>
grabpage()
File "D:\python\python\network\test\get.py", line 23, in grabpage
data = unicode(data, coding)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe7 in position 248: ordinal not in range(128)

复制代码

跟我之前一样,

[ 本帖最后由 caesarok 于 2009-8-6 10:14 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

caesarok

家境小康

论坛徽章:: 0

7楼 [报告]

发表于 2009-08-06 10:11 |只看该作者

#!/usr/bin/env python
#-*-coding:us-ascii
import urllib,time,os
import codecs
for i in range(1,10):
data = urllib.urlopen('http://djangobook.py3k.cn/chapter0%d/'%i').read()
#f=codecs.open('0%d.html'%i,'w','utf-8')
f=open('0%d.html'%i,'w')
f.writelines(data)
f.close()
time.sleep(1)
for j in range(10,21):
data1 = urllib.urlopen('http://djangobook.py3k.cn/chapter%d/'%j).read()
#g=codecs.open('0%d.html'%j,'w','utf-8')
g=open('%d.html'%j,'w')
f.writelines(data1)
g.close()
time.sleep(1)

复制代码

我下来的都是乱码,用us-ascii 没用

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

openspace

小富即安

论坛徽章:: 1

8楼 [报告]

发表于 2009-08-06 10:29 |只看该作者

回复 #6 caesarok 的帖子

谢谢LZ提醒，忘了'r'了

是这样的，你用浏览器打开这些网页，看它们的源码
里面会指定字符编码charset
但是有的网页会进一步指定其他的charset

对于页面中这些charset的关系我不是太清楚
前面的例子默认使用了查找到的第一个charset设置，忽略了后面的charset设置，所以会导致解码错误

实际上这个功能类似于小型的爬虫
本人只是了解一下，但是涉及到HTML页面的，就不太理解了

LZ可以查看一下这方面的信息，再通过修改正则表达式进行匹配提取就可以了

PS: 弄清楚后顺便给讲讲:wink:

[ 本帖最后由 openspace 于 2009-8-6 10:30 编辑 ]