免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3366 | 回复: 19
打印 上一主题 下一主题

如何抓取这样的网页? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2007-04-11 11:25 |只看该作者 |倒序浏览
我访问的一个网页包含诸如 ú á 这样的字符,抓下来之后显示为 鷖 这样的汉字。请问如何正确获得?

论坛徽章:
0
2 [报告]
发表于 2007-04-11 11:36 |只看该作者
编码相同就应该行的啊

论坛徽章:
0
3 [报告]
发表于 2007-04-11 11:38 |只看该作者

回复 2楼 冬天来了 的帖子

我本地是GBK编码,网页是ISO8859-1的

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
4 [报告]
发表于 2007-04-11 11:48 |只看该作者
不知道你想要干什么。

论坛徽章:
0
5 [报告]
发表于 2007-04-11 14:46 |只看该作者

回复 4楼 flw 的帖子

我用lwp抓取网页,网页是ISO8859-1编码的,包含上述字符,
我本地是ubuntu,locale是GBK,发现打印下来是乱码

如 música -> m鷖ica

论坛徽章:
0
6 [报告]
发表于 2007-04-11 15:22 |只看该作者
转下码吧。虽然latin1和gbk都有ú, 但位置不一样的, 既然要打印的话还是改成和本地locale一样的编码吧。

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
7 [报告]
发表于 2007-04-11 15:35 |只看该作者
原帖由 ustctapper 于 2007-4-11 14:46 发表
我用lwp抓取网页,网页是ISO8859-1编码的,包含上述字符,
我本地是ubuntu,locale是GBK,发现打印下来是乱码

如 música -> m鷖ica

那就是打印的问题了,关抓网页什么事?

论坛徽章:
0
8 [报告]
发表于 2007-04-11 15:38 |只看该作者

回复 7楼 flw 的帖子

我从网页中提取的字符串print出来,和我直接赋值print出来不一样啊。

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
9 [报告]
发表于 2007-04-11 15:39 |只看该作者
原帖由 ustctapper 于 2007-4-11 15:38 发表
我从网页中提取的字符串print出来,和我直接赋值print出来不一样啊

很明显是你赋值时给的字符串和网页上不一样嘛。

论坛徽章:
0
10 [报告]
发表于 2007-04-11 15:47 |只看该作者

回复 9楼 flw 的帖子

就是 música 啊,网页就是这么显示的。我直接赋值打印就可以。但用UA获取网页时,打印就成 m鷖ica 了
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP