免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1842 | 回复: 4
打印 上一主题 下一主题

LWP和wget [复制链接]

论坛徽章:
1
丑牛
日期:2014-02-14 17:07:04
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-02-24 11:06 |只看该作者 |倒序浏览
本帖最后由 ace_fei 于 2012-02-24 14:01 编辑

    大家有没有遇到过用LWP获取网页的时候,返回的内容中间会出现回车 ^M, 2a3b之类的字符啊?我用wget同样的网页就没问题。

    另外,我把脚本拷贝到自己的机器上运行也是没问题的。我在想是不是跟perl的版本,或者其中某个模块版本不一致导致的。

论坛徽章:
0
2 [报告]
发表于 2012-02-24 11:11 |只看该作者
我没有遇到过,可能是编码不正确的问题,比如中文的编码转换。

论坛徽章:
1
丑牛
日期:2014-02-14 17:07:04
3 [报告]
发表于 2012-02-24 11:26 |只看该作者
本帖最后由 ace_fei 于 2012-02-24 11:28 编辑

回复 2# iamlimeng


获取的网页内容是个XML文件,里面没有中文字符。脚本之前运行都是没问题的,乱码就最近出现的。
我试过在default_header设置过'Accept-Charset'和'Accept-Language',不行
Encode("utf-8", $res->content),也不行
dos2unix response.xml也只去掉了^M

倒是改成用wget,返回的xml格式正确了。

就是因为中间那些乱码导致我XMLparser也失败,纠结了。

论坛徽章:
13
双鱼座
日期:2013-10-23 09:30:05数据库技术版块每日发帖之星
日期:2016-04-20 06:20:00程序设计版块每日发帖之星
日期:2016-03-09 06:20:002015亚冠之塔什干火车头
日期:2015-11-02 10:07:452015亚冠之德黑兰石油
日期:2015-08-30 10:07:07数据库技术版块每日发帖之星
日期:2015-08-28 06:20:00数据库技术版块每日发帖之星
日期:2015-08-05 06:20:002015年迎新春徽章
日期:2015-03-04 09:57:09辰龙
日期:2014-12-03 14:45:52酉鸡
日期:2014-07-23 09:46:23亥猪
日期:2014-03-13 08:46:22金牛座
日期:2014-02-11 09:36:21
4 [报告]
发表于 2012-02-24 18:28 |只看该作者
应该是编码问题吧

论坛徽章:
0
5 [报告]
发表于 2012-02-26 14:50 |只看该作者
^M是因為Win和Linux的格式分別?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP