忘记密码   免费注册 查看新帖 | 论坛精华区

ChinaUnix.net

  平台 论坛 博客 认证专区 大话IT 视频 徽章 文库 沙龙 自测 下载 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
最近访问板块 发新帖
查看: 325 | 回复: 2

perl中对于宽字符的处理 [复制链接]

论坛徽章:
0
发表于 2017-06-23 16:02 |显示全部楼层
需要写程序抓取一个网页,网页是utf8,抓取下来需要用gbk打印。但是遇到特殊字符(宽字符)总是退出,其他正常。
from_to($title, 'utf8', 'gbk');

报错:
Cannot decode string with wide characters at d:/test/Perl/lib/Encode.pm line 196.

比如遇到类似于内容时候:“**”


from_to函数的第三个参与可以带上CHECK,但是好像无效,比如用FB_DEFAULT(“默认值,不能转换的字符使用其他符号(?)替换”),当程序执行到这里的时候依然退出。


可以的解决方案:从编码上进行处理,或者如何用正则把宽字符一类的替换掉也可以?这个正则如何写呢?


请大家帮忙看下,谢谢。


论坛徽章:
5
子鼠
日期:2014-10-11 16:46:482015亚冠之萨济拖拉机
日期:2015-05-22 11:38:53黑曼巴
日期:2016-07-19 15:03:1115-16赛季CBA联赛之四川
日期:2017-05-16 16:38:5515-16赛季CBA联赛之天津
日期:2017-06-29 10:34:43
发表于 2017-06-23 18:36 |显示全部楼层
我这里测试 encode 没提示出错啊,只是把 wide character 变成了问号

  1. use utf8;
  2. use Encode;
  3. my $a = "**";
  4. print encode('gbk', $a);
复制代码

输出:
**?

论坛徽章:
0
发表于 2017-06-23 22:41 |显示全部楼层
贴整个代码出来看看。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

  

北京皓辰网域网络信息技术有限公司. 版权所有 京ICP证:060528号 北京市公安局海淀分局网监中心备案编号:1101082001
广播电视节目制作经营许可证(京) 字第1234号 中国互联网协会会员  联系我们:
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP