忘记密码   免费注册 查看新帖 | 论坛精华区

ChinaUnix.net

  平台 论坛 博客 认证专区 大话IT HPC论坛 徽章 文库 沙龙 自测 下载 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
最近访问板块 发新帖
查看: 383 | 回复: 2

perl中对于宽字符的处理 [复制链接]

论坛徽章:
0
发表于 2017-06-23 16:02 |显示全部楼层
需要写程序抓取一个网页,网页是utf8,抓取下来需要用gbk打印。但是遇到特殊字符(宽字符)总是退出,其他正常。
from_to($title, 'utf8', 'gbk');

报错:
Cannot decode string with wide characters at d:/test/Perl/lib/Encode.pm line 196.

比如遇到类似于内容时候:“**”


from_to函数的第三个参与可以带上CHECK,但是好像无效,比如用FB_DEFAULT(“默认值,不能转换的字符使用其他符号(?)替换”),当程序执行到这里的时候依然退出。


可以的解决方案:从编码上进行处理,或者如何用正则把宽字符一类的替换掉也可以?这个正则如何写呢?


请大家帮忙看下,谢谢。


论坛徽章:
9
子鼠
日期:2014-10-11 16:46:482015亚冠之萨济拖拉机
日期:2015-05-22 11:38:53黑曼巴
日期:2016-07-19 15:03:1115-16赛季CBA联赛之四川
日期:2017-05-16 16:38:5515-16赛季CBA联赛之天津
日期:2017-06-29 10:34:4315-16赛季CBA联赛之青岛
日期:2017-08-17 19:55:2415-16赛季CBA联赛之浙江
日期:2017-08-24 16:55:1715-16赛季CBA联赛之佛山
日期:2017-08-28 17:11:552016科比退役纪念章
日期:2017-09-02 15:42:47
发表于 2017-06-23 18:36 |显示全部楼层
我这里测试 encode 没提示出错啊,只是把 wide character 变成了问号

  1. use utf8;
  2. use Encode;
  3. my $a = "**";
  4. print encode('gbk', $a);
复制代码

输出:
**?

论坛徽章:
0
发表于 2017-06-23 22:41 |显示全部楼层
贴整个代码出来看看。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

SACC2017购票8.8折优惠进行时

2017中国系统架构师大会(SACC2017)将于10月19-21日在北京新云南皇冠假日酒店震撼来袭。今年,大会以“云智未来”为主题,云集国内外顶级专家,围绕云计算、人工智能、大数据、移动互联网、产业应用等热点领域展开技术探讨与交流。本届大会共设置2大主会场,18个技术专场;邀请来自互联网、金融、制造业、电商等多个领域,100余位技术专家及行业领袖来分享他们的经验;并将吸引4000+人次的系统运维、架构师及IT决策人士参会,为他们提供最具价值的交流平台。
----------------------------------------
优惠时间:2017年8月2日前

活动链接>>
  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号 北京市公安局海淀分局网监中心备案编号:11010802020122
广播电视节目制作经营许可证(京) 字第1234号 中国互联网协会会员  联系我们:
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP