免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2333 | 回复: 2
打印 上一主题 下一主题

perl中对于宽字符的处理 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2017-06-23 16:02 |只看该作者 |倒序浏览
需要写程序抓取一个网页,网页是utf8,抓取下来需要用gbk打印。但是遇到特殊字符(宽字符)总是退出,其他正常。
from_to($title, 'utf8', 'gbk');

报错:
Cannot decode string with wide characters at d:/test/Perl/lib/Encode.pm line 196.

比如遇到类似于内容时候:“**”


from_to函数的第三个参与可以带上CHECK,但是好像无效,比如用FB_DEFAULT(“默认值,不能转换的字符使用其他符号(?)替换”),当程序执行到这里的时候依然退出。


可以的解决方案:从编码上进行处理,或者如何用正则把宽字符一类的替换掉也可以?这个正则如何写呢?


请大家帮忙看下,谢谢。


论坛徽章:
12
子鼠
日期:2014-10-11 16:46:482016科比退役纪念章
日期:2018-03-16 10:24:0515-16赛季CBA联赛之山东
日期:2017-11-10 14:32:142016科比退役纪念章
日期:2017-09-02 15:42:4715-16赛季CBA联赛之佛山
日期:2017-08-28 17:11:5515-16赛季CBA联赛之浙江
日期:2017-08-24 16:55:1715-16赛季CBA联赛之青岛
日期:2017-08-17 19:55:2415-16赛季CBA联赛之天津
日期:2017-06-29 10:34:4315-16赛季CBA联赛之四川
日期:2017-05-16 16:38:55黑曼巴
日期:2016-07-19 15:03:112015亚冠之萨济拖拉机
日期:2015-05-22 11:38:5315-16赛季CBA联赛之北京
日期:2019-08-13 17:30:53
2 [报告]
发表于 2017-06-23 18:36 |只看该作者
我这里测试 encode 没提示出错啊,只是把 wide character 变成了问号

  1. use utf8;
  2. use Encode;
  3. my $a = "**";
  4. print encode('gbk', $a);
复制代码

输出:
**?

论坛徽章:
0
3 [报告]
发表于 2017-06-23 22:41 |只看该作者
贴整个代码出来看看。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP