免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2406 | 回复: 5
打印 上一主题 下一主题

perl编码转换问题请教,谢谢! [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-01-04 18:56 |只看该作者 |倒序浏览
<head><meta http-equiv="Content-Type" c /></head><body><h3>?粋</body></html>
#------------------------------------------------------------------------

由于在写一个web搜索的小工具,涉及到关键字的匹配问题,有部分繁体字转换简体好像有乱码。比如上面html文件显示的是  "純粋" 两个字。

use Encode;
open(FP,"test.html");

foreach(<FP>;){
     print encode('gbk',decode('big5',$_)),"\n";
     print encode('gb2312',decode('big5',$_)),"\n";
     print "而我想要输出 \"純粋\" 或者 纯粹 ,谢谢";
     }


晕了发表帖子的时候上面的html文件发生了改变。我将附件发上来,希望知道的兄弟指点下。

[ 本帖最后由 junchen2 于 2009-1-4 19:08 编辑 ]

test.rar

184 Bytes, 下载次数: 23

论坛徽章:
0
2 [报告]
发表于 2009-01-04 19:18 |只看该作者

  1. #!/usr/bin/perl
  2. use strict;
  3. use warnings;
  4. use Encode;
  5. open my $file,"<:encoding(BIG5)","test.html" or die "Fail to open test.html $!";
  6. binmode STDOUT,":encoding(GBK)";
  7. while(<$file>){
  8.         chomp;
  9.         print;
  10. }
复制代码

在我的机子上面,能够认出前一个
ps:用的是windows

论坛徽章:
0
3 [报告]
发表于 2009-01-04 19:27 |只看该作者
churchmice 兄,我上面的脚本也是只能认出第一个字 "純"。我就是想全部转换过来。

论坛徽章:
3
戌狗
日期:2014-09-10 17:07:162015年辞旧岁徽章
日期:2015-03-03 16:54:15wusuopu
日期:2016-06-17 17:43:45
4 [报告]
发表于 2009-01-05 11:47 |只看该作者
原帖由 junchen2 于 2009-1-4 19:27 发表
churchmice 兄,我上面的脚本也是只能认出第一个字 "純"。我就是想全部转换过来。

转换出来的ie设置编码能识别。

论坛徽章:
0
5 [报告]
发表于 2009-01-05 21:56 |只看该作者
兄弟们哪! 可不能见死不救啊

论坛徽章:
0
6 [报告]
发表于 2009-01-06 09:11 |只看该作者
Encode::HanConvert - Traditional and Simplified Chinese mappings

不知能帮你否?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP