免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3095 | 回复: 2
打印 上一主题 下一主题

Perl 5.1 怎么处理 UTF-16LE的encoding 问题? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-05-10 17:12 |只看该作者 |倒序浏览
本帖最后由 百分百好牛 于 2011-05-10 17:14 编辑

我有个很古老的程序(没有source code了),会生成一个log文件,设这个文件名叫log.txt,这个文件encoding很奇怪,用ultraedit32 打开 如下:
  1. 0000000: 5400 4400 4400 3e00 2000 4c00 6f00 6100  T.D.D.>. .L.o.a.
复制代码
如果我用notepad打开,再save as呢,就成了下面这个,其实是 utf-16的
  1. 0000000: fffe 5400 4400 4400 3e00 2000 4c00 6f00  ..T.D.D.>. .L.o.
复制代码
但是,这个log.txt不能直接处理,比如说按我下面的这个方法去查找,会失败,因为实际上,每次读出来的行是 T.D.D.不是我想要的 TDD。

  1. open STDIN, "< log.txt";
  2. while(<>)
  3. {
  4.   if (/TDD/)
  5.   {
  6.     # Add my logic.
  7.   }
  8. }

复制代码
现在我想把他转化成一个标准的utf16或者utf8,却总是提示失败,如下:

perl.exe open.pl utf-16le utf8 log.txt

  1. use strict;
  2. use warnings;
  3. use Encode;

  4. # read arguments
  5. my $enc_in  = shift || die 'pass file encoding as first parameter';
  6. my $enc_out = shift || die 'pass STDOUT encoding as second parameter';
  7. print STDERR "going to read files as encoded in: $enc_in\n";
  8. print STDERR "going to write to standard output in: $enc_out\n";
  9. die "no files :-(\n" unless @ARGV;

  10. binmode STDOUT, ":encoding($enc_out)"; # latin1, cp1252, utf8, UTF-8

  11. print STDERR map "* $_\n", Encode->encodings; # list loaded encodings

  12. for ( @ARGV ) { # process files
  13.     open my $fh, "<:encoding($enc_in)", $_ or die "open $_: $!";
  14.     print while <$fh>;
  15.     close $fh;
  16. }

  17. print STDERR map "* $_\n", Encode->encodings; # more encodings now
复制代码
错误的提示总类似于
UTF-16LE : Partial character at open.pl line 18, <$fh> line 2011.

希望有经验的兄弟过来帮忙看看。

perl 5.1
windows 2008

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
2 [报告]
发表于 2011-05-10 19:49 |只看该作者
我有个很古老的程序(没有source code了),会生成一个log文件,设这个文件名叫log.txt,这个文件encoding很 ...
百分百好牛 发表于 2011-05-10 17:12


Perl 5.1 !!??
要不....
升级先...
好像Perl 5.8才支持unicode

C:\Users\Jason>perl -v

This is perl, v5.10.1 built for MSWin32-x86-multi-thread
(with 2 registered patches, see perl -V for more detail)

Copyright 1987-2009, Larry Wall

论坛徽章:
0
3 [报告]
发表于 2011-05-10 20:57 |只看该作者
你把Perl 5.1,变成>=Perl 5.10
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP