免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4028 | 回复: 4
打印 上一主题 下一主题

split 汉字截断的问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2006-05-18 18:10 |只看该作者 |倒序浏览
一个gb18030编码文本文件,内含多行汉字,形式如下:
辯訴狀
寬闊無邊
技術文本
最狀的
煥章
英勇連
家政科
能看見
中國日
乘車難
雙分子還原
孤貧苦節
包錫的
利用型
圓樓梯
安家費
張家長李家短


现在希望每读入一行,就将该行分解成单个汉字,放入数组中,所以如下处理:
$file1 = "詞.txt";
$file2 = "單個字.txt";
binmode FILE1;
binmode FILE2;

open (FILE1, "$file1" ) || die "打不開 $file1。";
open (FILE2, ">$file2" ) || die "無法創建 $file2。";
select FILE2;
while ($word=<FILE> ) {
        $word =~ s/[\s]+//sg;
        @wordchar = split (//, $word);       
        foreach $abc (@wordchar) {
                print "$abc\n";
        }
}
close FILE1;
close FILE2;


但是一个gb18030编码的汉字占好几个字节,split 却按单字节拆分,将汉字截断了,怎么解决呢?

[ 本帖最后由 Calvin00 于 2006-5-18 18:13 编辑 ]

论坛徽章:
0
2 [报告]
发表于 2006-05-18 18:27 |只看该作者
呵呵,教你一招:
  1. D:\MoChou>cat lazy.pl
  2. use Encode qw(encode decode);

  3. while(<>){
  4.     chomp;
  5.     @wordchar = map { $_ = encode( 'gb18030', $_ ) } split //, decode( 'gb18030', $_ );
  6.     # 这就已经弄好了,下面测试一下:
  7.     print "result: ", join ' ', @wordchar, "\n";
  8. }
复制代码
  1. D:\MoChou>cat abc.txt
  2. 辯訴狀
  3. 寬闊無邊
  4. 技術文本
  5. 最狀的
  6. 煥章
  7. 英勇連
  8. 家政科
  9. 能看見
  10. 中國日
  11. 乘車難
  12. 雙分子還原
  13. 孤貧苦節
  14. 包錫的
  15. 利用型
  16. 圓樓梯
  17. 安家費
  18. 張家長李家短
复制代码
  1. D:\MoChou>lazy abc.txt
  2. result: 辯 訴 狀
  3. result: 寬 闊 無 邊
  4. result: 技 術 文 本
  5. result: 最 狀 的
  6. result: 煥 章
  7. result: 英 勇 連
  8. result: 家 政 科
  9. result: 能 看 見
  10. result: 中 國 日
  11. result: 乘 車 難
  12. result: 雙 分 子 還 原
  13. result: 孤 貧 苦 節
  14. result: 包 錫 的
  15. result: 利 用 型
  16. result: 圓 樓 梯
  17. result: 安 家 費
  18. result: 張 家 長 李 家 短

  19. D:\MoChou>
复制代码

[ 本帖最后由 莫愁 于 2006-5-18 18:39 编辑 ]

论坛徽章:
0
3 [报告]
发表于 2006-05-18 18:59 |只看该作者
需要安装下面这个模块?
ppm install Encode-HanExtra


  1. use Encode qw(encode decode);
  2. use Encode::HanExtra;
复制代码

论坛徽章:
0
4 [报告]
发表于 2006-05-19 15:28 |只看该作者
原帖由 莫愁 于 2006-5-18 18:27 发表
呵呵,教你一招:
[code]D:\MoChou>cat lazy.pl
use Encode qw(encode decode);

while(<>){
    chomp;
    @wordchar = map { $_ = encode( 'gb18030', $_ ) } split //, decode( 'gb18030', $_ ...



好方法 俺稀罕你

论坛徽章:
0
5 [报告]
发表于 2006-05-19 22:16 |只看该作者
use Encode;
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP