Chinaunix

标题: 请问Perl能按字节和位处理文本吗?有关半个汉字处理，请大家帮忙看看程序问题在哪呢？ [打印本页]

作者: zhouhaiming 时间: 2008-05-06 14:07
标题: 请问Perl能按字节和位处理文本吗?有关半个汉字处理，请大家帮忙看看程序问题在哪呢？
由于系统的问题，导出的文件中有许多汉字变成了半个字节，想去掉

文件有规律的，每个字段用Tab符做为分割符，行结束符为换行符，字段中有半个字节的编码。

请教大家了

[ 本帖最后由 zhouhaiming 于 2008-5-7 08:54 编辑 ]

作者: apile 时间: 2008-05-06 17:44
perl也有index, seek, sysopen喔...
可以用C的作法去解决..

[ 本帖最后由 apile 于 2008-5-6 17:55 编辑 ]

作者: zhouhaiming 时间: 2008-05-07 08:47

open(FH1, "<C:\\dw_ar_cust_info_351001.out") or die("Cann't open this file");
open(FH2, ">C:\\dw_ar_cust_info_351001.out.zhm") or die("cann't open this file");

print "operation running\n";

while (<FH1>)
{
  @data = ();
  @data = unpack("c*", $_); # 以有符号的方式解包到@array中

  $length = $#data + 1;

  @tmpdata = ();
  
  
  $loop = 0;
  for ( ; $loop<$length ; )
  {
    if (($data[$loop]>-128 && $data[$loop]<0)) # 第一个字节大于128，表明此为汉字的开始

    {
      if ($data[$loop + 1] == 9) # 汉字开始的头一个字节后面跟的是Tab符

      {
        push(@tmpdata, $data[$loop + 1]); # 把Tab符压入栈中

        $loop = $loop + 2;
        next;
      }
      if ($data[$loop + 1] == 10) # 汉字开始后的字节马上是换行符

      {
        push(@tmpdata, $data[$loop + 1]); # 把换行符压入栈中

        last; # 跳出循环，开始读取下一行

      }
    }
    
    if ($data[$loop] > -128 && $data[$loop] < 0) # 如果该字节为中文的开始

    {
      if(($data[$loop + 1] > 64) || ($data[$loop + 1] > -128 && $data[$loop + 1] < 0)) # 与前一个字节构成一个完整的汉字

      {
        push(@tmpdata, $data[$loop]);
        push(@tmpdata, $data[$loop + 1]);
        $loop = $loop + 2;
      }
    }
    else # 合法的ASCII字符

    {
      push(@tmpdata, $data[$loop]);
      $loop=$loop+1;
    }
  }
  

  $output=pack("c*", @tmpdata);
  print FH2 $output;
}
print "operation success\n";
close(FH1);
close(FH2);

作者: zhouhaiming 时间: 2008-05-07 08:49
上面的程序能够处理一部分原来的文件,处理结果也是正确的,处理完20000多行后就不行了,进入了死循环,哪位朋友知道是怎么回事吗?检查了一晚上也没查出来

作者: apile 时间: 2008-05-07 09:35
试着打印出..是从哪一行开始出问题....
检查看看那一行是不是有什麽奇怪的char..造成无法判断...

另外请多用my去宣告变量...

或加上

use strict;

与 #!/usr/bin/perl -w

欢迎光临 Chinaunix (http://bbs.chinaunix.net/)