免费注册	查看新帖 \|


平台论坛博客文库

› 论坛 › 程序设计 › Perl › 中文匹配的问题

最近访问板块

发新帖

查看: 1480 | 回复: 2

上一主题

下一主题

中文匹配的问题 [复制链接]

论坛徽章:: 307

程序设计版块每周发帖之星
日期:2016-04-08 00:41:33

操作系统版块每日发帖之星
日期:2015-09-02 06:20:00

每日论坛发贴之星
日期:2015-09-02 06:20:00

程序设计版块每日发帖之星
日期:2015-09-04 06:20:00

每日论坛发贴之星
日期:2015-09-04 06:20:00

每周论坛发贴之星
日期:2015-09-06 22:22:00

程序设计版块每日发帖之星
日期:2015-09-09 06:20:00

程序设计版块每日发帖之星
日期:2015-09-19 06:20:00

程序设计版块每日发帖之星
日期:2015-09-20 06:20:00

每日论坛发贴之星
日期:2015-09-20 06:20:00

程序设计版块每日发帖之星
日期:2015-09-22 06:20:00

程序设计版块每日发帖之星
日期:2015-09-24 06:20:00

电梯直达

跳转到指定楼层

1楼 [收藏(0)] [报告]

发表于 2016-09-30 11:36 |只看该作者 |倒序浏览

测试环境:Windows
编辑器:gvim 7.4
我的代码如下:

#!/usr/bin/perl
use strict;
use warnings;
use Encode qw /encode decode/;
my $contact1 = '330000L1C39403陈喆';
my $contact2 = '330000L1C40201霍继艳';
$contact1 = decode ('gb2312', $contact1);
my @aData = $contact1 =~ m/[a-z0-9]+|[\x{4E00}-\x{9FA5}]+/gi;
print encode ('gb2312', $_), "\n" for @aData;

复制代码

输出结果:
330000L1C39403
陈

我期望的输出结果是输出完整的姓名陈喆
因为文档中涉及 1W+ 的记录, 文本格式为 gb2312. 请教下大家, 这种情况应该如何处理. 谢谢大家!

文库|博客

求职 : 软件工程师

论坛徽章:: 3

程序设计版块每日发帖之星
日期:2015-10-07 06:20:00

程序设计版块每日发帖之星
日期:2015-12-13 06:20:00

程序设计版块每日发帖之星
日期:2016-05-05 06:20:00

2楼 [报告]

发表于 2016-09-30 11:57 |只看该作者

本帖最后由 104359176 于 2016-09-30 12:11 编辑

如果你的编辑器是 vim, 那么在编辑器中输入的中文，大概就是 utf8 编码的，如果你处理的是外部文件，读入的时候，最好使用对应的文件句柄解码形式, 和输出的文件句柄解码模式匹配。

use strict;
use warnings;
use 5.014;
# ==============脚本功能介绍===================
# 将文件按照两种编码转换成UTF8格式，用眼睛看哪种是正确的编码
# =========================================
use Encode;
use utf8;
my $file = "test.txt";
open(my $fh, '<', $file) or die $!;
while (my $line = <$fh>) {
chomp $line;
say "not touch";
say {$fh} $line;
my $decode_line = decode('gbk', $line);
my $encode_line = encode('utf8', $decode_line);
say "decode->gbk encode->utf8";
say {$fh} $encode_line;
$decode_line = decode('utf8', $line);
$encode_line = encode('utf8', $decode_line);
say "decode->utf8 encode->utf8";
say {$fn} $encode_line;
}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 307

程序设计版块每周发帖之星
日期:2016-04-08 00:41:33

操作系统版块每日发帖之星
日期:2015-09-02 06:20:00

每日论坛发贴之星
日期:2015-09-02 06:20:00

程序设计版块每日发帖之星
日期:2015-09-04 06:20:00

每日论坛发贴之星
日期:2015-09-04 06:20:00

每周论坛发贴之星
日期:2015-09-06 22:22:00

程序设计版块每日发帖之星
日期:2015-09-09 06:20:00

程序设计版块每日发帖之星
日期:2015-09-19 06:20:00

程序设计版块每日发帖之星
日期:2015-09-20 06:20:00

每日论坛发贴之星
日期:2015-09-20 06:20:00

程序设计版块每日发帖之星
日期:2015-09-22 06:20:00

程序设计版块每日发帖之星
日期:2015-09-24 06:20:00

3楼 [报告]

发表于 2016-09-30 12:50 |只看该作者

回复 2# 104359176
可能我还是没有体会到大神的意思, 不过我的问题已经得到解决了. 代码如下:

#!/usr/bin/perl
use strict;
use warnings;
use Encode qw /encode decode/;
my $contact1 = '130203L1C39403陈喆';
my $contact2 = '130203L1C40201霍继艳';
$contact1 = decode ('cp936', $contact1);
my @aData = $contact1 =~ m/[a-z0-9]+|[\x{4E00}-\x{9FA5}]+/gi;
print encode ('cp936', $_), "\n" for @aData;

复制代码

我先把手头的工作弄下, 忙完后一定仔细的拜读大神提供的代码. 非常感谢大神指点!!!

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

发新帖

Chinaunix › 论坛 › 程序设计 › Perl › 中文匹配的问题

北京盛拓优讯信息技术有限公司. 版权所有京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号：11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员联系我们：huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP