免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: chenxiam
打印 上一主题 下一主题

读取文件后,怎么判断该文件里是否有乱码? [复制链接]

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
11 [报告]
发表于 2008-11-06 14:47 |只看该作者
原帖由 chenxiam 于 2008-11-6 13:28 发表
用perl读取一个文件后,要怎么判断所读的文件中是否有乱码? 正则该怎么写?

先回答什么是乱码?然后根据你自己的回答写规则就完了。

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
12 [报告]
发表于 2008-11-06 14:49 |只看该作者
原帖由 chenxiam 于 2008-11-6 14:47 发表

大家来这里是想解决问题的,

关键是,你既不理解你问的问题,也不理解别人的解答。这才是问题的关键。

论坛徽章:
0
13 [报告]
发表于 2008-11-06 14:51 |只看该作者
原帖由 MMMIX 于 2008-11-6 14:47 发表

先回答什么是乱码?然后根据你自己的回答写规则就完了。

ÐÏࡱá
0
Z¥
00000ÿÿÿ        ÿ ÿÿÿÿÿ=ÿ@ÿ\ÿ]ÿ^ÿàÿ
0 00000ÿÿ;ÿ[ÿáÿåÿ 就是文件中可能有这些字符

论坛徽章:
0
14 [报告]
发表于 2008-11-06 14:52 |只看该作者
参看
use utf8;
use Encode;

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
15 [报告]
发表于 2008-11-06 14:54 |只看该作者
原帖由 chenxiam 于 2008-11-6 14:51 发表

就是文件中可能有这些字符

那一旦出现这些字符就认为是有乱码。当然,直接判断哪些是合法字符可能更简单些。

论坛徽章:
0
16 [报告]
发表于 2008-11-06 14:54 |只看该作者
我想判断是否文件里存在除了[^A-Z,a-z,0-9],\t,\n,\r,\s等等以外的其它字符

[ 本帖最后由 chenxiam 于 2008-11-6 14:55 编辑 ]

论坛徽章:
0
17 [报告]
发表于 2008-11-06 14:57 |只看该作者
原帖由 hitsubunnu 于 2008-11-6 14:52 发表
参看
use utf8;
use Encode;

我还有个问题是,Encode是否包括word,excel,还有pdf等等的解码吗

论坛徽章:
0
18 [报告]
发表于 2008-11-06 14:58 |只看该作者
原帖由 chenxiam 于 2008-11-6 14:54 发表
我想判断是否文件里存在除了[^A-Z,a-z,0-9],\t,\n,\r,\s等等以外的其它字符


用 \w 和 \s

论坛徽章:
0
19 [报告]
发表于 2008-11-06 14:59 |只看该作者
原帖由 MMMIX 于 2008-11-6 14:54 发表

那一旦出现这些字符就认为是有乱码。当然,直接判断哪些是合法字符可能更简单些。

匹配乱码是个问题吧,合法字符有很多啊,能列举全吗

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
20 [报告]
发表于 2008-11-06 15:02 |只看该作者
原帖由 chenxiam 于 2008-11-6 14:59 发表

匹配乱码是个问题吧,合法字符有很多啊,能列举全吗

其实乱码用在这里是不合适的。只有合法字符和非法字符之分。至于说用哪个作为判断标准更方便,要看情况而定。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP