免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1464 | 回复: 8

[文本处理] 如何快速定位到一个文件中哪行有乱码字符 [复制链接]

论坛徽章:
71
15-16赛季CBA联赛之同曦
日期:2018-08-23 15:41:42辰龙
日期:2014-08-15 09:07:43狮子座
日期:2014-06-03 13:55:33亥猪
日期:2014-06-02 11:17:08巨蟹座
日期:2014-05-06 10:02:03午马
日期:2014-05-04 08:18:27亥猪
日期:2014-04-29 11:11:32技术图书徽章
日期:2014-04-24 15:51:26技术图书徽章
日期:2014-04-17 11:01:53辰龙
日期:2014-04-15 12:45:46亥猪
日期:2014-04-11 09:06:23射手座
日期:2014-04-01 15:28:10
发表于 2019-07-17 11:04 |显示全部楼层
如何快速定位到一个文件中哪行有乱码字符
谢谢

论坛徽章:
1
IT运维版块每日发帖之星
日期:2016-03-04 06:20:00
发表于 2019-07-22 09:53 |显示全部楼层
朋友, 你所谓的“乱码”指什么?  半个汉字?  不可打印字符?  目标不清楚。无法处理。

论坛徽章:
71
15-16赛季CBA联赛之同曦
日期:2018-08-23 15:41:42辰龙
日期:2014-08-15 09:07:43狮子座
日期:2014-06-03 13:55:33亥猪
日期:2014-06-02 11:17:08巨蟹座
日期:2014-05-06 10:02:03午马
日期:2014-05-04 08:18:27亥猪
日期:2014-04-29 11:11:32技术图书徽章
日期:2014-04-24 15:51:26技术图书徽章
日期:2014-04-17 11:01:53辰龙
日期:2014-04-15 12:45:46亥猪
日期:2014-04-11 09:06:23射手座
日期:2014-04-01 15:28:10
发表于 2019-07-29 16:49 |显示全部楼层
回复 3# spender

不是键盘上的字符

论坛徽章:
5
2016科比退役纪念章
日期:2018-10-24 08:24:0115-16赛季CBA联赛之北控
日期:2019-03-12 14:34:562016科比退役纪念章
日期:2019-04-01 10:33:0915-16赛季CBA联赛之山东
日期:2019-04-17 12:46:3215-16赛季CBA联赛之广夏
日期:2019-05-09 16:40:40
发表于 2019-07-30 08:22 |显示全部楼层
计算机自己没有乱码的概念啊,出现乱码字符,一般就是字符编码导致的。
“不是键盘上的字符 ”   的说法  也是含糊的,汉字没有直接在键盘上,算不算乱码呢?阿位伯文呢?俄文呢?
还是说 除了 ascii的90多个可见字符之外 都算乱码了?
楼主还是放一个例子上来看看先吧。

论坛徽章:
2
15-16赛季CBA联赛之八一
日期:2017-12-29 13:06:2315-16赛季CBA联赛之天津
日期:2018-08-08 17:39:46
发表于 2019-07-31 14:37 |显示全部楼层
grep -n '乱码' file

论坛徽章:
6
程序设计版块每日发帖之星
日期:2016-05-11 06:20:00操作系统版块每日发帖之星
日期:2016-05-12 06:20:00每日论坛发贴之星
日期:2016-05-12 06:20:00操作系统版块每日发帖之星
日期:2016-05-14 06:20:00程序设计版块每日发帖之星
日期:2016-05-31 06:20:00每日论坛发贴之星
日期:2016-05-31 06:20:00
发表于 2019-08-09 05:28 |显示全部楼层
本帖最后由 1cpuer 于 2019-08-10 18:50 编辑

grep -rl 'x' file

! " # $ % & ' ( ) * + , - . / 0 1 2 3 4 5 6 7 8 9 : ; < = > ? @ A B C D E F G H I J K L M N O P Q R S T U V W X Y Z [ \ ] ^ _ ` a b c d e f g h i j k l m n o p q r s t u v w x y z { | } ~
上面是键盘上的字符
引用:不是键盘上的字符
grep -P '[^\x20-\x7e]' #:--这样的话会找出有中文的字符,上面的复制到 test.file ,下面一行加 [文件] 中文字符,测试便知。
设置一下 LANG=C
locale
LANG=C

LANG=UTF-8 #:把这个记住,等会而改回来。
echo -e '1d 文件 1c \n1e' |grep -P '[^\x20-\x7f]'
echo -e '1d 文件 1c \n1e' |grep -P '[\x20-\x7f]'

echo -e '1d 文件 1c \n1e' |grep -P '[^\x20-\x7e][^\x20-\x7e]*'

那还有china 字符

论坛徽章:
6
程序设计版块每日发帖之星
日期:2016-05-11 06:20:00操作系统版块每日发帖之星
日期:2016-05-12 06:20:00每日论坛发贴之星
日期:2016-05-12 06:20:00操作系统版块每日发帖之星
日期:2016-05-14 06:20:00程序设计版块每日发帖之星
日期:2016-05-31 06:20:00每日论坛发贴之星
日期:2016-05-31 06:20:00
发表于 2019-08-09 05:32 |显示全部楼层
回复 1# zhaopingzi
grep -rl 'error' file  
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

SACC2019中国系统架构师大会

【数字转型 架构演进】SACC2019中国系统架构师大会,7折限时优惠重磅来袭!
2019年10月31日~11月2日第11届中国系统架构师大会(SACC2019)将在北京隆重召开。四大主线并行的演讲模式,1个主会场、20个技术专场、超千人参与的会议规模,100+来自互联网、金融、制造业、电商等领域的嘉宾阵容,将为广大参会者提供一场最具价值的技术交流盛会。

限时七折期:2019年8月31日前


----------------------------------------

大会官网>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP