免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4728 | 回复: 8
打印 上一主题 下一主题

[文本处理] 控制字符NUL怎么替换?? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-05-24 16:17 |只看该作者 |倒序浏览
一个大文件,里面都是记录,经常需要根据一串数字的ID去查找文件中对应的记录行,每行长700多个字符(由于是用程序从数据库中卸出来的文件,里面每一列的值得长度都是定长),里面好多NUL占位符,使用grep或awk查询的结果只显示每条记录的前几十个字符,根本无法继续处理(内容不全啊),使用sed匹配把倒是可以把全部能显示的字符串都显示出来,但是NUL占位符不行,导致总长度是除去NUL之后的长度,后面再按照定长去每一列值得时候就不能继续下去了。使用sed ‘s/\x00/ /g' 替换也替换不掉,请问各位有没有好的方法??(perl程序倒是可以,但是太麻烦,就想用shell搞定)

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
2 [报告]
发表于 2014-05-24 16:32 |只看该作者
术业有专攻.

shell 对于这种复杂的数据处理并没有优势.

虽然杀鸡用牛刀是浪费, 但杀牛用水果刀, 也是浪费. 浪费的是人的精力. 并不值得.

论坛徽章:
0
3 [报告]
发表于 2014-05-24 16:57 |只看该作者
q1208c 发表于 2014-05-24 16:32
术业有专攻.

shell 对于这种复杂的数据处理并没有优势.


说的有道理,
不过对于我们这种运维的人来说,只有在机器上执行几条命令的权限,也只能使用shell这些简单的命令,其他的也没权限。

论坛徽章:
5
白羊座
日期:2014-10-28 11:23:27水瓶座
日期:2015-01-20 10:19:022015亚冠之柏斯波利斯
日期:2015-07-11 18:17:2015-16赛季CBA联赛之同曦
日期:2015-12-23 12:38:582016猴年福章徽章
日期:2016-02-18 15:30:34
4 [报告]
发表于 2014-05-24 17:18 |只看该作者
本帖最后由 klainogn 于 2014-05-24 17:18 编辑
  1. echo -e "te\x00st\x00case" | sed 's/\x00//g' | xxd
  2. 0000000: 7465 7374 6361 7365 0a                   testcase.
复制代码
这里显示可以替换成功的呀

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
5 [报告]
发表于 2014-05-24 18:12 |只看该作者
回复 3# wuicpp

perl 代码其实也是脚本, 只不过解释器是 从 /bin/bash 换成了 /usr/bin/perl, 本质上没啥区别.
   

论坛徽章:
0
6 [报告]
发表于 2014-05-25 08:07 |只看该作者
klainogn 发表于 2014-05-24 17:18
这里显示可以替换成功的呀

首先我的系统是在aix下面,你的xxd什么意思?
其次,不要光看表面上标准输出是没问题的,要在文本文件里面显示字节数一致才行.

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
7 [报告]
发表于 2014-05-25 10:09 |只看该作者
找个小点的文件,压缩一下,传上来看看。

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
8 [报告]
发表于 2014-05-25 12:53 |只看该作者
try:
  1. tr -d '\0'
复制代码

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
9 [报告]
发表于 2014-05-26 00:07 |只看该作者
搞点数据来测试一下啊~
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP