免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 4245 | 回复: 12

[文本处理] (在线等)对文本进行awk处理,结果保留 制表符 [复制链接]

论坛徽章:
0
发表于 2016-05-05 13:25 |显示全部楼层
本帖最后由 haofang666777 于 2016-05-05 13:49 编辑

我的初始文本如下 (如图1)

PZ1-01-1425609646.328        3        40000002000                1425609704        1425609748        44        2008                xx                2015-03-06 02:42:28.973+00
PZ1-01-1426480458.1418        3        40000002000                1426480501        1426480520        19        2233                xxx                2015-03-16 04:35:20.207+00

文本中两个字符之间有多个制表符 tab

我使用awk 进行批处理

处理后tab 全部转化为了空格,并且多个连续的tab也转化为一个空格 如图2

有什么方式 可以把我这里的第三个域 即4000000 转化为 3000818并且保留原有的格式,也就是tab呢。并且tab个数保持一致

QQ截图20160505132032.png
QQ截图20160505132412.png

论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
发表于 2016-05-05 13:28 |显示全部楼层
  1. awk '{sub($3,3000818)}1'
复制代码

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
发表于 2016-05-05 13:30 |显示全部楼层
回复 1# haofang666777

  1. $ cat FILE
  2. PZ1-01-1425609646.328        3        4000000        1425609704        1425609748        44        2008        xx        2015-03-06        02:42:28.973+00
  3. PZ1-01-1426480458.1418        3        4000000        1426480501        1426480520        19        2233        xxx        2015-03-16        04:35:20.207+00

  4. $ awk 'BEGIN{FS=OFS="\t"}{$3=3000818}1' FILE
  5. PZ1-01-1425609646.328        3        3000818        1425609704        1425609748        44        2008        xx        2015-03-06        02:42:28.973+00
  6. PZ1-01-1426480458.1418        3        3000818        1426480501        1426480520        19        2233        xxx        2015-03-16        04:35:20.207+00
复制代码



   

论坛徽章:
0
发表于 2016-05-05 13:31 |显示全部楼层
本帖最后由 haofang666777 于 2016-05-05 13:34 编辑
jason680 发表于 2016-05-05 13:30
回复 1# haofang666777



如果是 40000002000 替换为 3008182000呢

也就是 4000000之后可能有其他字符 要进行字符替换

论坛徽章:
28
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:5415-16赛季CBA联赛之青岛
日期:2017-03-18 22:00:44
发表于 2016-05-05 13:35 |显示全部楼层
本帖最后由 moperyblue 于 2016-05-05 13:45 编辑
  1. sed -r 's/((\S+\s+){2})4000000(.*)/\13000818\3/'
复制代码

论坛徽章:
0
发表于 2016-05-05 13:37 |显示全部楼层
awk 'BEGIN{FS=OFS="\t"}1gsub(4000000,3000818,$3)' /tmp/investigation_record.txt  > /home/ec2-user/investigation_record_replace.txt  这个样子可以 不知道是否可行。。。。。

论坛徽章:
4
程序设计版块每日发帖之星
日期:2015-10-14 06:20:00每日论坛发贴之星
日期:2015-10-14 06:20:00程序设计版块每日发帖之星
日期:2016-05-02 06:20:00程序设计版块每日发帖之星
日期:2016-05-08 06:20:00
发表于 2016-05-05 14:07 |显示全部楼层
本帖最后由 mswsg 于 2016-05-05 17:59 编辑

我怎么看到多了2000  ?
  1. __author__ = 'shengwei ma'
  2. __author_email__ = 'shengweima@icloud.com'
  3. import re
  4. with open('1.txt', 'r') as f:
  5.     for line in f.readlines():
  6.         line = line.strip().split()
  7.         if '4000000' in line[2]:
  8.             new = re.sub('4000000', '3000818', line[2])
  9.             print('\t'.join(line[:2]) + '\t' + new, '\t'.join(line[3:]))
复制代码
结果
  PZ1-01-1425609646.328        3        30008182000 1425609704        1425609748        44        2008        xx        2015-03-06        02:42:28.973+00
PZ1-01-1426480458.1418        3        30008182000 1426480501        1426480520        19        2233        xxx        2015-03-16        04:35:20.207+0

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
发表于 2016-05-05 14:15 |显示全部楼层
本帖最后由 sunzhiguolu 于 2016-05-05 14:16 编辑
  1. perl -anle '$"="\t";substr($F[2],0)=3000818;print "@F"' f
  2. PZ1-01-1425609646.328   3       3000818 1425609704      1425609748      44      2008    xx      2015-03-06      02:42:28.973+00
  3. PZ1-01-1426480458.1418  3       3000818 1426480501      1426480520      19      2233    xxx     2015-03-16      04:35:20.207+00
复制代码

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
发表于 2016-05-05 14:23 |显示全部楼层
回复 3# jason680
大神您那个在进行输出的时候分隔符为啥好好的, 我的进行输出的时候咋不行呢. 还请您指点, 谢谢...

   

论坛徽章:
28
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:5415-16赛季CBA联赛之青岛
日期:2017-03-18 22:00:44
发表于 2016-05-05 14:23 |显示全部楼层
本帖最后由 moperyblue 于 2016-05-05 14:37 编辑
  1. cat -A file
  2. PZ1-01-1425609646.328^I3^I40000002000^I^I^I^I^I^I^I^I^I^I^I^I^I^I^I^I1425609704^I^I^I^I^I^I^I^I1425609748^I^I^I^I^I^I^I^I44^I^I^I^I^I^I^I^I2008^I^I^I^I^I^I^I^I^I^I^I^I^I^I^I^Ixx^I^I^I^I^I^I^I^I^I^I^I^I^I^I^I^I2015-03-06^I02:42:28.973+00$
  3. PZ1-01-1426480458.1418^I3^I4000000^I^I^I^I^I^I^I^I^I^I^I^I^I^I^I^I1426480501^I^I^I^I^I^I^I^I1426480520^I^I^I^I^I^I^I^I19^I^I^I^I^I^I^I^I2233^I^I^I^I^I^I^I^I^I^I^I^I^I^I^I^Ixxx^I^I^I^I^I^I^I^I^I^I^I^I^I^I^I^I2015-03-16^I04:35:20.207+00$

  4. sed -r 's/((\S+\s+){2})4000000(.*)/\13000818\3/' file|cat -A
  5. PZ1-01-1425609646.328^I3^I30008182000^I^I^I^I^I^I^I^I^I^I^I^I^I^I^I^I1425609704^I^I^I^I^I^I^I^I1425609748^I^I^I^I^I^I^I^I44^I^I^I^I^I^I^I^I2008^I^I^I^I^I^I^I^I^I^I^I^I^I^I^I^Ixx^I^I^I^I^I^I^I^I^I^I^I^I^I^I^I^I2015-03-06^I02:42:28.973+00$
  6. PZ1-01-1426480458.1418^I3^I3000818^I^I^I^I^I^I^I^I^I^I^I^I^I^I^I^I1426480501^I^I^I^I^I^I^I^I1426480520^I^I^I^I^I^I^I^I19^I^I^I^I^I^I^I^I2233^I^I^I^I^I^I^I^I^I^I^I^I^I^I^I^Ixxx^I^I^I^I^I^I^I^I^I^I^I^I^I^I^I^I2015-03-16^I04:35:20.207+00$
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP