免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1193 | 回复: 8
打印 上一主题 下一主题

[文本处理] 如何处理该文件 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-08-12 11:31 |只看该作者 |倒序浏览
本帖最后由 Ladore 于 2015-08-12 14:29 编辑

现有文件a.txt如下

  1.   A           B            C                        D             E                    F           G
  2. 03085810    00015802  9200000000111223445          5.00 14 失败1,ABC [L105303][3.20] IDEABCDEC    111111
  3. 03085810    00015802  6666 1111 2222 3333          7.50 14 AS 失败2 [L107859][3.20]  IDEABCDEC    222222
  4. 03085810    00015802  6666 1111 2222 3333          2.00 11 失败3 [L109317][01]       IDEABCDEC    333333
  5. 03085810    00015802  6666 1111 2222 3333        398.00 失败4 [11] [                 IDEABCDEC    444444
  6. 03085810    00015802  6666 1111 2222 3333          0.01 00 成功 [L3][300]            IDEABCDEC    555555
复制代码
该文件每列定长,第一行ABCD..不存在,每行第57至84位为E列数据,现需处理该文件使其为以下格式文件:处理过后E列所占的长度不变

  1. 03085810    00015802  2200000000111223445          5.00 失败1,ABC                    IDEABCDEC    111111
  2. 03085810    00015802  6666 1111 2222 3333          7.50 AS 失败2                     IDEABCDEC    222222
  3. 03085810    00015802  6666 1111 2222 3333          2.00 失败3                        IDEABCDEC    333333      
  4. 03085810    00015802  6666 1111 2222 3333        398.00 失败4                        IDEABCDEC    444444
  5. 03085810    00015802  6666 1111 2222 3333          0.01 成功                         IDEABCDEC    555555
复制代码

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
2 [报告]
发表于 2015-08-12 11:45 |只看该作者
回复 1# Ladore


目测:
  1. sed 's/\[.*]//' file
复制代码

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
3 [报告]
发表于 2015-08-12 12:05 |只看该作者
回复 1# Ladore

03085810    00015802  9200000000111223445          5.00 14 失败1 [L105303][3.20]     IDEABCDEC    111111

>> ...每行第57至84位为E列数据...

$ awk 'BEGIN{FIELDWIDTHS="56 27 99"}{sub(/^[0-9]+ +/,"",$2);sub(/ .+/,"",$2);print}' a.txt
03085810    00015802  9200000000111223445          5.00  失败1     IDEABCDEC    111111
03085810    00015802  6666 1111 2222 3333          7.50  失败2     IDEABCDEC    222222
03085810    00015802  6666 1111 2222 3333          2.00  失败3     IDEABCDEC    333333      
03085810    00015802  6666 1111 2222 3333        398.00  失败4     IDEABCDEC    444444
03085810    00015802  6666 1111 2222 3333          0.01  成功     IDEABCDEC    555555

   

论坛徽章:
11
射手座
日期:2015-08-11 16:10:26辰龙
日期:2015-08-11 16:11:11黑曼巴
日期:2016-04-26 16:58:40
4 [报告]
发表于 2015-08-12 13:55 |只看该作者
  1. awk '{str=substr($0,57,27);sub(/^[0-9]+ +/,"",str);sub(/ .+/,"",str);printf("%s%-27s%s\n",substr($0,0,56),str,substr($0,84))}' file
复制代码

论坛徽章:
0
5 [报告]
发表于 2015-08-12 14:14 |只看该作者
回复 4# hjfeng1988


谢谢

   

论坛徽章:
0
6 [报告]
发表于 2015-08-12 14:59 |只看该作者
hjfeng1988 发表于 2015-08-12 13:55

正则表达式中 如果有   14 AS  失败2 [L107859][3.20]   这种字符串,该怎么截取了,谢谢

论坛徽章:
11
射手座
日期:2015-08-11 16:10:26辰龙
日期:2015-08-11 16:11:11黑曼巴
日期:2016-04-26 16:58:40
7 [报告]
发表于 2015-08-12 15:10 |只看该作者
回复 6# Ladore
  1. awk '{str=substr($0,57,27);sub(/^[0-9]+ +/,"",str);sub(/ \[.+/,"",str);printf("%s%-27s%s\n",substr($0,0,56),str,substr($0,84))}' file
复制代码

论坛徽章:
0
8 [报告]
发表于 2015-08-12 16:42 |只看该作者
本帖最后由 Ladore 于 2015-08-12 16:42 编辑

回复 3# jason680

这样写: awk 'BEGIN{FIELDWIDTHS="56 28 99"}{sub(/^[0-9]+ +/,"",$2);sub(/ \[.+/,"",$2);print}'  a.txt  就不会是定长的了
  1. 03085810    00015802  9200000000111223445          5.00  失败1,ABC  IDEABCDEC    111111
  2. 03085810    00015802  6666 1111 2222 3333          7.50  AS 失败2  IDEABCDEC    222222
  3. 03085810    00015802  6666 1111 2222 3333          2.00  失败3  IDEABCDEC    333333
  4. 03085810    00015802  6666 1111 2222 3333        398.00  失败4  IDEABCDEC    444444
  5. 03085810    00015802  6666 1111 2222 3333          0.01  成功  IDEABCDEC    555555
复制代码
该问题已经解决,谢谢大家!
   

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
9 [报告]
发表于 2015-08-12 16:47 |只看该作者
回复 8# Ladore


    printf or sprintf can work fine
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP