免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 3196 | 回复: 20
打印 上一主题 下一主题

[文本处理] 文件内的数据抽取 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-06-25 17:25 |只看该作者 |倒序浏览
本帖最后由 lit_wei 于 2015-06-26 15:07 编辑

现有一个A文件如下:
11111111    22222222    333333    100.00 11 AB失败 [L8412][01]               
03015810    00015802    226592     10.00 重复 [L101836][1.90]
11111111    222  222    333333   2340.00 14 余额 [L8412][01]
456  923    00015802    226592    230.00 13 失败,A重复 [L101836]    [1.90]
  ...


每行前面40位定长即11111111    22222222    333333   100.00 从41位开始到行末,以"["符号开始时,每行都截掉从[开始到最后的所有字符串,截完即如下文件
11111111    22222222    333333   100.00 11 AB失败
03015810    00015802    226592     10.00 重复
11111111    222   222     333333 2340.00 14 余额
456    923    00015802    226592   230.00 13 失败,A重复
...

然后每行从41位开始有数字的如 :11 AB失败 每行这种字符串,数字与所需的字符串之间都有空格,以汉字开始的就取汉字。

怎么写一个shell生成如下文件:每行每列之间有几个空格就留几个,有小数位的列右对齐
11111111    22222222    333333   100.00 AB失败
03015810    00015802    226592    10.00 重复
11111111    222  222    333333  2340.00 余额
456  923    00015802    226592   230.00 失败,A重复
...









论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
2 [报告]
发表于 2015-06-25 17:29 |只看该作者
本帖最后由 haooooaaa 于 2015-06-25 17:31 编辑

回复 1# lit_wei
  1. $ awk 'NF==7{print $1,$2,$3,$4,$6}NF==6{print $1,$2,$3,$4,$5}'  3.txt
  2. 11111111 22222222 333333 100.00 AB失败
  3. 03015810 00015802 226592 10.00 重复
复制代码
  1. $ awk 'NF==7{$5=$6;NF=5;print}NF==6{NF=5;print}' 3.txt
  2. 11111111 22222222 333333 100.00 AB失败
  3. 03015810 00015802 226592 10.00 重复
复制代码

论坛徽章:
780
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
3 [报告]
发表于 2015-06-25 17:44 |只看该作者
回复 1# lit_wei
目测这样应该可以呀.
  1. sed 's/\s*\[.*//' i
复制代码

论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
4 [报告]
发表于 2015-06-25 17:48 |只看该作者
回复 3# Herowinter


    他有一列 11 不要,

论坛徽章:
780
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
5 [报告]
发表于 2015-06-25 17:53 |只看该作者
回复 4# haooooaaa

没看到这个, 这个过滤规则有点扯, 枚举?
   

论坛徽章:
26
2015亚冠之胡齐斯坦钢铁
日期:2015-06-25 21:40:202015亚冠之柏斯波利斯
日期:2015-08-31 17:03:192015亚冠之柏斯波利斯
日期:2015-11-07 13:10:00程序设计版块每日发帖之星
日期:2015-11-10 06:20:00每日论坛发贴之星
日期:2015-11-10 06:20:00程序设计版块每日发帖之星
日期:2015-11-26 06:20:00程序设计版块每日发帖之星
日期:2015-12-02 06:20:00黄金圣斗士
日期:2015-12-07 17:57:4615-16赛季CBA联赛之天津
日期:2015-12-23 18:34:14程序设计版块每日发帖之星
日期:2016-01-02 06:20:00程序设计版块每日发帖之星
日期:2016-01-06 06:20:00每日论坛发贴之星
日期:2016-01-06 06:20:00
6 [报告]
发表于 2015-06-25 21:48 |只看该作者
都没说明, 表示没看懂,

论坛徽章:
20
卯兔
日期:2015-01-26 22:05:142015亚冠之萨济拖拉机
日期:2015-09-10 15:15:282015亚冠之阿尔希拉尔
日期:2015-09-25 17:37:53程序设计版块每日发帖之星
日期:2015-10-03 06:20:00程序设计版块每日发帖之星
日期:2015-12-09 06:20:00CU十四周年纪念徽章
日期:2015-12-17 09:07:15程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:342015亚冠之广州富力
日期:2015-08-27 19:29:56每日论坛发贴之星
日期:2015-08-26 06:20:002015亚冠之阿尔希拉尔
日期:2015-05-18 17:26:27
7 [报告]
发表于 2015-06-26 01:38 |只看该作者
回复 1# lit_wei
如果第一行结果要11的话,这样就可以了,awk 'NF--' file,
如果第一行结果不要11的话,请说明规则。。。。

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
8 [报告]
发表于 2015-06-26 04:29 |只看该作者
回复 1# lit_wei

$ cat FILE
11111111    22222222    333333   100.00 11 AB失败 [L8412][01]               
03015810    00015802    226592     10.00 重复 [L101836][1.90]

$ awk '{sub(/\[.*/,"");$5=$NF;NF=5}1' FILE
11111111 22222222 333333 100.00 AB失败
03015810 00015802 226592 10.00 重复

论坛徽章:
0
9 [报告]
发表于 2015-06-26 08:50 |只看该作者
awk -F"[" '{print $1}'


    ·

论坛徽章:
0
10 [报告]
发表于 2015-06-26 09:43 |只看该作者
回复 7# songyc_2015


   规则以说明,麻烦再看一下。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP