免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2639 | 回复: 6
打印 上一主题 下一主题

[文本处理] 文本处理求助 [复制链接]

论坛徽章:
18
辰龙
日期:2014-05-21 21:01:4115-16赛季CBA联赛之深圳
日期:2016-12-23 13:51:3815-16赛季CBA联赛之北控
日期:2016-11-28 18:26:3815-16赛季CBA联赛之佛山
日期:2016-11-03 11:18:5815-16赛季CBA联赛之辽宁
日期:2016-07-10 16:09:4115-16赛季CBA联赛之江苏
日期:2016-02-20 23:09:202015亚冠之塔什干棉农
日期:2015-08-17 19:49:492015年亚洲杯之日本
日期:2015-04-30 01:24:342015年亚洲杯之约旦
日期:2015-04-01 00:37:182015年亚洲杯之沙特阿拉伯
日期:2015-03-02 15:55:40处女座
日期:2014-05-25 10:34:0020周年集字徽章-年
日期:2023-04-23 11:17:52
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-01-01 23:55 |只看该作者 |倒序浏览
本帖最后由 bikkuri 于 2014-01-01 23:55 编辑

大家好!我想从下面一个报表文件中取数据,源文件如下:
  1. Employee No.: PA0152827
  2. Education:College
  3. Name:"Wang Jian Hua"
  4. Sex:Male
  5. Age:30
  6. Postion:Sales Manager

  7. Employee No.: ST0075384
  8. Education:College
  9. Name:"Dong Qing"
  10. Sex:Female
  11. Age:28
  12. Postion:Sales Assistant
  13. ...
  14. ...

复制代码
希望对Employee No,Name和Age三个字段取数据,生成以下格式的输出:
  1. PA0152827*Wang Jian Hua*30
  2. ST0075384*Dong Qing*28
  3. ...
复制代码
谢谢。

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
2 [报告]
发表于 2014-01-02 00:23 |只看该作者
  1. awk -F: -vOFS='*' '/^Em/{a=substr($2,2)}/^N/{gsub(/"/,"");b=$2}/^A/{print a,b,$2}'
复制代码

论坛徽章:
1
2015年迎新春徽章
日期:2015-03-04 09:58:11
3 [报告]
发表于 2014-01-02 08:50 |只看该作者
  1. [root@everIover ~]# awk -F ":" '/Employee No/{printf("%s*",$2)}/Name/{gsub(/[""]/,"",$2);printf("%s*",$2)}/Age/{print $2}' a.txt
  2. PA0152827*Wang Jian Hua*30
  3. ST0075384*Dong Qing*28
  4. [root@everIover ~]# cat a.txt
  5. Employee No.: PA0152827
  6. Education:College
  7. Name:"Wang Jian Hua"
  8. Sex:Male
  9. Age:30
  10. Postion:Sales Manager

  11. Employee No.: ST0075384
  12. Education:College
  13. Name:"Dong Qing"
  14. Sex:Female
  15. Age:28
  16. Postion:Sales Assistant
复制代码

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
4 [报告]
发表于 2014-01-02 09:45 |只看该作者
回复 1# bikkuri

$ awk -F': *' '{gsub(/"/,"")}/^Employee/{E=$2}/^Name/{N=$2}/^Age/{print E"*"N"*"$2}' FILE
PA0152827*Wang Jian Hua*30
ST0075384*Dong Qing*28

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
5 [报告]
发表于 2014-01-02 09:47 |只看该作者
  1. grep -oP "(?<=No...|Name..|Age.)[^\"]+" file|xargs -n 3|tr " " "*"
复制代码

论坛徽章:
5
未羊
日期:2014-08-04 16:15:21天秤座
日期:2014-08-13 13:52:372015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:56:112015亚冠之浦和红钻
日期:2015-06-29 15:30:48
6 [报告]
发表于 2014-01-02 10:08 |只看该作者
  1. awk 'BEGIN{RS="\n\n";FS=":|\n";OFS="*"}{gsub(/\"/,"");print $2,$6,$10}'
复制代码

论坛徽章:
84
每日论坛发贴之星
日期:2015-12-29 06:20:00每日论坛发贴之星
日期:2016-01-16 06:20:00每周论坛发贴之星
日期:2016-01-17 22:22:00程序设计版块每日发帖之星
日期:2016-01-20 06:20:00每日论坛发贴之星
日期:2016-01-20 06:20:00程序设计版块每日发帖之星
日期:2016-01-21 06:20:00每日论坛发贴之星
日期:2016-01-21 06:20:00程序设计版块每日发帖之星
日期:2016-01-23 06:20:00程序设计版块每日发帖之星
日期:2016-01-31 06:20:00数据库技术版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-14 06:20:00
7 [报告]
发表于 2014-01-03 15:58 |只看该作者
awk 'BEGIN{RS=""; FS="\n"} {print $1, $3, $5}'  $urfile | sed -r -e 's/Employee No.: //' -e 's/(Name|Age)://'
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP