免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1876 | 回复: 8
打印 上一主题 下一主题

[文本处理] 抽取列和抽取引号内的结合 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-09-08 16:47 |只看该作者 |倒序浏览
举例:

abc efg   "get word1"  "how are you"  123 456
hij  klm  "get word2"  "how do you do" 789 123

抽取第二列 +  第一对引号内的第二列  + 第二对引号内的全部

结果为:

efg  word1  how are you
klm word2  how do you do

论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
2 [报告]
发表于 2015-09-08 16:59 |只看该作者
本帖最后由 haooooaaa 于 2015-09-08 17:41 编辑
  1. [root@test /tmp]$ awk -F\" '{split($1,a," ");split($2,b," ");print a[2],b[2],$4}' c.txt
  2. efg word1 how are you
  3. klm word2 how do you do
复制代码
  1. Get-Content .\c.txt | foreach {if ($_ -match '\w+ +(\w+) +"\w+ +(\w+)" +"([^"]+)"'){Write-Host $matches[1..3]}}
  2. efg word1 how are you
  3. klm word2 how do you do
复制代码

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
3 [报告]
发表于 2015-09-08 16:59 |只看该作者
回复 1# skypeleo
  1. awk -F \" '{split($1" "$2,a,/ +/);print a[2],a[4],$4}' file
复制代码

论坛徽章:
8
摩羯座
日期:2014-11-26 18:59:452015亚冠之浦和红钻
日期:2015-06-23 19:10:532015亚冠之西悉尼流浪者
日期:2015-08-21 08:40:5815-16赛季CBA联赛之山东
日期:2016-01-31 18:25:0515-16赛季CBA联赛之四川
日期:2016-02-16 16:08:30程序设计版块每日发帖之星
日期:2016-06-29 06:20:002017金鸡报晓
日期:2017-01-10 15:19:5615-16赛季CBA联赛之佛山
日期:2017-02-27 20:41:19
4 [报告]
发表于 2015-09-08 17:03 |只看该作者

  1. while read line
  2. do
  3. eval set -- $line
  4. echo $2 ${3##* } $4
  5. done <urfile
复制代码

论坛徽章:
5
金牛座
日期:2015-07-03 13:32:00卯兔
日期:2015-07-03 13:32:17程序设计版块每日发帖之星
日期:2015-11-29 06:20:0015-16赛季CBA联赛之同曦
日期:2015-12-15 09:36:06CU十四周年纪念徽章
日期:2016-07-06 17:18:48
5 [报告]
发表于 2015-09-08 17:25 |只看该作者
2楼,3楼本质一样的~~

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
6 [报告]
发表于 2015-09-08 20:51 |只看该作者
回复 1# skypeleo

What You Want Is What You Code(WYWIWYC)

abc efg   "get word1"  "how are you"  123 456
hij  klm  "get word2"  "how do you do" 789 123

抽取第二列 +  第一对引号内的第二列  + 第二对引号内的全部

$ awk 'function get(str,n){split(str,a," ");return(a[n])}function qq(q,n,c){c=1;for(n=1;n<=NF;n++){$c=q?$c" "$n:$n;if($n~/^"/)q=1;if($n~/"$/)q=0;gsub(/"/,"",$c);if(!q)c++}NF=c-1}{qq();print $2,get($3,2),$4}' FILE
efg word1 how are you
klm word2 how do you do

efg word1 how are you
klm word2 how do you do

   

论坛徽章:
11
射手座
日期:2015-08-11 16:10:26辰龙
日期:2015-08-11 16:11:11黑曼巴
日期:2016-04-26 16:58:40
7 [报告]
发表于 2015-09-09 10:29 |只看该作者
回复 5# seanking1987


    2楼还是比较严谨,如果引号出现得更后面,3楼就有问题。

论坛徽章:
11
射手座
日期:2015-08-11 16:10:26辰龙
日期:2015-08-11 16:11:11黑曼巴
日期:2016-04-26 16:58:40
8 [报告]
发表于 2015-09-09 10:36 |只看该作者
  1. [root@66a awk]# echo -e '1 "2 3 4 5" 6 "7" "8 9" 10\n1 2 3 "4 5" 6 "7" "8 9" 10'
  2. 1 "2 3 4 5" 6 "7" "8 9" 10
  3. 1 2 3 "4 5" 6 "7" "8 9" 10
  4. [root@66a awk]# echo -e '1 "2 3 4 5" 6 "7" "8 9" 10\n1 2 3 "4 5" 6 "7" "8 9" 10' | awk '{printf $2" ";FS="\"";$0=$0;split($2,b," ");print b[2],$4;FS=" "}'
  5. "2 3 7
  6. 2 5 7
  7. [root@66a awk]#
复制代码

论坛徽章:
0
9 [报告]
发表于 2015-09-09 10:46 |只看该作者
  1. sed 's/[^ ]* \+\([^ ]*\)[^\"]*\"[^ ]* \+\([^\"]*\)\"[^\"]*\"\([^\"]*\).*/\1 \2 \3/'
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP