免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 2901 | 回复: 11
打印 上一主题 下一主题

[文本处理] awk 域分割符的问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-10-12 22:56 |只看该作者 |倒序浏览
假设有一文本tags如下:
  1. main    main.cpp    /^    xxx.xx    m
复制代码

其中空白处为'\t',如果通过awk设置域分割符为-F"\t"的话
  1. [linux@localhost practic]$ awk -F'\t' '{print $3}' tags
  2. /^
复制代码
但我想得到的是下面的结果:
  1. /^    xxx.xx
复制代码
请问要如何设置它的域分割符-F?


论坛徽章:
8
戌狗
日期:2013-10-12 11:37:19双子座
日期:2014-05-06 14:40:39巨蟹座
日期:2014-06-14 09:22:18戌狗
日期:2014-09-18 16:05:44巨蟹座
日期:2014-12-27 16:37:26酉鸡
日期:2015-01-20 18:39:022015年亚洲杯之沙特阿拉伯
日期:2015-04-20 22:38:242015亚冠之萨济拖拉机
日期:2015-06-19 16:01:03
2 [报告]
发表于 2014-10-12 23:02 |只看该作者
$3 $4不可以咩

论坛徽章:
3
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:51:162015年亚洲杯之阿曼
日期:2015-04-07 20:00:59
3 [报告]
发表于 2014-10-12 23:07 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
4 [报告]
发表于 2014-10-12 23:45 |只看该作者
回复 3# zooyo

以'\t'为域分割符,但是过滤掉前面带有'^'这个字符的'\t',通过域分割符里实现.不知道这样说是不是清楚点?

论坛徽章:
0
5 [报告]
发表于 2014-10-12 23:48 |只看该作者
回复 2# prcardin

我想直接通过$3就可以输出,因为这个文本可能会出现
  1. main    main.cpp        /^int main()$/;"        f
复制代码
这样一条记录
   

论坛徽章:
3
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:51:162015年亚洲杯之阿曼
日期:2015-04-07 20:00:59
6 [报告]
发表于 2014-10-12 23:49 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
7 [报告]
发表于 2014-10-12 23:59 |只看该作者
回复 6# zooyo
在学习awk中,探索awk的功能中.....

   

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
8 [报告]
发表于 2014-10-13 00:04 |只看该作者
这是神马需求,完全没看懂~{:3_193:}

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
9 [报告]
发表于 2014-10-13 07:12 |只看该作者
本帖最后由 jason680 于 2014-10-13 07:13 编辑

回复 5# _skytrails


$ cat FILE
main        main.cpp        /^int main()$/;"        f

$ hexdump -C FILE
00000000  6d 61 69 6e 09 6d 61 69  6e 2e 63 70 70 09 2f 5e  |main.main.cpp./^|
00000010  69 6e 74 20 6d 61 69 6e  28 29 24 2f 3b 22 09 66  |int main()$/;".f|
00000020  0a                                                |.|
00000021


$ awk -F"\t" '{print $3}' FILE
/^int main()$/;"

   

论坛徽章:
3
丑牛
日期:2014-09-13 18:19:22摩羯座
日期:2014-10-10 17:43:02水瓶座
日期:2014-10-16 01:00:22
10 [报告]
发表于 2014-10-13 08:55 |只看该作者
学生党:飘过~如果非要这样的话就试试正则~
$ python
Python 2.7.8 (default, Jul 25 2014, 14:04:36)
[GCC 4.8.3] on cygwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import re
>>> re.findall(r'\w+|/\^\s+\w+\.\w+',s)
['main', 'main', 'cpp', '/^    xxx.xx', 'm']
>>> re.findall(r'\w+|/\^\s+\w+\.\w+',s)[3]
'/^    xxx.xx'
嘿嘿轻轻松松就分割出来了哦~awk也可以的哦就不写了
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP