免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 7631 | 回复: 14
打印 上一主题 下一主题

[文本处理] awk怎么提取空格前的字符 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-12-09 11:52 |只看该作者 |倒序浏览
如题 想提取文本中在[]之前的字符,字符与[]之间有空格,最后得到TFII-I
                                                                                    Pax-5
                                                                                    。。。



文本:
TFII-I [T00824]; 6
Pax-5 [T00070]; 7
p53 [T00671]; 7
ENKTF-1 [T00255]; 8
GR-alpha [T00337]; 5
AP-2alphaA [T00035]; 6
c-Ets-2 [T00113]; 9
AR [T00040]; 9
EBF [T05427]; 11
PU.1 [T02068]; 13
c-Jun [T00133]; 7
C/EBPbeta [T00581]; 4
NF-1 [T00539]; 8

论坛徽章:
3
酉鸡
日期:2014-04-23 17:17:56丑牛
日期:2014-05-08 11:41:302015亚冠之德黑兰石油
日期:2015-08-03 11:14:27
2 [报告]
发表于 2014-12-09 11:58 |只看该作者
echo "TFII-I [T00824]; 6" | grep -oP "[^\[]+(?=\[)"
TFII-I
echo "TFII-I [T00824]; 6" | awk '{print $1}'
TFII-I
echo "TFII-I [T00824]; 6" | sed 's/ .*$//'
TFII-I

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
3 [报告]
发表于 2014-12-09 11:59 |只看该作者
awk 'NF=1' file

论坛徽章:
3
酉鸡
日期:2014-04-23 17:17:56丑牛
日期:2014-05-08 11:41:302015亚冠之德黑兰石油
日期:2015-08-03 11:14:27
4 [报告]
发表于 2014-12-09 12:46 |只看该作者
回复 3# ly5066113


    学习中,mark

论坛徽章:
46
2015小元宵徽章
日期:2015-03-06 15:58:18羊年新春福章
日期:2015-04-14 10:37:422015年亚洲杯之阿曼
日期:2015-04-14 10:41:50NBA常规赛纪念章
日期:2015-05-04 22:32:03NBA季后赛大富翁
日期:2015-05-04 22:34:11菠菜明灯
日期:2015-05-04 22:35:49新奥尔良黄蜂
日期:2015-05-04 22:49:2315-16赛季CBA联赛之广夏
日期:2015-12-11 15:02:342015年亚洲杯之巴勒斯坦
日期:2015-03-04 19:56:562015年亚洲杯之阿联酋
日期:2015-03-04 11:19:04休斯顿火箭
日期:2015-03-02 16:32:11纽约尼克斯
日期:2015-03-02 16:09:04
5 [报告]
发表于 2014-12-09 13:25 |只看该作者
awk '{print $1}' yourfile

论坛徽章:
0
6 [报告]
发表于 2014-12-09 13:43 |只看该作者
回复 3# ly5066113

再请教一个小问题哈
如果得到ID列表,我已经按照名称排序了,发现一些有重复的,怎么样每个ID只输出一次?
例:    得到:
A         A
A         B
A         C
B
C
C        


   

论坛徽章:
0
7 [报告]
发表于 2014-12-09 13:47 |只看该作者
回复 6# xunong
sort -u

   

论坛徽章:
2
白羊座
日期:2014-06-17 11:04:28午马
日期:2014-12-29 15:37:13
8 [报告]
发表于 2014-12-09 13:51 |只看该作者
  1. awk '!a[$1]++' file
复制代码
回复 6# xunong


   

论坛徽章:
46
2015小元宵徽章
日期:2015-03-06 15:58:18羊年新春福章
日期:2015-04-14 10:37:422015年亚洲杯之阿曼
日期:2015-04-14 10:41:50NBA常规赛纪念章
日期:2015-05-04 22:32:03NBA季后赛大富翁
日期:2015-05-04 22:34:11菠菜明灯
日期:2015-05-04 22:35:49新奥尔良黄蜂
日期:2015-05-04 22:49:2315-16赛季CBA联赛之广夏
日期:2015-12-11 15:02:342015年亚洲杯之巴勒斯坦
日期:2015-03-04 19:56:562015年亚洲杯之阿联酋
日期:2015-03-04 11:19:04休斯顿火箭
日期:2015-03-02 16:32:11纽约尼克斯
日期:2015-03-02 16:09:04
9 [报告]
发表于 2014-12-09 13:52 |只看该作者
awk '{if($1!=a)print $1;a=$1}'

论坛徽章:
0
10 [报告]
发表于 2014-12-09 14:20 |只看该作者
回复 9# super皮波
继续求救
如果两个文件A和B各有一列,怎么将AB中都有的ID输出到文件C, 只在A或只在B中出现的ID输出到文件D
例:
A       B      C     D
1       1      1      2
2       4      4      6
4       6      7
7       7      8
8       8


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP