免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
1234下一页
最近访问板块 发新帖
查看: 4531 | 回复: 31
打印 上一主题 下一主题

[文本处理] 请问这个怎么屏蔽元字符。谢谢。 [复制链接]

论坛徽章:
3
CU大牛徽章
日期:2013-03-13 15:15:08CU大牛徽章
日期:2013-03-13 15:26:06CU大牛徽章
日期:2013-03-13 15:26:47
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-10-14 20:08 |只看该作者 |倒序浏览
本帖最后由 quidway668 于 2014-10-15 07:03 编辑

for i in `cat a.txt`;do grep $i b.txt;done  

请问下grep要怎么屏蔽元字符?谢谢。




真实文本是这样,a.txt 有几千行,b.txt 有90万行。

# cat a.txt
113.119.132.73
49.219.56.68
# cat b.txt (下面每行前面有空格)
id:76440 REMOTE:113.119.132.73
id:69245 REMOTE:101.83.144.214
id:56637 REMOTE:115.205.219.121
id:91374 REMOTE:180.35.119.18
id:56084 REMOTE:49.219.56.68

结果是需要得到:
id:76440 REMOTE:113.119.132.73
id:56084 REMOTE:49.219.56.68

for i in `cat a.txt`;do grep $i b.txt;done    和  awk 查找的时候都会出问题。求解。谢谢。

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
2 [报告]
发表于 2014-10-14 21:04 |只看该作者
说说你的真实意图吧~

论坛徽章:
3
CU大牛徽章
日期:2013-03-13 15:15:08CU大牛徽章
日期:2013-03-13 15:26:06CU大牛徽章
日期:2013-03-13 15:26:47
3 [报告]
发表于 2014-10-14 21:16 |只看该作者
本帖最后由 quidway668 于 2014-10-14 21:16 编辑

[root@test i]# more a.txt
1
2
6
[root@test i]# more b.txt
aa 1
bb 2
cc 3
dd 5
qq 6

通过a.txt 里面有的,在b.txt 里面的 整行打印出来,
结果就是想得到:
aa 1
bb 2
qq 6

论坛徽章:
3
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:51:162015年亚洲杯之阿曼
日期:2015-04-07 20:00:59
4 [报告]
发表于 2014-10-14 21:16 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
3
CU大牛徽章
日期:2013-03-13 15:15:08CU大牛徽章
日期:2013-03-13 15:26:06CU大牛徽章
日期:2013-03-13 15:26:47
5 [报告]
发表于 2014-10-14 21:18 |只看该作者
本帖最后由 quidway668 于 2014-10-14 21:25 编辑


for i in `cat a.txt`;do grep $i b.txt;done   这样直接报grep匹配出错了,应该是 $ 元字符 和变量 $i  没处理好吧,不知道要怎么处理

用sed awk 去查找 都有这个问题,有解决办法吗?

论坛徽章:
30
申猴
日期:2014-04-10 09:43:532015年亚洲杯纪念徽章
日期:2015-03-20 14:40:232015亚冠之阿尔纳斯尔
日期:2015-06-02 18:59:042015亚冠之阿尔希拉尔
日期:2015-06-30 15:22:572015亚冠之大阪钢巴
日期:2015-07-20 10:44:332015亚冠之阿尔纳斯尔
日期:2015-10-28 14:57:5215-16赛季CBA联赛之新疆
日期:2015-12-25 10:18:45黑曼巴
日期:2016-06-26 21:39:5315-16赛季CBA联赛之山西
日期:2016-07-25 21:54:2715-16赛季CBA联赛之北京
日期:2016-10-27 12:07:2315-16赛季CBA联赛之八一
日期:2017-07-07 16:39:0915-16赛季CBA联赛之吉林
日期:2017-09-04 12:14:43
6 [报告]
发表于 2014-10-14 21:31 |只看该作者
回复 5# quidway668
为什么我的没问题呢?你的是什么shell?
[root@localhost]# cat a.txt
1
2
6
[root@localhost]# cat b.txt
aa 1
bb 2
cc 3
dd 5
qq 6
[root@localhost]# for i in `cat a.txt`;do grep $i b.txt;done   
aa 1
bb 2
qq 6
[root@localhost]# awk 'NR==FNR{a[$2]=$0;next}{print a[$0]}' b.txt a.txt
aa 1
bb 2
qq 6

   

论坛徽章:
3
CU大牛徽章
日期:2013-03-13 15:15:08CU大牛徽章
日期:2013-03-13 15:26:06CU大牛徽章
日期:2013-03-13 15:26:47
7 [报告]
发表于 2014-10-14 21:41 |只看该作者
回复 6# zxy877298415

晕,centos 5.9 bash

直接提示 grep: Unmatched [ or [^
grep: Unmatched [ or [^


   

论坛徽章:
3
丑牛
日期:2014-09-13 18:19:22摩羯座
日期:2014-10-10 17:43:02水瓶座
日期:2014-10-16 01:00:22
8 [报告]
发表于 2014-10-14 23:12 |只看该作者
学生党:无聊~python试试~

  1. #!/usr/bin/env python
  2. # -*- coding:gbk -*-

  3. import sys
  4. import fileinput
  5. list={}
  6. for x in fileinput.input(sys.argv[1:]):
  7.         if fileinput.lineno()==fileinput.filelineno():
  8.                 list.setdefault(x.split()[1],x.split()[0])
  9.         else:
  10.                 print list[x.strip()],x.strip()
复制代码
测试:
$ ./yhsafe.py b.txt a.txt
aa 1
bb 2
qq 6

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
9 [报告]
发表于 2014-10-15 00:15 |只看该作者
回复 3# quidway668

就你这个文本根本不存在元字符~
   

论坛徽章:
3
CU大牛徽章
日期:2013-03-13 15:15:08CU大牛徽章
日期:2013-03-13 15:26:06CU大牛徽章
日期:2013-03-13 15:26:47
10 [报告]
发表于 2014-10-15 06:50 |只看该作者
grep 查找时是不是有行数限制?几行没有问题了,几十万行就报这个错了。 grep: Unmatched [ or [^
grep: Unmatched [ or [^
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP