免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: quidway668
打印 上一主题 下一主题

[文本处理] 请问这个怎么屏蔽元字符。谢谢。 [复制链接]

论坛徽章:
3
CU大牛徽章
日期:2013-03-13 15:15:08CU大牛徽章
日期:2013-03-13 15:26:06CU大牛徽章
日期:2013-03-13 15:26:47
11 [报告]
发表于 2014-10-15 07:01 |只看该作者
本帖最后由 quidway668 于 2014-10-15 07:02 编辑

回复 10# quidway668



   

论坛徽章:
3
CU大牛徽章
日期:2013-03-13 15:15:08CU大牛徽章
日期:2013-03-13 15:26:06CU大牛徽章
日期:2013-03-13 15:26:47
12 [报告]
发表于 2014-10-15 07:02 |只看该作者
回复 6# zxy877298415


# cat a.txt
113.119.132.73
49.219.56.68
# cat b.txt (下面每行前面有空格)
id:76440 REMOTE:113.119.132.73
id:69245 REMOTE:101.83.144.214
id:56637 REMOTE:115.205.219.121
id:91374 REMOTE:180.35.119.18
id:56084 REMOTE:49.219.56.68

结果是需要得到:
id:76440 REMOTE:113.119.132.73
id:56084 REMOTE:49.219.56.68

真实文本是这样,a.txt 有几千行,b.txt 有90万行。  

for i in `cat a.txt`;do grep $i b.txt;done    和  awk 查找的时候都会出问题。求解。谢谢。


   

论坛徽章:
3
CU大牛徽章
日期:2013-03-13 15:15:08CU大牛徽章
日期:2013-03-13 15:26:06CU大牛徽章
日期:2013-03-13 15:26:47
13 [报告]
发表于 2014-10-15 07:04 |只看该作者
回复 9# yestreenstars


真实文本是这样,a.txt 有几千行,b.txt 有90万行。

# cat a.txt
113.119.132.73
49.219.56.68
# cat b.txt (下面每行前面有空格)
id:76440 REMOTE:113.119.132.73
id:69245 REMOTE:101.83.144.214
id:56637 REMOTE:115.205.219.121
id:91374 REMOTE:180.35.119.18
id:56084 REMOTE:49.219.56.68

结果是需要得到:
id:76440 REMOTE:113.119.132.73
id:56084 REMOTE:49.219.56.68

for i in `cat a.txt`;do grep $i b.txt;done    和  awk 查找的时候都会出问题。求解。谢谢。


   

论坛徽章:
3
CU大牛徽章
日期:2013-03-13 15:15:08CU大牛徽章
日期:2013-03-13 15:26:06CU大牛徽章
日期:2013-03-13 15:26:47
14 [报告]
发表于 2014-10-15 07:18 |只看该作者
回复 6# zxy877298415




while read AA;do grep $AA b.txt ;done < a.txt
这样也报同样的问题。

如果是几行这些命令都没有问题,就是 a.txt 有几千行,b.txt 有几十万行,就都会报如下错误:

grep: Unmatched [ or [^
grep: Unmatched [ or [^
grep: Unmatched [ or [^
grep: Unmatched [ or [^
grep: Unmatched [ or [^
grep: Unmatched [ or [^
grep: Unmatched [ or [^
grep: Unmatched [ or [^
grep: Unmatched [ or [^
grep: Unmatched [ or [^
grep: Unmatched [ or [^
grep: Unmatched [ or [^
grep: Unmatched [ or [^
grep: Unmatched [ or [^
grep: Unmatched [ or [^

求解。


   

论坛徽章:
3
丑牛
日期:2014-09-13 18:19:22摩羯座
日期:2014-10-10 17:43:02水瓶座
日期:2014-10-16 01:00:22
15 [报告]
发表于 2014-10-15 08:50 |只看该作者
学生党:无聊~python试试

  1. $ cat yhsafe.py
  2. #!/usr/bin/env python
  3. # -*- coding:gbk -*-

  4. import sys
  5. import fileinput
  6. dic={}
  7. for x in fileinput.input(sys.argv[1:]):
  8.         if fileinput.filelineno()==fileinput.lineno():
  9.                 res=x.strip('\n').split(':')
  10.                 key=res[2]
  11.                 val=x.strip('\n')
  12.                 dic.setdefault(key,val)
  13.         else:
  14.                 print dic[x.strip('\n')]
复制代码
测试:
$ ./yhsafe.py b.txt a.txt
id:76440 REMOTE:113.119.132.73
id:56084 REMOTE:49.219.56.68

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
16 [报告]
发表于 2014-10-15 08:52 |只看该作者
@jason680
perl有个忽略正则是什么?

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
17 [报告]
发表于 2014-10-15 09:20 |只看该作者
单看输出,不是 grep -f 的功能吗?
楼主可以把原始文件传上来大家帮你试一下?

论坛徽章:
3
CU大牛徽章
日期:2013-03-13 15:15:08CU大牛徽章
日期:2013-03-13 15:26:06CU大牛徽章
日期:2013-03-13 15:26:47
18 [报告]
发表于 2014-10-15 09:25 |只看该作者
回复 15# 李满满

这个几行的数据 也是可以的。a.txt 几千行,b.txt几十万行 就报错了。
    Traceback (most recent call last):
  File "2.py", line 14, in <module>
    print dic[x.strip('\n')]

论坛徽章:
780
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
19 [报告]
发表于 2014-10-15 09:33 |只看该作者
本帖最后由 Herowinter 于 2014-10-15 09:33 编辑

回复 1# quidway668

目测是:
  1. grep -Ff a.txt b.txt
复制代码

论坛徽章:
3
CU大牛徽章
日期:2013-03-13 15:15:08CU大牛徽章
日期:2013-03-13 15:26:06CU大牛徽章
日期:2013-03-13 15:26:47
20 [报告]
发表于 2014-10-15 09:43 |只看该作者
回复 19# Herowinter


    大哥,,,你是神人。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP