12 / 2 页下一页

论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2015-12-08 17:40 |只看该作者 |倒序浏览

今天得到一个日志文件要处理一下，内容如下：

$ cat test
1449563551|Fun1|0|Fun2|0|
1449563552|Fun1|0|Fun2|0|
1449563553|Fun1|0|Fun2|0|
1449563554|Fun1|0|Fun2|10001|
1449563555|Fun1|10002|Fun2|10002|
|0test line|

复制代码

最后一行是我加上去测试用的，主要目的是抽取其中状态标识 |0| <= 1的行，首先测试基本的grep功能：

$ grep '|0|' test
1449563551|Fun1|0|Fun2|0|
1449563552|Fun1|0|Fun2|0|
1449563553|Fun1|0|Fun2|0|
1449563554|Fun1|0|Fun2|10001|
$ grep "|0|" test
1449563551|Fun1|0|Fun2|0|
1449563552|Fun1|0|Fun2|0|
1449563553|Fun1|0|Fun2|0|
1449563554|Fun1|0|Fun2|10001|

复制代码

可以看到这里不加转义(‘\|0\)’)是可以使用的，而用了转义反而不行：

$ grep '\|0\|' test
1449563551|Fun1|0|Fun2|0|
1449563552|Fun1|0|Fun2|0|
1449563553|Fun1|0|Fun2|0|
1449563554|Fun1|0|Fun2|10001|
1449563555|Fun1|10002|Fun2|10002|
|0test line|

复制代码

在试一下指定匹配数量，也不能工作(我觉得最后一行不应该出现)：

$ grep '|0|\{1\}' test
1449563551|Fun1|0|Fun2|0|
1449563552|Fun1|0|Fun2|0|
1449563553|Fun1|0|Fun2|0|
1449563554|Fun1|0|Fun2|10001|

复制代码

困惑啊，有大大解释一下吗，怎么才能正确的匹配 |0| <= 1的行呢

文库|博客

Herowinter

富可敌国

论坛徽章:: 780

2楼 [报告]

发表于 2015-12-08 17:46 |只看该作者

回复 1# ForCalm

一定要grep, awk不可以吗?

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

WilliBhamlll

家境小康

论坛徽章:: 50

3楼 [报告]

发表于 2015-12-08 17:50 |只看该作者

grep '|0|$'

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

关阴月飞

大富大贵

论坛徽章:: 39

4楼 [报告]

发表于 2015-12-08 17:56 |只看该作者

本帖最后由关阴月飞于 2015-12-08 17:57 编辑

用awk吧，是这意思不：

[root@test ~]# cat a
1449563551|Fun1|0|Fun2|0|
1449563552|Fun1|0|Fun2|0|
1449563553|Fun1|0|Fun2|0|
1449563554|Fun1|0|Fun2|10001|
1449563555|Fun1|10002|Fun2|10002|
|0test line|
[root@test ~]# awk -F'\\|0\\|' 'NF<=2' a
1449563554|Fun1|0|Fun2|10001|
1449563555|Fun1|10002|Fun2|10002|
|0test line|

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ForCalm

白手起家

论坛徽章:: 0

5楼 [报告]

发表于 2015-12-08 21:03 |只看该作者

回复 2# Herowinter

awk肯定是可以的，但是我觉得grep会简单一点，所以初始想法就落在了grep上

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ForCalm

白手起家

论坛徽章:: 0

6楼 [报告]

发表于 2015-12-08 21:06 |只看该作者

回复 4# 关阴月飞

谢谢，效果是好的，但是兼容性差点，如果新增加一个Fun，就得改脚本。其实最终目的很简单，每一行至少会有一个Fun和它的状态码，如果发现一行中有状态码不是|0|,则将其滤出。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Herowinter

富可敌国

论坛徽章:: 780

7楼 [报告]

发表于 2015-12-08 21:42 |只看该作者

本帖最后由 Herowinter 于 2015-12-08 21:45 编辑

回复 6# ForCalm

你要的效果是这个吗？
grep -P '^[0-9]+((?!\|[1-9][0-9]*\|).)*$' test.txt
1449563551|Fun1|0|Fun2|0|
1449563552|Fun1|0|Fun2|0|
1449563553|Fun1|0|Fun2|0|

cat test.txt
1449563551|Fun1|0|Fun2|0|
1449563552|Fun1|0|Fun2|0|
1449563553|Fun1|0|Fun2|0|
1449563554|Fun1|0|Fun2|10001|
1449563555|Fun1|10002|Fun2|10002|
|0test line|

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ForCalm

白手起家

论坛徽章:: 0

8楼 [报告]

发表于 2015-12-08 21:52 |只看该作者

本帖最后由 ForCalm 于 2015-12-08 21:59 编辑

回复 7# Herowinter

结果是对的，只要取反就是希望的内容，但我在本地执行结果有点差异，是不是我理解错了？

$ grep -P '^[0-9]+((?!\|[1-9][0-9]*\|).)*' test
1449563551|Fun1|0|Fun2|0|
1449563552|Fun1|0|Fun2|0|
1449563553|Fun1|0|Fun2|0|
1449563554|Fun1|0|Fun2|10001|
1449563555|Fun1|10002|Fun2|10002|

复制代码

现在最让我疑惑的已经不是取内容了，而是怎么让grep支持‘|0|’，也就是如何能匹配这个模式并设置匹配次数。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Herowinter

富可敌国

论坛徽章:: 780

9楼 [报告]

发表于 2015-12-08 22:23 |只看该作者

本帖最后由 Herowinter 于 2015-12-08 22:31 编辑

回复 8# ForCalm

我看懂你的需求了，应该是这样。

grep -P '^((?!\|0\|).)*(\|0\|)?((?!\|0\|).)*$' test.txt
1449563554|Fun1|0|Fun2|10001|
1449563555|Fun1|10002|Fun2|10002|
|0test line|

上面的代码分成这两个正则容易理解点，包含了从行首开始后面
没有“\|0\|”和只有1个”\|0\|“的两种情况。

grep -P '^((?!\|0\|).)*$' test.txt
1449563555|Fun1|10002|Fun2|10002|
|0test line|

grep -P '^((?!\|0\|).)*\|0\|((?!\|0\|).)*$' test.txt
1449563554|Fun1|0|Fun2|10001|

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ForCalm

白手起家

论坛徽章:: 0

10楼 [报告]

发表于 2015-12-08 23:08 |只看该作者

回复 9# Herowinter

非常感谢，我发现自己之前对re好像犯了概念性的错误，你的思路应该才是对的，明天再去细细研究下代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Shell › grep求助

[文本处理] grep求助 [复制链接]

浏览过的版块