123 / 3 页下一页

[文本处理] 找出b文件中有而a文件中没有 [复制链接]

q1208c

富甲一方

论坛徽章:: 33

11楼 [报告]

发表于 2013-11-20 16:30 |只看该作者

回复 9# yestreenstars

如果我理解的没错的话, 你需要 grep '<' 或 '>' , 看实际的需求. 然后, 再去掉前面的 '>' 或 '<'.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yestreenstars

富甲一方

论坛徽章:: 32

12楼 [报告]

发表于 2013-11-20 16:38 |只看该作者

回复 11# q1208c
呵呵，那你就应该把grep的命令也提供给楼主，再说说效率问题吧，你加上这个grep命令后还觉得效率比单用grep高吗？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

关阴月飞

大富大贵

论坛徽章:: 39

13楼 [报告]

发表于 2013-11-20 16:40 |只看该作者

回复 10# q1208c

表示diff之前还要sort diff之后还要grep 这个才是硬伤呀

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Shell_HAT

版主

论坛徽章:: 33

14楼 [报告]

发表于 2013-11-20 16:43 |只看该作者

回复 10# q1208c

grep的-F选项就是disable regex的

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

q1208c

富甲一方

论坛徽章:: 33

15楼 [报告]

发表于 2013-11-20 16:53 |只看该作者

回复 14# Shell_HAT

跟 regex 无关的.

举个例子.

filea
--------------
adfafad
fa
dfadf
asdfa
df
adf
adf
asd
fads
fdas
fd
asf
dasf
das
fasd
fd
asfd
asf
asaa
dsf
ad
fas
dfd
asf
fasd
fd
asf
dasf
das
fdsa
----------
fileb
----------
ad
f
adfa
dfwe
adfa
sd
--------

复制代码

以我对 grep的理解, 它应该是用b中每一行做为一个表达式, 去a中遍历. 那么, a应该被遍历6次.

如果用diff, 一次就够了. 虽然前面有 sort的过程, 但sort的算法已经很高效了, 而且, 文件越大, 效率越明显.
当然, 在现在这个例中的文件里, 完全看不出效率问题, 但随着文件的行数越来越多, 效率问题就越来越大.

当然了, 如果grep是把整个b文件当做一个大的表达式, 只遍历一次a, 那效率就不是问题了. 只是, 不知道当b大到内存都放不下时, grep如何处理.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

q1208c

富甲一方

论坛徽章:: 33

16楼 [报告]

发表于 2013-11-20 17:04 |只看该作者

回复 13# 关阴月飞

diff 之后的 grep 只有一个表达式, '<' 或是 '>' . 总好过原来 b文件中的一堆吧.

另外, 这个方法我在一个有130行的b文件和30w行的a文件中试过了.

开始也是用 grep, 10分钟没有结果. 后来, 才sort了之后 diff的. 而且, 我当时还是先执行了 awk 取了a中的一个字段. 几秒钟就有结果了.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Shell_HAT

版主

论坛徽章:: 33

17楼 [报告]

发表于 2013-11-20 17:33 |只看该作者

回复 16# q1208c

我用一个100万行的文件和一个100行的文件做的测试：

test1.sh 内容如下：

#!/bin/bash
for((i=1;i<=100;i++)); do
tr -cd "[:alnum:]" < /dev/urandom | head -c ${1-10}
echo
done

复制代码

生成一个100行的临时文件：

./test1.sh > a.txt

复制代码

test2.sh 内容如下：

#!/bin/bash
for((i=1;i<=10000;i++)); do
cat a.txt
done

复制代码

生成一个100万行的文件：

./test2.sh > b.txt

复制代码

生成一个100行的文件：

head -90 b.txt > c.txt
head -10 /etc/passwd >> c.txt

复制代码

[root]# time grep -vxFf b.txt c.txt
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
news:x:9:13:news:/etc/news:

real 0m0.139s
user 0m0.126s
sys 0m0.009s

[root]# time diff b.txt c.txt | grep '^>' | sed 's/^> //'
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
news:x:9:13:news:/etc/news:

real 0m0.932s
user 0m0.691s
sys 0m0.033s

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

关阴月飞

大富大贵

论坛徽章:: 39

18楼 [报告]

发表于 2013-11-20 17:42 |只看该作者

本帖最后由关阴月飞于 2013-11-20 17:43 编辑

回复 16# q1208c

grep 10分钟没结果， sort 后diff 几秒钟出来了？表示不可思议，于是测试了一下，

sort+diff 和 grep 的方法各连续运行三次：

[root@pf]# du -h 1.txt 2.txt
37M 1.txt
37M 2.txt
[root@pf]# wc -l 1.txt 2.txt
4950001 1.txt
4950001 2.txt
9900002 总用量
[root@pf]# head 1.txt 2.txt
==> 1.txt <==
3207273
2785529
4967878
3343435
1677145
2165230
2680247
3019757
4536182
3434759
==> 2.txt <==
26993
4123253
1573704
3903709
4632523
1516950
795944
2690009
3428094
1619066
[root@pf]# time { sort 1.txt >1.sort; sort 2.txt >2.sort; diff 1.sort 2.sort |grep -E '<|>' >sort_file; }
real 0m59.639s
user 0m56.452s
sys 0m2.931s
[root@pf]# time { sort 1.txt >1.sort; sort 2.txt >2.sort; diff 1.sort 2.sort |grep -E '<|>' >sort_file; }
real 0m59.963s
user 0m55.910s
sys 0m3.412s
[root@pf]# time { sort 1.txt >1.sort; sort 2.txt >2.sort; diff 1.sort 2.sort |grep -E '<|>' >sort_file; }
real 0m59.646s
user 0m55.578s
sys 0m3.577s
[root@pf]# time { grep -vxFf 1.txt 2.txt >grep_file ;grep -vxFf 2.txt 1.txt >>grep_file; }
real 0m51.941s
user 0m51.144s
sys 0m0.671s
[root@pf]# time { grep -vxFf 1.txt 2.txt >grep_file ;grep -vxFf 2.txt 1.txt >>grep_file; }
real 0m51.890s
user 0m51.174s
sys 0m0.707s
[root@pf]# time { grep -vxFf 1.txt 2.txt >grep_file ;grep -vxFf 2.txt 1.txt >>grep_file; }
real 0m51.941s
user 0m51.227s
sys 0m0.706s
[root@pf]# wc -l sort_file grep_file
89172 sort_file
89172 grep_file
178344 总用量
[root@pf]#

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

q1208c

富甲一方

论坛徽章:: 33

19楼 [报告]

发表于 2013-11-20 18:05 |只看该作者

本帖最后由 q1208c 于 2013-11-20 18:14 编辑

回复 18# 关阴月飞

[user@host ~/temp/test.v06p]
$ wc -l *.txt
2346447 1.txt
700000 2.txt
3046447 total
[user@host ~/temp/test.v06p]
$ time { sort 1.txt >1.sort; sort 2.txt >2.sort; diff 1.sort 2.sort |grep -E '<|>' >sort_file; }
real 0m11.898s
user 0m9.020s
sys 0m0.615s
[user@host ~/temp/test.v06p]
$ time { grep -vxFf 1.txt 2.txt >grep_file ;grep -vxFf 2.txt 1.txt >>grep_file; }
real 0m18.300s
user 0m13.692s
sys 0m0.869s

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

关阴月飞

大富大贵

论坛徽章:: 39

20楼 [报告]

发表于 2013-11-20 19:26 |只看该作者

回复 19# q1208c

正如测试结果所示，两种方法差距并不大......

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

123 / 3 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Shell › 找出b文件中有而a文件中没有

[文本处理] 找出b文件中有而a文件中没有 [复制链接]

浏览过的版块