论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2016-01-26 15:03 |只看该作者 |倒序浏览

本帖最后由响亮的名字于 2016-01-27 09:06 编辑

现有一个文件夹，里面大约20000个文件，每个文件中都有N行数据，现在需要统计每个文件下包含某特定字符串（如【啊啊啊】）的行数，最终汇出到一个文件
文件格式为：
文件名行数
1.txt 20

for循环和while read line用得还不是很熟（没有编程基础），shell是为了处理网站日志现学现卖的

我暂时是这样做的

cd F:/txt/
ls >../list.txt
#list.txt里面会有乱码……不知道为什么，于是只好手动把乱码的东西替换掉。
cat ../list.txt|while read line
do
cat $line|grep -a '啊啊啊'|wc -l|sed "s/^/$line /g"
done
>../ok.txt

试了很多次才不报错……但是我有些地方不太明白
（1）为什么ls导出文件会有乱码呢？而ls直接在cygwin里面显示就没有。
（2）不太明白程序是怎么执行的，是先读第一行，开始DO第一次，DONE后继续读第二行……知道都读完了，再写入到文件里吗？
是否可以没读一行都以>>的方式写入到文件里呢？
（3）最后发现没有得到想要的文件……虽然过程都在cygwin命令行里面显示出来了，但是没有存入到文件里，求教

我是个小白，真心求教导T^T

后来一个朋友告诉我这个
cd 目录
awk '{if($0~/啊啊啊/)print FILENAME}' *.log|uniq -c
打开所有文件，通过if语句判断是否一行（$0）同时匹配字符串【啊啊啊】，如果是则输出文件名到行……这样，会得到一个文件，每行都是文件名，通过uniq -c根据文件名的出现次数来获得各自文件中符合条件的行有多少个。
这个算法应该是比较科学的，效率应该比我那个要好多了，捂脸逃

统计

文库|博客

haooooaaa

大富大贵

论坛徽章:: 54

2楼 [报告]

发表于 2016-01-26 15:20 |只看该作者

for i in `ls -1`
do
grep -cH '啊啊啊' && sed 's/:/ /' > file.txt
done

复制代码

awk 'a!=FILENAME{if(a && n)print a,n>"file.txt";a=FILENAME;n=0}/啊啊啊/{++n}' *

复制代码

评分

参与人数 1	信誉积分 +5	收起理由
Windows19	+ 5

查看全部评分

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jason680

富可敌国

论坛徽章:: 145

3楼 [报告]

发表于 2016-01-26 15:24 |只看该作者

回复 1# 响亮的名字

1. find the key word "xxx"
$ grep -c xxx *
1.txt:3
16G.txt:10
bbb.txt:0
...
x.log:5
xx:0

2. remove without matched
$ grep -c xxx * | grep -v :0
1.txt:3
16G.txt:10
...
x.log:5

3. change ":" to tab "\t"
$ grep -c xxx * | grep -v :0 | sed 's/:/\t/'
1.txt       3
16G.txt       10
...
x.log       5

Note: column -t for good format

评分

参与人数 1	信誉积分 +5	收起理由
Windows19	+ 5

查看全部评分

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

songyc_2015

小富即安

论坛徽章:: 20

4楼 [报告]

发表于 2016-01-26 15:31 |只看该作者

回复 1# 响亮的名字

awk 'BEGIN{f="/tmp/sum.txt";print "文件名\t行数" > f}c&&d!=FILENAME{print d"\t"c > f;c=0}/xxx/{d=FILENAME;c++}END{print d"\t"c > f}' *.txt

复制代码

评分

参与人数 1	信誉积分 +5	收起理由
Windows19	+ 5

查看全部评分

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ydzcjj

家境小康

论坛徽章:: 12

5楼 [报告]

发表于 2016-01-26 15:40 |只看该作者

1. 是不是文件名中有中文呢因为windows的文件名中文编码默认为 GBK,而Linux中默认文件名编码为UTF8,而cygwin是unix系统所以都是utf8的
2.你是把ls得到的结果保存到list.txt  然后用while 循环相当于每一次都cat一个文件吧  你说cat的第一行是读取ls的第一个文件  cat第一个文件就是读取第一个文件的全部内容了  然后再grep筛选出 “啊啊啊” wc -l统计行数
是全部读完了再写入文件  因为你的 >../ok.txt摆在外面了
3.没存到文件时因为。。。。。你每次cat完就要放进去ok.txt里面。。。

cat ../list.txt|while read line
do
cat $line|grep -a '啊啊啊'|wc -l|sed "s/^/$line  /g"  >> ../ok.txt
done
这样行不？

评分

参与人数 1	信誉积分 +5	收起理由
Windows19	+ 5

查看全部评分

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

响亮的名字

白手起家

论坛徽章:: 0

6楼 [报告]

发表于 2016-01-26 15:48 |只看该作者

本帖最后由响亮的名字于 2016-01-26 15:52 编辑

回复 5# ydzcjj

路径的确是有中文，ls我单独处理了下，存入了list文件。
我后来自己重新写了下，发现搞定了，就是效率有点低

cd f:/hhhh
cat ../list.txt|while read line;do cat "$line"|grep '啊啊啊'|wc -l|sed "s/^/$line /g";done >../ok.txt