论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2019-01-03 19:03 |只看该作者 |倒序浏览

求助大神，统计多个文件关键字出现的次数，请大神指教如何实现，内容如下：
file1
洲,国,省,市,a
亚洲,中国,宁夏,银川,fsaf
亚洲,中国,辽宁,沈阳,gag
亚洲,中国,河北,石家庄,sgag
亚洲,中国,陕西,西安,eyy
亚洲,中国,陕西,西安,xv

file2
洲,国,省,市,b
亚洲,中国,辽宁,沈阳,xcv
亚洲,中国,宁夏,银川,kryh
亚洲,中国,陕西,西安,la
亚洲,中国,河南,郑州,pwej

file3
洲,国,省,市,c
亚洲,中国,陕西,西安,wow
亚洲,中国,河北,石家庄,cfg
亚洲,中国,甘肃,兰州,cnf
亚洲,中国,陕西,西安,aaww

统计想要的结果
洲,国,省,市,file1,file2,file3
亚洲,中国,宁夏,银川,1,1,0
亚洲,中国,辽宁,沈阳,1,1,0
亚洲,中国,河北,石家庄,1,0,1
亚洲,中国,陕西,西安,2,1,2
亚洲,中国,河南,郑州,0,1,0
亚洲,中国,甘肃,兰州,0,0,1

文库|博客

csccyab

小富即安

论坛徽章:: 0

2楼 [报告]

发表于 2019-01-09 16:09 |只看该作者

本帖最后由 csccyab 于 2019-01-09 16:13 编辑

$ awk -F',' 'FNR>1{a[$1,$2,$3,$4]} FILENAME==ARGV[1]&&FNR>1{a1[$1,$2,$3,$4]++} FILENAME==ARGV[2]&&FNR>1{a2[$1,$2,$3,$4]++} FILENAME==ARGV[3]&&FNR>1{a3[$1,$2,$3,$4]++}END{for (i in a) {split(i,b,SUBSEP); printf "%s,%s,%s,%s,%d,%d,%d\n",b[1],b[2],b[3],b[4],a1,a2,a3}} ' file1 file2 file3
亚洲,中国,河北,石家庄,1,0,1
亚洲,中国,陕西,西安,2,1,2
亚洲,中国,宁夏,银川,1,1,0
亚洲,中国,甘肃,兰州,0,0,1
亚洲,中国,河南,郑州,0,1,0
亚洲,中国,辽宁,沈阳,1,1,0

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

CDX0923

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2019-01-10 11:09 |只看该作者

回复 2# csccyab

这个我执行之后报错 awk: cmd. line:1: (FILENAME=file3 FNR=5) fatal: attempt to use array `a1' in a scalar context

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

CDX0923

白手起家

论坛徽章:: 0

4楼 [报告]

发表于 2019-01-10 11:09 |只看该作者

回复 2# csccyab

这个我执行之后报错 awk: cmd. line:1: (FILENAME=file3 FNR=5) fatal: attempt to use array `a1' in a scalar context

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

CDX0923

白手起家

论坛徽章:: 0

5楼 [报告]

发表于 2019-01-10 11:10 |只看该作者

本帖最后由 CDX0923 于 2019-01-10 11:12 编辑

回复 2# csccyab

论坛报错就多出现了几条回复

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

csccyab

小富即安

论坛徽章:: 0

6楼 [报告]

发表于 2019-01-10 14:01 |只看该作者

This should be correct:

awk -F',' 'FNR>1{a[$1,$2,$3,$4]} FILENAME==ARGV[1]&&FNR>1{a1[$1,$2,$3,$4]++} FILENAME==ARGV[2]&&FNR>1{a2[$1,$2,$3,$4]++} FILENAME==ARGV[3]&&FNR>1{a3[$1,$2,$3,$4]++}END{for (i in a) {split(i,b,SUBSEP); printf "%s,%s,%s,%s,%d,%d,%d\n",b[1],b[2],b[3],b[4],a1[i],a2[i],a3[i]}} ' file1 file2 file3

评分

参与人数 1	信誉积分 +5	收起理由
CDX0923	+ 5	很给力! 如果是几十个文件的话，这个写法有.

查看全部评分

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

CDX0923

白手起家

论坛徽章:: 0

7楼 [报告]

发表于 2019-01-10 17:29 |只看该作者

csccyab 发表于 2019-01-10 14:01
This should be correct:awk -F',' 'FNR>1{a[$1,$2,$3,$4]} FILENAME==ARGV[1]&&FNR>1{a1[$1,$2,$3,$4]++} ...

可以了，谢谢大神

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

CDX0923

白手起家

论坛徽章:: 0

8楼 [报告]

发表于 2019-01-11 10:27 |只看该作者

回复 6# csccyab

如果是几十个文件的话这个有优化的写法吗

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

csccyab

小富即安

论坛徽章:: 0

9楼 [报告]

发表于 2019-01-11 17:16 |只看该作者

本帖最后由 csccyab 于 2019-01-24 20:59 编辑

Python 版本

$ cat 3.py
import collections, sys, re

filecount=0
dict1 = collections.defaultdict(list)

for file1 in sys.argv[1:]:
filecount+=1
f = open(file1, "r")
linecount=1
for line in f:
   if linecount>1:
      p = re.search("^(.+),.+", line.strip())
      if p:
         dict1[p.group(1)].append(filecount)
   linecount+=1

for the_key, the_value in dict1.iteritems():
count=''
sys.stdout.write(the_key + ',')
c = collections.Counter(the_value)
for i in range(1,filecount+1):
   if count:
      count = count + "," + str(c)
   else:
      count = str(c)
print(count)

$ python 3.py file1 file2 file3
亚洲,中国,辽宁,沈阳,1,1,0
亚洲,中国,陕西,西安,2,1,2
亚洲,中国,甘肃,兰州,0,0,1
亚洲,中国,河南,郑州,0,1,0
亚洲,中国,宁夏,银川,1,1,0
亚洲,中国,河北,石家庄,1,0,1

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

csccyab

小富即安

论坛徽章:: 0

10楼 [报告]

发表于 2019-01-24 15:06 |只看该作者

#include <stdio.h>
#include <stdlib.h>
#include <regex.h>
#include <string.h>
struct LinkedList {
int* count;
char* data;
struct LinkedList *next;
};
typedef struct LinkedList *node;
int main(int argc, char *argv[]) {
int i;
FILE *f;
char line[30];
const char* pattern = "(.+),.+";
node head = NULL;
int linecount;
char firstline[30];
regex_t preg;
regmatch_t pmatch[50];
regcomp(&preg, pattern, REG_EXTENDED);
for (i=1; i<argc; i++) {
f = fopen(argv, "r");
linecount = 0;
if (f == NULL){
printf("Can't open file %s", argv);
exit(1);
}
int r=0;
while (fscanf(f, "%s", line) == 1) {
linecount++;
if (linecount > 1) {
if (!regexec(&preg, line, 3, pmatch, 0)) {
if (head == NULL){
head = (node)malloc(sizeof(struct LinkedList));
head->data = malloc(50);
head->next = NULL;
strncpy(head->data, line + pmatch[1].rm_so, pmatch[1].rm_eo - pmatch[1].rm_so);
head->count = (int*)calloc(argc-1, sizeof(int));
head->count[i-1]++;
} else {
node temp, p;
p = head;
temp = (node)malloc(sizeof(struct LinkedList));
temp->data = malloc(50);
temp->next = NULL;
temp->count = (int*)calloc(argc-1, sizeof(int));
temp->count[i-1] = 1;
strncpy(temp->data, line + pmatch[1].rm_so, pmatch[1].rm_eo - pmatch[1].rm_so);
while(1){
int res = strcmp(temp->data, p->data);
if (res==0) {
p->count[i-1]++;
break;
} else {
if (p->next == NULL) {
p->next = temp;
break;
}
}
p = p->next;
}
}
}
} else {
regexec(&preg, line, 3, pmatch, 0);
strncpy(firstline, line + pmatch[1].rm_so, pmatch[1].rm_eo - pmatch[1].rm_so);
}
}
fclose(f);
}
node ptr = head;
printf("%s", firstline);
for (i=1; i<argc; i++)
printf(",%s", argv);
printf("\n");
while (ptr != NULL){
printf("%s", ptr->data);
int j;
for (j=0; j<argc-1; j++)
printf(",%d", ptr->count[j]);
printf("\n");
ptr = ptr->next;
}
}

复制代码

$ ./ll 1.txt 2.txt 3.txt
洲,国,省,市,1.txt,2.txt,3.txt
亚洲,中国,宁夏,银川,1,1,0
亚洲,中国,辽宁,沈阳,1,1,0
亚洲,中国,河北,石家庄,1,0,1
亚洲,中国,陕西,西安,2,1,2
亚洲,中国,河南,郑州,0,1,0
亚洲,中国,甘肃,兰州,0,0,1

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Shell › 求助大神，多文本统计

[文本处理] 求助大神，多文本统计 [复制链接]

评分