论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2007-02-10 20:42 |只看该作者 |倒序浏览

搜了两天，学了如http://bbs.chinaunix.net/viewthread.php?tid=771913之类的例子，但自己还是未做成功，还请大家帮忙，先道谢了！
有以下数据，要按第二列数据重复次数的多少将原文排序（从多到少），在第一列要含有2005至2007中任一个数才留下（但留下的重复项对应的列一为2004的行也不能删），每两组重复项间用空行或其他标志隔开，在每一行最后一列打上各重复项的重复次数；含有2005至2007中任一数但不重复的所有数据单独装入一个文件，不知说清楚没
2004 2526384401 300 1222
2004 2526384402 300 1222
2005 2526384401 300 1222
2004 2526384401 300 1222
2004 2526384403 300 1222
2004 2526384401 300 1222
2006 2526384401 300 1222
2004 2526384404 300 1222
2005 2526384408 300 1222
2004 2526384402 300 1222
2004 2526384408 300 1222
2006 2526384402 300 1222
2004 2526384403 300 1222
2007 2526384408 300 1222
2005 2526384407 300 1222
2006 2526384407 300 1222
2004 2526384404 300 1222
2004 2526384404 300 1222
2004 2526384407 300 1222
2004 2526384407 300 1222
2004 2526384408 300 1222
2007 2526384401 300 1222
2004 2526384404 300 1222
2004 2526384401 300 1222
2004 2526384408 300 1222
2004 2526384404 300 1222
2004 2526384408 300 1222
2007 2526384402 300 1222
2004 2526384405 300 1222
2007 2526384406 300 1222
2006 2526384406 300 1222

结果：

文件1
2004 2526384401 300 1222 7
2004 2526384401 300 1222 7
2004 2526384401 300 1222 7
2004 2526384401 300 1222 7
2005 2526384401 300 1222 7
2006 2526384401 300 1222 7
2007 2526384401 300 1222 7

2004 2526384408 300 1222 6
2004 2526384408 300 1222 6
2004 2526384408 300 1222 6
2004 2526384408 300 1222 6
2005 2526384408 300 1222 6
2007 2526384408 300 1222 6

2004 2526384402 300 1222 4
2004 2526384402 300 1222 4
2006 2526384402 300 1222 4
2007 2526384402 300 1222 4

2004 2526384407 300 1222 4
2004 2526384407 300 1222 4
2005 2526384407 300 1222 4
2006 2526384407 300 1222 4

文件2
2007 2526384406 300 1222
2006 2526384406 300 1222
不合条件的不要：
2004 2526384404 300 1222
2004 2526384404 300 1222
2004 2526384404 300 1222
2004 2526384404 300 1222
2004 2526384404 300 1222
2004 2526384403 300 1222
2004 2526384403 300 1222

文库|博客

轩静天

稍有积蓄

论坛徽章:: 0

2楼 [报告]

发表于 2007-02-10 22:20 |只看该作者

> list.txt
cat youfile | awk '{print $2}' | sort -u | while read line
do
cat youfile | grep $line | sort | uniq -c >> list.txt
echo " " >> list.txt
done

cat list.txt | grep -v "^2004" | awk '$5=="1" {print $1,$2,$3,$4}' > list_2006-7.txt

不知道是不是你想要的.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

grljt

家境小康

论坛徽章:: 0

3楼 [报告]

发表于 2007-02-10 22:59 |只看该作者

先谢谢，现在无法测试，测了再回

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Cion

白手起家

论坛徽章:: 0

4楼 [报告]

发表于 2007-02-11 09:12 |只看该作者

下面的脚本可以实现，但效率很低。

# 提取第二列的值
cat yourfile.txt|awk ' { print $2; } '|sort -u>sort2_u.list
# 统计每个值得出现次数，楼上用到的uniq -c应该是一个更好的方法
>count2.list
for value2 in `cat sort2_u.list`
do
awk -v value2=$values '
BEGIN{ icount = 0; }
{
if ( ~ value2 )
{
icount = icount + 1;
}
}
END{ printf( "%s %10d\n", value2, icount ); } ' >> count2.list
done
# 按照统计结果排序
cat count2.list | sort -nrk2,2>count2_sort.list
# 依据排序结果重新输出
for count2_value in `cat count2_sort.list`
do
awk /$count2_value/ yourfile.txt
done > accu_times_sort.txt

复制代码

[ 本帖最后由 Cion 于 2007-2-11 09:17 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

grljt

家境小康

论坛徽章:: 0

5楼 [报告]

发表于 2007-02-11 21:37 |只看该作者

谢谢你们的帮助

我先试了一下轩静天的，已成功，测试结果是
4 2004 2526384401 300 1222
1 2005 2526384401 300 1222
1 2006 2526384401 300 1222
1 2007 2526384401 300 1222

2 2004 2526384402 300 1222
1 2006 2526384402 300 1222
1 2007 2526384402 300 1222

2 2004 2526384403 300 1222

5 2004 2526384404 300 1222

1 2004 2526384405 300 1222

1 2006 2526384406 300 1222
1 2007 2526384406 300 1222

2 2004 2526384407 300 1222
1 2005 2526384407 300 1222
1 2006 2526384407 300 1222

4 2004 2526384408 300 1222
1 2005 2526384408 300 1222
1 2007 2526384408 300 1222
请轩静天再帮下忙，如下
4 2004 2526384401 300 1222
1 2005 2526384401 300 1222
1 2006 2526384401 300 1222
1 2007 2526384401 300 1222
其中重复4次的那一行不要省略只显一次，仍然要显示原有的重复明细如下,且重复次数为第二字段的次数即7次
7 2004 2526384401 300 1222
7 2004 2526384401 300 1222
7 2004 2526384401 300 1222
7 2004 2526384401 300 1222
7 2005 2526384401 300 1222
7 2006 2526384401 300 1222
7 2007 2526384401 300 1222
其他组也一样，谢谢

如果某一组重复数据的第一列不含2005-2007中任一数则删去不要，但不要以只含2004为筛选条件，因为数据可能有2003、2002之类的，如
2004 2526384404 300 1222
2004 2526384404 300 1222
2004 2526384404 300 1222
2004 2526384404 300 1222
2004 2526384404 300 1222
该组重复数据就不再需要

[ 本帖最后由 grljt 于 2007-2-11 23:05 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

grljt

家境小康

论坛徽章:: 0

6楼 [报告]

发表于 2007-02-11 22:30 |只看该作者

cat list.txt | grep -v "^2004" | awk '$5=="1" {print $1,$2,$3,$4}' > list_2006-7.txt 没达到所要效果，当第二列数据不重复且第一列是2005-2007任一数时装入新文件（原始数据有点错，最后一行应为2426384409）即生成文件如下：
2007 2526384406 300 1222
2006 2526384409 300 1222
请再指教

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

轩静天

稍有积蓄

论坛徽章:: 0

7楼 [报告]

发表于 2007-02-12 14:26 |只看该作者

cat list.txt | grep -v "^2004" | awk '$5=="1" {print $1,$2,$3,$4}' > list_2006-7.txt

位置记错了,应该是:

cat list.txt | awk '{print $2,$3,$4,$5,$1}' | grep -v "^2004" | awk '$5=="1" {print $1,$2,$3,$4}' > list_2006-7.txt

如果要实现你的那些统计结果,我个人建议你还是把数据入库,用SQL来处理要方便的多,用文本方式一是太麻烦,二是效率很低.

用文件的方法我大概弄了一个,你只要按你文件第二列建立一个序列处理就可以了
> list.txt
cat yourfile | awk '{print $2}' | sort | uniq -c | while read line
do
A=`echo $line | awk '{print $1}'`
B=`echo $line | awk '{print $2}'`

cat yourfile | grep $B | while read line_1
do
echo "$A $line_1" >> list.txt
done
echo " " >> list.txt
done

[ 本帖最后由轩静天于 2007-2-12 14:33 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

grljt

家境小康

论坛徽章:: 0

8楼 [报告]

发表于 2007-02-13 00:14 |只看该作者

非常感谢轩静天再次帮助，，看来该学学sql，本次测试结果
7 2004 2526384401 300 1222
7 2005 2526384401 300 1222
7 2004 2526384401 300 1222
7 2004 2526384401 300 1222
7 2006 2526384401 300 1222
7 2007 2526384401 300 1222
7 2004 2526384401 300 1222

4 2004 2526384402 300 1222
4 2004 2526384402 300 1222
4 2006 2526384402 300 1222
4 2007 2526384402 300 1222

2 2004 2526384403 300 1222
2 2004 2526384403 300 1222

5 2004 2526384404 300 1222
5 2004 2526384404 300 1222
5 2004 2526384404 300 1222
5 2004 2526384404 300 1222
5 2004 2526384404 300 1222

1 2004 2526384405 300 1222

2 2007 2526384406 300 1222
2 2006 2526384406 300 1222

4 2005 2526384407 300 1222
4 2006 2526384407 300 1222
4 2004 2526384407 300 1222
4 2004 2526384407 300 1222

6 2005 2526384408 300 1222
6 2004 2526384408 300 1222
6 2007 2526384408 300 1222
6 2004 2526384408 300 1222
6 2004 2526384408 300 1222
6 2004 2526384408 300 1222
未按重复次数排序，未去除不含2005-2007的数据，但已经好办多了，所需排序效果可再按上述结果的第一列大小排序，怎样删除第一列全是不含2005-2007的数据我再想想吧

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 程序设计 › Shell › 请教按重复次数排序

请教按重复次数排序 [复制链接]

谢谢你们的帮助

浏览过的版块