论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2008-04-01 15:19 |只看该作者 |倒序浏览

我重新说一下,下面的文件按第三第四第五域分开只是多要求增加每1000行分开
1001001       name1       1       3       60
1001002       name2       1       3       60
1001003       name3       1       3       60
1001004       name4       1       4       62
1002001       name5       2       3       62
1002002       name6       2       3       64
1002003       name7       2       3       64
1002004       name8       2       4       66
…..       …..       …       …       ..

比如分成
file1360
1001001       name1
1001002       name2
1001003       name3

file1462
1001004       name4

file2362
1002001       name5

file2364
1002002       name6
1002003       name7

file2466
1002004       name8

我的要求和前面的一个兄弟的按省分类的帖子相似,只是多要求增加每1000行分开
因为记录有几十万条
我用几个awk可以实现,能不能一条实现
######################################
问题已经解决了

原帖由 springwind426 于 2008-4-1 18:35 发表

awk '{
  a[$3,$4,$5]++
  file=sprintf("%d%d%d_%04d",$3,$4,$5,(a[$3,$4,$5]-1)/1000)
  print $1" "$2 > file
}' 数据文件

我的方法

awk '{b[$3,$4,$5]++
file=sprintf("tmp/file%d%d%d_%04d",$3,$4,$5,b[$3,$4,$5]-b[$3,$4,$5]%1000+1000)
a[file]=file
print $1,$2>file}
END{for( i in a)
print a[i]>"tmp/file.log"}' text.txt

复制代码

我自己弄成功了,而且打印了一个文件日志

[ 本帖最后由 liujuejun 于 2008-4-9 10:02 编辑 ]

文库|博客

nuclearxin

富足长乐

论坛徽章:: 0

2楼 [报告]

发表于 2008-04-01 15:26 |只看该作者

没读懂题的路过~

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

liujuejun

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2008-04-01 15:27 |只看该作者

回复 #1 liujuejun 的帖子

我重新说一下,下面的文件按第三第四第五域分开
1001001 name1 1 3 60
1001002 name2 1 3 60
1001003 name3 1 3 60
1001004 name4 1 4 62
1002001 name5 2 3 62
1002002 name6 2 3 64
1002003 name7 2 3 64
1002004 name8 2 4 66
….. ….. … … ..

比如分成
file1360
1001001 name1
1001002 name2
1001003 name3

file1462
1001004 name4

file2362
1002001 name5

file2364
1002002 name6
1002003 name7

file2466
1002004 name8

我的要求和前面的一个兄弟的按省分类的帖子相似,只是多要求增加每1000行分开
因为记录有几十万条
拜托了,我用几个awk可以实现,能不能一条实现

[ 本帖最后由 liujuejun 于 2008-4-1 15:37 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

nuclearxin

富足长乐

论坛徽章:: 0

4楼 [报告]

发表于 2008-04-01 15:41 |只看该作者

分开之后多出来的怎么命名?

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

liujuejun

白手起家

论坛徽章:: 0

5楼 [报告]

发表于 2008-04-01 15:43 |只看该作者

命名就按第3第4第5个字段来命名
比如
1001001 name1 1 3 60
就是file13601000.txt
file13602000.txt
...........
也可以
file1360_0001.txt
file1360_0002.txt
.......

[ 本帖最后由 liujuejun 于 2008-4-1 15:46 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

nuclearxin

富足长乐

论坛徽章:: 0

6楼 [报告]

发表于 2008-04-01 15:48 |只看该作者

awk 'a[$3--$4--$5]++;if(a[$3--$4--$5]>1000){b++;a[$3--$4--$5]=0};{print $1,$2 >"file"$3"-"$4"-"$5"-"b}
每1000行文件名字后面-递增标识
$3 $4 $5 联合起来可能混所以中间用了个-
没测试

[ 本帖最后由 nuclearxin 于 2008-4-1 15:50 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

寂寞烈火

家境小康

论坛徽章:: 1

7楼 [报告]

发表于 2008-04-01 15:52 |只看该作者

awk '{print $1,$2 >"file"$3$4$5}' ur-file

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

liujuejun

白手起家

论坛徽章:: 0

8楼 [报告]

发表于 2008-04-01 15:53 |只看该作者

原帖由 nuclearxin 于 2008-4-1 15:48 发表
awk 'a[$3--$4--$5]++;if(a[$3--$4--$5]>1000){b++;a[$3--$4--$5]=0};{print $1,$2 >"file"$3"-"$4"-"$5"-"b}
每1000行文件名字后面-递增标识
$3 $4 $5 联合起来可能混所以中间用了个-
没测试

我先测试下