论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2009-03-16 10:34 |只看该作者 |倒序浏览

有一个很大的文件（20G左右）

现在想把奇数行输入到一个文件里，偶数行输入到另一个文件里，怎么来操作？

同时，文件里面的某些行里有"\"，格式如下（之间以\t分割）：

1 34ed3 [])(8['\\\\\\\ 0 12 34

这样的数据如何导入到perl的数组里？借道问一下，这样的数据如何导入到mysql里面？

不胜感激：）

文库|博客

infernor

白手起家

论坛徽章:: 0

2楼 [报告]

发表于 2009-03-16 14:41 |只看该作者

perl -ne 'print if $.%2' large_file >file_a

perl -ne 'print unless $.%2' large_file >file_b

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

dream3401

丰衣足食

论坛徽章:: 0

3楼 [报告]

发表于 2009-03-16 14:42 |只看该作者

没有试过那大的文件，你可以试试：
perl -ne 'print if $. %2==1' file >odd
perl -ne 'print if $.%2==0' file >even
如果不行，是否可以先用split命令将文件变小，比如：
split -l5000 file
这样就有很多小的文件，然后再处理。

由于没有处理过大文件，以上供参考。

1 34ed3 [])(8['\\\\\\\ 0 12 34
这样的一行可以用
split/\s+/来分割成数组

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wanggd1983

白手起家

论坛徽章:: 0

4楼 [报告]

发表于 2009-03-16 15:27 |只看该作者

perl -ne 'print if $. %2==1' file >odd
perl -ne 'print if $.%2==0' file >even

这个需要把文件全部读到内存里吧？如果那样恐怕不行，内存不够大

还有，有没有循环一次读文件的两行的？：）

后面的那个可以，多谢多谢：）

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

DQP

富足长乐

论坛徽章:: 0

5楼 [报告]

发表于 2009-03-16 15:34 |只看该作者

原帖由 wanggd1983 于 2009-3-16 15:27 发表
perl -ne 'print if $. %2==1' file >odd
perl -ne 'print if $.%2==0' file >even

这个需要把文件全部读到内存里吧？如果那样恐怕不行，内存不够大

还有，有没有循环一次读文件的两行的？：）

后面 ...

这个是读一行处理一行
不会全读进去的

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

dream3401

丰衣足食

论坛徽章:: 0

6楼 [报告]

发表于 2009-03-16 15:36 |只看该作者

原帖由 wanggd1983 于 2009-3-16 15:27 发表
perl -ne 'print if $. %2==1' file >odd
perl -ne 'print if $.%2==0' file >even

这个需要把文件全部读到内存里吧？如果那样恐怕不行，内存不够大

还有，有没有循环一次读文件的两行的？：）

后面 ...

这个不会把文件全部读到内存中的，perl程序应该有个输入缓冲区，每次循环只处理一行，
你可以先实践一下呀，如果有什么问题，再把实践中出现的问题发到论坛上让大家帮你想办法，对不？

[ 本帖最后由 dream3401 于 2009-3-16 15:37 编辑 ]