12 / 2 页下一页

论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2013-01-28 18:00 |只看该作者 |倒序浏览

我要修改一个文件，这个文件内容是一长行（没有换行符），由固定长度的字符串组成（5万个左右）
比如：

111AAA$$222BBB%%%333CCC&&&&

复制代码

我需要把这个文件的格式改为：

111,AAA,$$
222,BBB,%%%%
333,CCC,&&&&

复制代码

我目前的思路是将文件先按段加上回车输出到新文件上
再用正则取出对应数据段
然后join加分隔符

请问我这种操作可否在源文件上直接修改？效率会比写入新文件高吗？

文库|博客

只是一个红薯

丰衣足食

论坛徽章:: 6

2楼 [报告]

发表于 2013-01-28 18:39 |只看该作者

lz的数据没什么规律吗？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

DexterL

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2013-01-28 21:41 |只看该作者

只有每段固定长度的约束回复 2# 只是一个红薯

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jiang870320

家境小康

论坛徽章:: 1

4楼 [报告]

发表于 2013-01-28 23:07 |只看该作者

本帖最后由 jiang870320 于 2013-01-28 23:08 编辑

use strict;
use warnings;
my $str='111AAA$$222BBB%%%333CCC&&&&';
my @arr=split /(?=\d{3})/,$str;
foreach my $num (0..$#arr){
my $string=$arr[$num];
$string=~/(\d{3})(\w{3})(.*)/;
my $result=join(",","$1","$2","$3");
print "$result\n";
}

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jiang870320

家境小康

论坛徽章:: 1

5楼 [报告]

发表于 2013-01-28 23:11 |只看该作者

楼主，看一下我的行不行。回复 1# DexterL

[root@bogon perl]# vim test_split1.pl
[root@bogon perl]# ./test_split1.pl
111,AAA,$$
222,BBB,%%%
333,CCC,&&&&

code：
#!/usr/bin/perl
use strict;
use warnings;
my $str='111AAA$$222BBB%%%333CCC&&&&';
my @arr=split /(?=\d{3})/,$str;
foreach my $num (0..$#arr){
#print "$arr[$num]\n";
my $string=$arr[$num];
$string=~/(\d{3})(\w{3})(.*)/;
#print "$1\n";
#print "$2\n";
#print "$3\n";
my $result=join(",","$1","$2","$3");
print "$result\n";
}

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

mcshell

富足长乐

论坛徽章:: 3

6楼 [报告]

发表于 2013-01-28 23:23 |只看该作者

回复 1# DexterL
我猜。。。。

#!/usr/bin/perl
use strict;
use warnings;
my $count;
my @arr;
my $str = '111AAA$222BBB%%%333CCC&&&&';
while($str =~ /((.)\2+)(?{$count++;})/g){
push @arr,$1;
print join(",",@arr),"\n" and undef @arr if($count % 3 ==0);
}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

rubyish

大富大贵

论坛徽章:: 7

7楼 [报告]

发表于 2013-01-29 02:00 |只看该作者

行不?

#!/usr/bin/perl
s/((.)\2+)((.)\4+)((.)\6+)/$1,$3,$5\n/g and print while <DATA>;
__DATA__
111AAA$222BBB%%%333CCC&&&&

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

只是一个红薯

丰衣足食

论坛徽章:: 6

8楼 [报告]

发表于 2013-01-29 09:47 |只看该作者

试了下，ls几位输出都不对啊， jiang870320 的代码在给定数据可行，lz说的“只有每段固定长度的约束”，数据格式不确定

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

DexterL

白手起家

论坛徽章:: 0

9楼 [报告]

发表于 2013-01-29 10:45 |只看该作者

回复 4# jiang870320

回复 6# mcshell

回复 7# rubyish

诸位的指导我都仔细看过了得到不少启发自叹基本功太差日后一定要重读小羊驼书
我觉得是我提问的方式太笼统了我在详细描述一遍我的需求吧
我有一行长数据，每个数据段的格式为：
8个数字6个数字40个任意字符（包含数字和空格）：
781010030004281哈哈567 78171001000105呵呵456
我想要得到的结果是