忘记密码   免费注册 查看新帖 | 论坛精华区

ChinaUnix.net

  平台 论坛 博客 认证专区 大话IT HPC论坛 徽章 文库 沙龙 自测 下载 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
最近访问板块 发新帖
楼主: Windows19

字符串排序 [复制链接]

论坛徽章:
10
子鼠
日期:2014-10-11 16:46:482016科比退役纪念章
日期:2017-09-02 15:42:4715-16赛季CBA联赛之佛山
日期:2017-08-28 17:11:5515-16赛季CBA联赛之浙江
日期:2017-08-24 16:55:1715-16赛季CBA联赛之青岛
日期:2017-08-17 19:55:2415-16赛季CBA联赛之天津
日期:2017-06-29 10:34:4315-16赛季CBA联赛之四川
日期:2017-05-16 16:38:55黑曼巴
日期:2016-07-19 15:03:112015亚冠之萨济拖拉机
日期:2015-05-22 11:38:5315-16赛季CBA联赛之山东
日期:2017-11-10 14:32:14
发表于 2017-06-21 18:44 |显示全部楼层
本帖最后由 523066680 于 2017-06-21 18:45 编辑

呼,我都忘了Windows保存的文件名不分大小写……

写的急促了,有点bug,再改改。

论坛徽章:
22
2015年亚洲杯之科威特
日期:2015-04-18 15:27:07每日论坛发贴之星
日期:2016-01-27 06:20:0015-16赛季CBA联赛之广夏
日期:2016-03-28 16:20:51程序设计版块每日发帖之星
日期:2016-04-09 06:20:00CU十四周年纪念徽章
日期:2016-05-03 09:35:1415-16赛季CBA联赛之天津
日期:2016-11-18 08:31:3115-16赛季CBA联赛之山西
日期:2016-12-07 16:29:5315-16赛季CBA联赛之八一
日期:2017-01-10 11:34:3415-16赛季CBA联赛之吉林
日期:2017-03-30 22:51:1915-16赛季CBA联赛之广夏
日期:2017-04-13 20:51:52程序设计版块每日发帖之星
日期:2016-01-27 06:20:00每日论坛发贴之星
日期:2015-12-28 06:20:00
发表于 2017-06-21 18:50 |显示全部楼层
回复 14# 523066680
谢谢
测试确实能搞动超大文件  而且效率超快
但产生有几个问题

不同文件测试, 有时候行数会少  但有时候行数会多1倍  (不知道原因了)

在统计字母串上不太准确  排序结果不对  (要精确匹配字母串,要分大小写)


如果能同时统计字母串 数字串 排序 那实在太好了

谢谢老师帮忙再改进

论坛徽章:
10
子鼠
日期:2014-10-11 16:46:482016科比退役纪念章
日期:2017-09-02 15:42:4715-16赛季CBA联赛之佛山
日期:2017-08-28 17:11:5515-16赛季CBA联赛之浙江
日期:2017-08-24 16:55:1715-16赛季CBA联赛之青岛
日期:2017-08-17 19:55:2415-16赛季CBA联赛之天津
日期:2017-06-29 10:34:4315-16赛季CBA联赛之四川
日期:2017-05-16 16:38:55黑曼巴
日期:2016-07-19 15:03:112015亚冠之萨济拖拉机
日期:2015-05-22 11:38:5315-16赛季CBA联赛之山东
日期:2017-11-10 14:32:14
发表于 2017-06-21 18:56 |显示全部楼层
回复 22# Windows19

数字是不是要另外导出一个文件的?

论坛徽章:
22
2015年亚洲杯之科威特
日期:2015-04-18 15:27:07每日论坛发贴之星
日期:2016-01-27 06:20:0015-16赛季CBA联赛之广夏
日期:2016-03-28 16:20:51程序设计版块每日发帖之星
日期:2016-04-09 06:20:00CU十四周年纪念徽章
日期:2016-05-03 09:35:1415-16赛季CBA联赛之天津
日期:2016-11-18 08:31:3115-16赛季CBA联赛之山西
日期:2016-12-07 16:29:5315-16赛季CBA联赛之八一
日期:2017-01-10 11:34:3415-16赛季CBA联赛之吉林
日期:2017-03-30 22:51:1915-16赛季CBA联赛之广夏
日期:2017-04-13 20:51:52程序设计版块每日发帖之星
日期:2016-01-27 06:20:00每日论坛发贴之星
日期:2015-12-28 06:20:00
发表于 2017-06-21 18:57 |显示全部楼层
回复 21# 523066680
谢谢老师

改好继续打赏

论坛徽章:
22
2015年亚洲杯之科威特
日期:2015-04-18 15:27:07每日论坛发贴之星
日期:2016-01-27 06:20:0015-16赛季CBA联赛之广夏
日期:2016-03-28 16:20:51程序设计版块每日发帖之星
日期:2016-04-09 06:20:00CU十四周年纪念徽章
日期:2016-05-03 09:35:1415-16赛季CBA联赛之天津
日期:2016-11-18 08:31:3115-16赛季CBA联赛之山西
日期:2016-12-07 16:29:5315-16赛季CBA联赛之八一
日期:2017-01-10 11:34:3415-16赛季CBA联赛之吉林
日期:2017-03-30 22:51:1915-16赛季CBA联赛之广夏
日期:2017-04-13 20:51:52程序设计版块每日发帖之星
日期:2016-01-27 06:20:00每日论坛发贴之星
日期:2015-12-28 06:20:00
发表于 2017-06-21 18:59 |显示全部楼层
回复 23# 523066680

全部一个文件就行  精确匹配字母串  数字串后     从多到小排序

论坛徽章:
10
子鼠
日期:2014-10-11 16:46:482016科比退役纪念章
日期:2017-09-02 15:42:4715-16赛季CBA联赛之佛山
日期:2017-08-28 17:11:5515-16赛季CBA联赛之浙江
日期:2017-08-24 16:55:1715-16赛季CBA联赛之青岛
日期:2017-08-17 19:55:2415-16赛季CBA联赛之天津
日期:2017-06-29 10:34:4315-16赛季CBA联赛之四川
日期:2017-05-16 16:38:55黑曼巴
日期:2016-07-19 15:03:112015亚冠之萨济拖拉机
日期:2015-05-22 11:38:5315-16赛季CBA联赛之山东
日期:2017-11-10 14:32:14
发表于 2017-06-21 19:03 |显示全部楼层
回复 25# Windows19

问题是,如果放一个文件,比如
1abcdef

1算一个,a算一个
结果中不就得放两次了么?

论坛徽章:
22
2015年亚洲杯之科威特
日期:2015-04-18 15:27:07每日论坛发贴之星
日期:2016-01-27 06:20:0015-16赛季CBA联赛之广夏
日期:2016-03-28 16:20:51程序设计版块每日发帖之星
日期:2016-04-09 06:20:00CU十四周年纪念徽章
日期:2016-05-03 09:35:1415-16赛季CBA联赛之天津
日期:2016-11-18 08:31:3115-16赛季CBA联赛之山西
日期:2016-12-07 16:29:5315-16赛季CBA联赛之八一
日期:2017-01-10 11:34:3415-16赛季CBA联赛之吉林
日期:2017-03-30 22:51:1915-16赛季CBA联赛之广夏
日期:2017-04-13 20:51:52程序设计版块每日发帖之星
日期:2016-01-27 06:20:00每日论坛发贴之星
日期:2015-12-28 06:20:00
发表于 2017-06-21 19:13 |显示全部楼层
回复 26# 523066680



像1abcdef


如果1出现333次abcdef又出现333次

会放2次
确实这种情况 好像不太好解决
但是应该有办法能决吧?

不急  慢慢想到办法再解决也行






论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
发表于 2017-06-21 19:18 |显示全部楼层
本帖最后由 sunzhiguolu 于 2017-06-21 19:19 编辑

回复 22# Windows19
每次看到你发帖,其实我都有点小激动。
但是,我一般都不太爱回复你的帖子内容,除非内容相对简单一些。

原因为何? 不知道你搞哪方面工作的,你的问题总感觉是将问题先抛砖引玉一下,随着回帖 将你的问题真正展开后 发现每个问题都是 玫瑰带刺 啊!
本人不才,没有那个水平。还是那句话,能将你的问题 成功解决 并保持 相对的效率 的话 一定是大牛

论坛徽章:
22
2015年亚洲杯之科威特
日期:2015-04-18 15:27:07每日论坛发贴之星
日期:2016-01-27 06:20:0015-16赛季CBA联赛之广夏
日期:2016-03-28 16:20:51程序设计版块每日发帖之星
日期:2016-04-09 06:20:00CU十四周年纪念徽章
日期:2016-05-03 09:35:1415-16赛季CBA联赛之天津
日期:2016-11-18 08:31:3115-16赛季CBA联赛之山西
日期:2016-12-07 16:29:5315-16赛季CBA联赛之八一
日期:2017-01-10 11:34:3415-16赛季CBA联赛之吉林
日期:2017-03-30 22:51:1915-16赛季CBA联赛之广夏
日期:2017-04-13 20:51:52程序设计版块每日发帖之星
日期:2016-01-27 06:20:00每日论坛发贴之星
日期:2015-12-28 06:20:00
发表于 2017-06-21 19:19 |显示全部楼层
回复 28# sunzhiguolu

谢谢老师指引

论坛徽章:
10
子鼠
日期:2014-10-11 16:46:482016科比退役纪念章
日期:2017-09-02 15:42:4715-16赛季CBA联赛之佛山
日期:2017-08-28 17:11:5515-16赛季CBA联赛之浙江
日期:2017-08-24 16:55:1715-16赛季CBA联赛之青岛
日期:2017-08-17 19:55:2415-16赛季CBA联赛之天津
日期:2017-06-29 10:34:4315-16赛季CBA联赛之四川
日期:2017-05-16 16:38:55黑曼巴
日期:2016-07-19 15:03:112015亚冠之萨济拖拉机
日期:2015-05-22 11:38:5315-16赛季CBA联赛之山东
日期:2017-11-10 14:32:14
发表于 2017-06-21 19:23 |显示全部楼层
更新,先处理a-zA-Z

  1. =info
  2.     Code by 523066680
  3.     2017-06 V2.0

  4.     Bug1 忘了windows文件名不分大小写,"Ta.txt" == "TA.txt",改为用ASCII码
  5.     Bug2 数值排序,而不是字符串排序 -- 例如:"9" 应小于 "21"
  6. =cut

  7. #!/usr/bin/perl
  8. use strict;
  9. use IO::Handle;
  10. STDOUT->autoflush(1);

  11. our $SRC = "A.txt";
  12. our $DST = "Final.txt";
  13. our %letter;
  14. our @group = map { ord($_) } ('a'..'z', 'A'..'Z');
  15. our $wd = "./tempfolder";
  16. mkdir $wd if (not -e $wd);

  17. ANALYSE_AND_EXPORT:
  18. {
  19.     my %FH;

  20.     #提前准备多个文件句柄
  21.     grep { open $FH{$_}, ">:raw", "$wd/T${_}.txt" or die "$!" } @group;

  22.     open READ, "<:raw", $SRC or die "$!";
  23.     while ( my $line = <READ> )
  24.     {
  25.         next if ( $line=~/^\r?\n$/ );

  26.         if ($line=~/([a-zA-Z])/)
  27.         {
  28.             $letter{$1} = 0 if ( not exists $letter{$1} );
  29.             $letter{$1}++;

  30.             select $FH{ord($1)};
  31.             print $line;
  32.         }
  33.     }

  34.     #清理所有文件句柄
  35.     grep { close $FH{$_} } @group;
  36.     close READ;

  37.     select STDOUT;
  38. }

  39. COLLECT_DATA:
  40. {
  41.     my $RESULT;
  42.     my $TempFH;
  43.     open $RESULT, ">:raw", $DST or die "$!";

  44.     #按出现的次数排列出优先顺序
  45.     my @rank = sort_byValue(\%letter);

  46.     for my $name ( @rank )
  47.     {
  48.         print "Reading F$name.txt ... \n";
  49.         open $TempFH, "<:raw", "$wd/T$name.txt" or die "$!";
  50.         while (my $line = <$TempFH>)
  51.         {   
  52.             print $RESULT $line;
  53.         }
  54.         close $TempFH;
  55.     }

  56.     print "Please check $DST\n";
  57. }

  58. sub sort_byValue
  59. {
  60.     my $ref = shift;
  61.     my @arr;

  62.     #不知道有没有绕弯路 =_=
  63.     @arr = reverse sort { "$a,$b," =~/-(\d+),.*-(\d+),/;  $1 <=> $2 }
  64.                     map {  $_ ."-". $ref->{$_} } keys %$ref;

  65.     my ($char, $times);
  66.     for (@arr)
  67.     {
  68.         ($char, $times) = split("-", $_);
  69.         print "char: $char, times: $times\n";
  70.     }

  71.     return ( map { /,(.)$/; $_ = ord($_) } @arr );
  72. }

复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号 北京市公安局海淀分局网监中心备案编号:11010802020122
广播电视节目制作经营许可证(京) 字第1234号 中国互联网协会会员  联系我们:
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP