1 2 345 6 7 / 7 页下一页

字符串排序 [复制链接]

sunzhiguolu

巨富豪门

论坛徽章:: 307

31楼 [报告]

发表于 2017-06-21 19:30 |只看该作者

回复 29# Windows19
我主要是也想看看
在 Perl 版，难题面前谁能轻松应对。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Windows19

富足长乐

论坛徽章:: 22

32楼 [报告]

发表于 2017-06-21 19:47 |只看该作者

精确匹配字母串

sdfmslfmkwo340ifmks'/.'we.fds'.f'ws.fwf/'\./\sjfhiuesrtewtfrhfkjsyf/'\\/\

精确匹数字符串
/'\;.;''\.\. \/'.\.''\3156855556887945655564\';\.;\'./\

不是模湖匹配

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Windows19

富足长乐

论坛徽章:: 22

33楼 [报告]

发表于 2017-06-21 20:16 |只看该作者

回复 30# 523066680

执行脚本后，行数少了3分1
估计同时统计字母串，数字串会引起冲突
就写统计字母串排序算了

如果想统计数字串排序，提供一个可以改成数字串排序就行了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

sunzhiguolu

巨富豪门

论坛徽章:: 307

34楼 [报告]

发表于 2017-06-21 20:35 |只看该作者

回复 33# Windows19
将你的文件具有代表性的内容贴出一小部分。
方便进行测试，也方便后面大神解答。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

523066680

富足长乐

论坛徽章:: 12

35楼 [报告]

发表于 2017-06-21 20:51 |只看该作者

本帖最后由 523066680 于 2017-06-21 20:57 编辑

对于精确匹配的部分，

这里有多个部分，应该分别统计，还是以最长的一段为代表？
sdfmslfmkwo340ifmks'/.'we.fds'.f'ws.fwf/'\./\sjfhiuesrtewtfrhfkjsyf/'\\/\

-
如果数字串和字母串统计排列后，都存在一个文件中，数字串和字母串
应该按出现的次数统一排列？
abc  (100次（省略细节
123  (99次
def (50次
456  (20次

还是分字母串和数字串，分类排列？
abc  (100次
def (50次
-
123  (99次
456  (20次

-
丢失1/3，是比原来的A.txt 小了一块吗？也许是有很多只有数字的行被排除了。我只考虑了含有字母的行。

评分

参与人数 1	信誉积分 +10	收起理由
Windows19	+ 10	赞一个! 思路清晰了

查看全部评分

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Windows19

富足长乐

论坛徽章:: 22

36楼 [报告]

发表于 2017-06-21 21:00 |只看该作者

本帖最后由 Windows19 于 2017-06-21 21:09 编辑

回复 35# 523066680

1 应该分别统计对的

2 应该按出现的次数统一排列对的
abc  (100次（省略细节
123  (99次
def (50次
456  (20次

这样理解对的

3 我检查后真的有很多只有数字的行被排除了

还有符号行都被排除了
所以少了3/1

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Windows19

富足长乐

论坛徽章:: 22

37楼 [报告]

发表于 2017-06-21 21:03 |只看该作者

本帖最后由 Windows19 于 2017-06-21 21:07 编辑

回复 30# 523066680

另外我测试发现如果行中1个字母都没有竞然是不会输出所以和原文件行数不对原因所以少了3/1

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

523066680

富足长乐

论坛徽章:: 12

38楼 [报告]

发表于 2017-06-21 21:23 |只看该作者

sunzhiguolu 发表于 2017-06-21 18:41
回复 16# 523066680
大神的功力果然是非同凡响，我是小白。
有几个问题向大神请教，还请帮忙指点，谢谢。 ...

这个模块 IO::Handle 是为了开启自动刷新缓冲区，也就是为了使用：
STDOUT->autoflush(1);

有些Perl终端，在print 的时候输出顺序和预想的不一样，比如我 for (1..3) { print $_,"\n" }，有可能输出显示是
3
1
2
开了自动刷新缓冲就没这个问题

ANALYSE_AND_EXPORT:
{
...
}

这个 ANALYSE_AND_EXPORT: 和 { } 可以去掉，只留下中间代码部分一样可以运行。
我只是不想代码看起来一大坨，用{ } 将代码分段括起来，再加上一个标签让其看起来像个函数。

ANALYSE_AND_EXPORT: 是个标签，可以通过 goto 跳转的那种。