免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: mcwolf2000
打印 上一主题 下一主题

[文本处理] 快过节了,来点技术小红包,awk/sed程序方面 [复制链接]

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
31 [报告]
发表于 2017-01-16 23:39 |只看该作者
本帖最后由 sunzhiguolu 于 2017-01-16 23:51 编辑

在 Windows 环境下执行了下,实际用时 69418.971 毫秒。 (测试文件 29楼)
测试文件行数:16000016, 大小约为:717MB 左右。

评分

参与人数 1信誉积分 +20 收起 理由
mcwolf2000 + 20 能汇总一下厕所结果吗,含环境说明

查看全部评分

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
32 [报告]
发表于 2017-01-17 11:41 |只看该作者
回复 1# mcwolf2000
测试文件 - 度娘直达
perl 脚本 - 度娘直达

至于脚本的效能,还请楼主亲自测试喽。(活动不错,楼主加油)

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
33 [报告]
发表于 2017-01-17 12:01 |只看该作者
本帖最后由 sunzhiguolu 于 2017-01-17 12:05 编辑
说明:
1.这里每个ID代表一行开始,字段有params和Status两大类(需考虑某行没有出现某个字段的情况,用null代替),字段的分割有点间接(每个字段及其值是用:来分割,字段间是换行来分割,但个别字段DownTime的值中也有空格(这种字段"一般"占据一行),一般来说处理的时候是大小写不敏感

个人看法,数据文件规范化可以在很大程度上提高文本处理的准确性以及处理的速度。另外,我感觉楼主对 perl 语言的看法有些极端了点,perl 像 awk 一样非常适合处理文本。
而且凭借强大的正则 对于处理简单或复杂的匹配规则来说 都能满足。

如果条件允许,楼主可以邀请一些论坛中比较厉害的角儿参与活动。毕竟语言是死的,处理的准确性及效能的高低 完全取决于编写代码的人的水平。(perl & awk 都能写出非常高效的代码)

Jason680,perl & awk 料大神要不您老人家来一个?

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
34 [报告]
发表于 2017-01-17 12:27 |只看该作者
本帖最后由 jason680 于 2017-01-17 12:31 编辑

回复 33# sunzhiguolu

又被点中...(只回这帖)...
1. 此文本非"帖",楼主本无"问"...
  楼主是招聘...,本来就没有"问题"要问

2. 本帖之要求,反而有问题
  >>同事提出实际使用中....

故到此为止

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
35 [报告]
发表于 2017-01-17 12:55 |只看该作者
回复 34# jason680
哦,谢大神提醒。。。

论坛徽章:
0
36 [报告]
发表于 2017-01-17 14:11 |只看该作者
既然所谓大神都跳出来了,不解释两句对参加讨论的朋友们不好交代:
1. 上CU论坛越来越少了,一是近期较少关注技术实现问题;二是习惯用为知笔记的导出博客功能不支持CU博客。结果想发个东西居然找了半天账号,我主要用的是17楼那个greenet账户http://blog.chinaunix.net/dir.php?uid=20535506,这个mcwolf2000账户好像是当时(2007年)帮朋友刚开的公司招人用了几次,可能这是误认为招人帖的原因之一吧。
2.  “本帖之要求,反而有问题  >>同事提出实际使用中....”,这句话含义太多,恕不能准确理解。本主题开头第一句就说这是要当做一个实习生项目题目,做过技术管理的应该理解实习生项目选题并不容易,一般都是拿暂时不在核心产品线中的觉得有必要或者客户提出的一些不是很急的要求进行包装形成,也不会花时间自己做一遍后再让徒弟们对着做一遍。如果仅仅是“有问题”的问题,有必要这样一直跟进吗。
3. 作为一直在产品研发待着的老码农,啰嗦几句。在我职业生涯中,在各种项目中会遇到各种人,其中有一种人是戒备心理比较强,对什么合作都是首先保证自己利益不受损失(对方的不在其思考范围),对这类人除非天资太高(CU虽然藏龙卧虎,但到这个级别还是没几个),否则只会合作一次。
4. sunzhiguolu 挺有意思。开始不停追问一些我觉得都过于较真,后来回想起来反映了自己已经太少关注实现细节,在细节处理的严谨性下降了,感谢sunzhiguolu的坚持不懈,这是优秀开发人员的重要素质。

我自己理解CU论坛是码农们学习提高的地方,只要能对自己提高有所裨益就可以支持,实在不愿支持也没人要人强迫,没有必要装什么洞悉世事的大神。抱歉说的过于夸张,打**也是为了调剂生活。

论坛徽章:
0
37 [报告]
发表于 2017-01-17 14:12 |只看该作者
既然所谓大神都跳出来了,不解释两句对参加讨论的朋友们不好交代:
1. 上CU论坛越来越少了,一是近期较少关注技术实现问题;二是习惯用为知笔记的导出博客功能不支持CU博客。结果想发个东西居然找了半天账号,我主要用的是17楼那个greenet账户http://blog.chinaunix.net/dir.php?uid=20535506,这个mcwolf2000账户好像是当时(2007年)帮朋友刚开的公司招人用了几次,可能这是误认为招人帖的原因之一吧。
2.  “本帖之要求,反而有问题  >>同事提出实际使用中....”,这句话含义太多,恕不能准确理解。本主题开头第一句就说这是要当做一个实习生项目题目,做过技术管理的应该理解实习生项目选题并不容易,一般都是拿暂时不在核心产品线中的觉得有必要或者客户提出的一些不是很急的要求进行包装形成,也不会花时间自己做一遍后再让徒弟们对着做一遍。如果仅仅是“有问题”的问题,有必要这样一直跟进吗。
3. 作为一直在产品研发待着的老码农,啰嗦几句。在我职业生涯中,在各种项目中会遇到各种人,其中有一种人是戒备心理比较强,对什么合作都是首先保证自己利益不受损失(对方的不在其思考范围),对这类人除非天资太高(CU虽然藏龙卧虎,但到这个级别还是没几个),否则只会合作一次。
4. sunzhiguolu 挺有意思。开始不停追问一些我觉得都过于较真,后来回想起来反映了自己已经太少关注实现细节,在细节上的严谨性下降了,感谢sunzhiguolu的坚持不懈,这是优秀开发人员的重要素质。

我自己理解CU论坛是码农们学习提高的地方,只要能对自己提高有所裨益就可以支持,实在不愿支持也没人要人强迫,没有必要装什么洞悉世事的大神,抱歉说的过于夸张,不过打**也是调剂下生活。

论坛徽章:
0
38 [报告]
发表于 2017-01-17 14:14 |只看该作者
本帖最后由 mcwolf2000 于 2017-01-18 08:34 编辑

====================================
2008年底的时候,我和朋友探讨过一阵powershell,好像是2.0了,试用了一下,写了篇《PowerShell初探》,http://blog.chinaunix.net/uid-20535506-id-1931615.html有时间子再测试下新的Powershell 5,看看是不是*友*友*友所说的神器。难道我对powershell的认识小结需要修订了吗。
====================================

论坛徽章:
0
39 [报告]
发表于 2017-01-17 14:53 |只看该作者
既然所谓大神都跳出来了,不解释两句对参加讨论的朋友们不好交代:
1. 上CU论坛越来越少了,一是近期较少关注技术实现问题;二是习惯用为知笔记的导出博客功能不支持CU博客。结果想发个东西居然找了半天账号,我主要用的是17楼那个greenet账户http://blog.chinaunix.net/dir.php?uid=20535506,这个mcwolf2000账户好像是当时(2007年)帮朋友刚开的公司招人用了几次,可能这是误认为招人帖的原因之一吧。
2.  “本帖之要求,反而有问题  >>同事提出实际使用中....”,这句话含义太多,恕不能准确理解。本主题开头第一句就说这是要当做一个实习生项目题目,做过技术管理的应该理解实习生项目选题并不容易,一般都是拿暂时不在核心产品线中的觉得有必要或者客户提出的一些不是很急的要求进行包装形成,也不会花时间自己做一遍后再让徒弟们对着做一遍。如果仅仅是“有问题”的问题,有必要这样一直跟进吗。
3. 作为一直在产品研发待着的老码农,啰嗦几句。在我职业生涯中,在各种项目中会遇到各种人,其中有一种人是戒备心理比较强,对什么合作都是首先保证自己利益不受损失(对方的不在其思考范围),对这类人除非天资太高(CU虽然藏龙卧虎,但到这个级别还是没几个),否则只会合作一次。
4. sunzhiguolu 挺有意思。开始不停追问一些我觉得都过于较真,后来回想起来反映了自己已经太少关注实现细节,在细节上的严谨性下降了,感谢sunzhiguolu的坚持不懈,这是优秀开发人员的重要素质。

我自己理解CU论坛是码农们学习提高的地方,只要能对自己提高有所裨益就可以支持,实在不愿支持也没人要人强迫,没有必要装什么洞悉世事的大神,抱歉说的过于夸张,不过打**也是调剂下生活。

论坛徽章:
0
40 [报告]
发表于 2017-01-17 16:35 |只看该作者
回复 33# sunzhiguolu
没有说perl不善于处理文本啊,只是说你的解决方式里面正则模式匹配用的不多。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP