免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2071 | 回复: 3
打印 上一主题 下一主题

文件清洗,大神帮帮忙! [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-07-15 17:10 |只看该作者 |倒序浏览
文件类似这样
clientid=1009&metric=Economy&userid=oZrAXv8ILUA5303s0jk7LU4q3CeU&currency=3&kingdom=expenditure

想通过python 正则进行匹配 ,把相关字段的值进行重组  。

输出结果为

metric 的值\t userid的值\t clientid的值\t currency 的值\t kingdom 的值

Economy      oZrAXv8ILUA5303s0jk7LU4q3CeU       1009    3   expenditure

那个大神帮忙指教一下。

论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
2 [报告]
发表于 2015-07-15 17:58 |只看该作者
回复 1# hongjie7456
  1. import re
  2. a="clientid=1009&metric=Economy&userid=oZrAXv8ILUA5303s0jk7LU4q3CeU&currency=3&kingdom=expenditure"
  3. print re.search(r'clientid=([^&]*)&metric=([^&]*)&userid=([^&]*)&currency=([^&]*)&kingdom=([^&]*)', a).groups()

  4. $ python s.py
  5. ('1009', 'Economy', 'oZrAXv8ILUA5303s0jk7LU4q3CeU', '3', 'expenditure')
复制代码

求职 : 机器学习
论坛徽章:
79
2015年亚洲杯纪念徽章
日期:2015-05-06 19:18:572015七夕节徽章
日期:2015-08-21 11:06:172015亚冠之阿尔纳斯尔
日期:2015-09-07 09:30:232015亚冠之萨济拖拉机
日期:2015-10-21 08:26:3915-16赛季CBA联赛之浙江
日期:2015-12-30 09:59:1815-16赛季CBA联赛之浙江
日期:2016-01-10 12:35:21技术图书徽章
日期:2016-01-15 11:07:2015-16赛季CBA联赛之新疆
日期:2016-02-24 13:46:0215-16赛季CBA联赛之吉林
日期:2016-06-26 01:07:172015-2016NBA季后赛纪念章
日期:2016-06-28 17:44:45黑曼巴
日期:2016-06-28 17:44:4515-16赛季CBA联赛之浙江
日期:2017-07-18 13:41:54
3 [报告]
发表于 2015-07-15 18:11 |只看该作者
  1. echo "clientid=1009&metric=Economy&userid=oZrAXv8ILUA5303s0jk7LU4q3CeU&currency=3&kingdom=expenditure" | awk -vFS="[=&]" '{printf $4 "\t" $6 "\t" $2 "\t" $8 "\t" $10 "\n"}'
复制代码
  1. Economy oZrAXv8ILUA5303s0jk7LU4q3CeU    1009    3       expenditure
复制代码

论坛徽章:
26
2015亚冠之胡齐斯坦钢铁
日期:2015-06-25 21:40:202015亚冠之柏斯波利斯
日期:2015-08-31 17:03:192015亚冠之柏斯波利斯
日期:2015-11-07 13:10:00程序设计版块每日发帖之星
日期:2015-11-10 06:20:00每日论坛发贴之星
日期:2015-11-10 06:20:00程序设计版块每日发帖之星
日期:2015-11-26 06:20:00程序设计版块每日发帖之星
日期:2015-12-02 06:20:00黄金圣斗士
日期:2015-12-07 17:57:4615-16赛季CBA联赛之天津
日期:2015-12-23 18:34:14程序设计版块每日发帖之星
日期:2016-01-02 06:20:00程序设计版块每日发帖之星
日期:2016-01-06 06:20:00每日论坛发贴之星
日期:2016-01-06 06:20:00
4 [报告]
发表于 2015-07-15 18:47 |只看该作者
  1. #!/usr/bin/python2
  2. # coding: utf-8

  3. line = 'clientid=1009&metric=Economy&userid=oZrAXv8ILUA5303s0jk7LU4q3CeU&currency=3&kingdom=expenditure'


  4. # 相关字段 有序

  5. order = (1, 2, 0, 3, 4)
  6. field = [i.split('=')[1] for i in line.split('&')]
  7. print "\t".join(field[i] for i in order)

  8. # 相关字段  无序

  9. order = ('metric', 'userid', 'clientid', 'currency', 'kingdom')
  10. field = dict(i.split('=') for i in line.split('&'))
  11. print "\t".join(field[i] for i in order)

  12. # 其实还有其他的方式。总而言之,就是TMTOWTDI。
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP