免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1593 | 回复: 7
打印 上一主题 下一主题

[文本处理] 文本处理 [复制链接]

论坛徽章:
2
辰龙
日期:2013-09-24 12:26:05卯兔
日期:2013-09-24 12:27:37
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-07-10 19:54 |只看该作者 |倒序浏览
有下面的文件格式

XX-6, XX-7, XX-8,  XX-9,ZZ-211,
                                XX-10, XX-11, XX-23, XX-24,
                                XX-25, XX-26, XX-28, XX-29,
                                XX-30, XX-31, XX-32, XX-33,
                                XX-34, XX-35, XX-36, XX-37,
                                XX-38, XX-39, XX-40, XX-41,
                                XX-42, XX-44, XX-45, XX-46,
                                XX-47, XX-48, XX-49, XX-50,
                                XX-51, XX-64, XX-65, XX-68,
                                XX-69

                        YY_04559, YY_04560, YY_0511, YY_0621,
                                YY_0622, YY_0623, YY_0682, YY_0920,
                                

想把每一个Item (如XX-6  YY_04559 都是一个item)写到单独的一行,j结果如下:

XX-6
XX-7
.
.
.
YY_2711

求指点

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
2 [报告]
发表于 2013-07-10 20:24 |只看该作者
  1. sed 's/, /\n/g' urfile
复制代码

论坛徽章:
2
辰龙
日期:2013-09-24 12:26:05卯兔
日期:2013-09-24 12:27:37
3 [报告]
发表于 2013-07-10 20:45 |只看该作者
while read line
do
        echo $line |awk -F","  'BEGIN {OFS="\n"}{print $1,$2,$3,$4,$5}' >> temp
done <  filename

论坛徽章:
2
辰龙
日期:2013-09-24 12:26:05卯兔
日期:2013-09-24 12:27:37
4 [报告]
发表于 2013-07-10 20:52 |只看该作者
谢谢了

论坛徽章:
6
摩羯座
日期:2013-08-24 10:43:10狮子座
日期:2013-08-25 10:27:06天秤座
日期:2013-09-11 20:28:44午马
日期:2014-09-28 16:06:0015-16赛季CBA联赛之八一
日期:2016-12-19 13:55:0515-16赛季CBA联赛之天津
日期:2016-12-20 14:01:23
5 [报告]
发表于 2013-07-10 21:02 |只看该作者
  1. tr ',' '\n' <file | tr -d ' ' | tr -s '\n'
复制代码

论坛徽章:
0
6 [报告]
发表于 2013-07-11 15:23 |只看该作者
  1. >>> for l in open('urfile'):
  2. ...     l = l.strip().split(',')
  3. ...     for i in l:
  4. ...         print i.strip()
  5. ...
  6. XX-6
  7. XX-7
  8. XX-8
  9. XX-9
  10. ZZ-211

  11. XX-10
  12. XX-11
  13. XX-23
  14. XX-24

  15. XX-25
  16. XX-26
  17. .......
复制代码

论坛徽章:
13
丑牛
日期:2013-08-16 15:08:22技术图书徽章
日期:2013-11-26 10:13:40双鱼座
日期:2013-11-08 15:03:26戌狗
日期:2013-11-08 13:52:30技术图书徽章
日期:2013-11-05 14:06:30戌狗
日期:2013-10-31 11:45:42CU十二周年纪念徽章
日期:2013-10-24 15:41:34天秤座
日期:2013-10-11 14:55:08子鼠
日期:2013-09-26 19:36:35水瓶座
日期:2013-09-26 17:44:56午马
日期:2013-08-26 10:24:23丑牛
日期:2013-08-19 14:43:22
7 [报告]
发表于 2013-07-11 17:56 |只看该作者
  1. awk -vRS='[, \t]+' -vORS="\n" '1'
复制代码

论坛徽章:
13
丑牛
日期:2013-08-16 15:08:22技术图书徽章
日期:2013-11-26 10:13:40双鱼座
日期:2013-11-08 15:03:26戌狗
日期:2013-11-08 13:52:30技术图书徽章
日期:2013-11-05 14:06:30戌狗
日期:2013-10-31 11:45:42CU十二周年纪念徽章
日期:2013-10-24 15:41:34天秤座
日期:2013-10-11 14:55:08子鼠
日期:2013-09-26 19:36:35水瓶座
日期:2013-09-26 17:44:56午马
日期:2013-08-26 10:24:23丑牛
日期:2013-08-19 14:43:22
8 [报告]
发表于 2013-07-11 18:26 |只看该作者
  1. >>> import re
  2. >>> for i in open('test.txt'):                    
  3. ...     print re.sub('[, ]+','\n',i.strip(' ,\n'))
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP