免费注册 查看新帖 |

Chinaunix

广告
  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 2734 | 回复: 10
打印 上一主题 下一主题

请教一个sed的使用问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-06-10 17:18 |只看该作者 |倒序浏览
目前有TXT文件如下:
1111 2222 3333 4444
需要用脚本预知处理为xml方式
<a>1111</a>
<b>2222</b>
<c>3333</c>
<d>4444</d>

我在ultraedit中用正则替换成功
(\d+)\s+(\d+)\s+(\d+)\s+(\d+)---》<a>$1</a><b>$2</b><c>$3</c><d>$4</d>

但是想在脚本中实现
使用sed来做
sed 's/(\d+)\s+(\d+)\s+(\d+)\s+(\d+)/<a>$1<\/a><b>$2<\/b><c> $3<\/c><d>$4<\/d>/g' 1.txt > 1.xml

没有成功 对sed的使用不熟悉 找了些资料 也没法实现 哪位朋友能指点一下

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
2 [报告]
发表于 2008-06-10 17:27 |只看该作者
awk '{for(i=1;i<=NF;i++) printf "<%c>%s</%c>\n" ,96+i,$i,96+i}' 1.txt > 1.xml

论坛徽章:
0
3 [报告]
发表于 2008-06-10 20:23 |只看该作者
谢谢楼上的
但是能否稍微解释一下 因为我可能还需要一些细微的修改

论坛徽章:
0
4 [报告]
发表于 2008-06-10 20:42 |只看该作者

  1. sed 's/\([^ ]*\) \+\([^ ]*\) \+\([^ ]*\) \+\([^ ]*\)/<a>\1<\/a>\n<b>\2<\/b>\n<c>\3<\/c>\n<d>\4<\/d>/'
复制代码


注:要求各个字段之间是用空格分隔

论坛徽章:
0
5 [报告]
发表于 2008-06-10 20:48 |只看该作者
(\d+)\s+(\d+)\s+(\d+)\s+(\d+)---》<a>$1</a><b>$2</b><c>$3</c><d>$4</d>

这个是perl的正则表达式,用sed修改的话
()需要修改成\( \)
\d表示数值,可以用[0-9]来替换
+ 需要用\+ 来替换
\s 表示空白符,在sed中用[[:blank:]]来表示
在sed中,\1表示第一个匹配的,\2表示第二个匹配的,\3...依次类推
因此,把你的表达式用sed来替换就是

  1. sed 's/\([0-9]\+\)[[:blank:]]\+\([0-9]\+\)[[:blank:]]\+\([0-9]\+\)[[:blank:]]\+\([0-9]\+\)/<a>\1<\/a><b>\2<\/b><c> \3<\/c><d>\4<\/d>/g' 1.txt > 1.xml
复制代码

[ 本帖最后由 springwind426 于 2008-6-10 20:49 编辑 ]

论坛徽章:
0
6 [报告]
发表于 2008-06-10 21:00 |只看该作者
十分感谢楼上的授渔
不知sed使用正则的各种规定有没有哪个文档说的比较详细

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
7 [报告]
发表于 2008-06-10 21:08 |只看该作者

回复 #6 mrsg 的帖子

在shell版搜索“正则表达式”,有好几个帖子相当不错。

论坛徽章:
0
8 [报告]
发表于 2008-06-10 22:18 |只看该作者
原帖由 springwind426 于 2008-6-10 20:48 发表
(\d+)\s+(\d+)\s+(\d+)\s+(\d+)---》$1$2$3$4

这个是perl的正则表达式,用sed修改的话
()需要修改成\( \)
\d表示数值,可以用[0-9]来替换
+ 需要用\+ 来替换
\s 表示空白符,在sed中用[[:blank:]]来表示 ...


我测试了你提供的这个语句 但是依然没有成功啊。。
转换出来的1.xml 和1.txt是一模一样的

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
9 [报告]
发表于 2008-06-10 22:37 |只看该作者
原帖由 ly5066113 于 2008-6-10 17:27 发表
awk '{for(i=1;i

NB~~~

论坛徽章:
0
10 [报告]
发表于 2008-06-10 22:45 |只看该作者
原帖由 mrsg 于 2008-6-10 17:18 发表
目前有TXT文件如下:
1111 2222 3333 4444
需要用脚本预知处理为xml方式
1111
2222
3333
4444

我在ultraedit中用正则替换成功
(\d+)\s+(\d+)\s+(\d+)\s+(\d+)---》$1$2$3$4

但是想在脚本中实现
使 ...


我的例子举得有点不清楚 只举了一行的例子
当存在两行的时候
1111 2222 3333 4444
1111 2222 3333 4444
格式出来的文本应该是这样的
<data>
<a>1111</a>
<b>2222</b>
<c>3333</c>
<d>4444</d>
</data>
<data>
<a>1111</a>
<b>2222</b>
<c>3333</c>
<d>4444</d>
</data>

而不是
<a>1111</a>
<b>2222</b>
<c>3333</c>
<d>4444</d>
<a>1111</a>
<b>2222</b>
<c>3333</c>
<d>4444</d>
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP