免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3391 | 回复: 14
打印 上一主题 下一主题

[文本处理] [正则表达式] sed 中的替换问题? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-08-16 11:14 |只看该作者 |倒序浏览
本帖最后由 peterdocter 于 2012-08-16 11:50 编辑

要处理格式:
<div class="example-sentences">
<h2>
<span>Examples of <em>SET</em>
</span>
</h2>

<div class="etymology">
<h2>
<span>Origin of <em>SET</em>
</span>
</h2>

<h2 class="def-header">
<span>Definition of <em>SET</em>
</span>
</h2>


<div class="synonyms-reference">
<h2>
<span>Related to <em>SET</em>
</span>
</h2>

想要替换结果:
<div class="example-sentences">
<h2>
<span>Examples:
</span>
</h2>

<div class="etymology">
<h2>
<span>Origin:
</span>
</h2>

<h2 class="def-header">
<span>Definition:
</span>
</h2>


<div class="synonyms-reference">
<h2>
<span>Related:
</span>
</h2>

注意:
必须在<h2></h2>[有时<h2 这时还有别的内容如:class="def-header">]
符合条件的
<span>Examples[这个是变化] of[有时是to] <em>SET[这个也是变化]</em>
</span>


论坛徽章:
0
2 [报告]
发表于 2012-08-16 11:23 |只看该作者
LZ你能否直接说你想实现的文本,要要求的,你这样我们不懂额

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
3 [报告]
发表于 2012-08-16 11:27 |只看该作者
把什么也替换了?

论坛徽章:
0
4 [报告]
发表于 2012-08-16 11:30 |只看该作者
回复 2# denifears

想要替换结果:
<div class="example-sentences">
<h2>
<span>Examples:
</span>
</h2>




<div class="etymology">
<h2>
<span>Origin:
</span>
</h2>




<h2 class="def-header">
<span>Definition:
</span>
</h2>








<div class="synonyms-reference">
<h2>
<span>Related:
</span>
</h2>
   

论坛徽章:
0
5 [报告]
发表于 2012-08-16 11:31 |只看该作者
回复 3# blackold

就是想要替换结果:
<div class="example-sentences">
<h2>
<span>Examples:
</span>
</h2>

<div class="etymology">
<h2>
<span>Origin:
</span>
</h2>

<h2 class="def-header">
<span>Definition:
</span>
</h2>


<div class="synonyms-reference">
<h2>
<span>Related:
</span>
</h2>

论坛徽章:
0
6 [报告]
发表于 2012-08-16 11:36 |只看该作者
本帖最后由 kk5234 于 2012-08-16 12:13 编辑
  1. sed -r '/h2/,/\/h2/s/(<span>\w+).*/\1:/' file
复制代码

论坛徽章:
0
7 [报告]
发表于 2012-08-16 11:44 |只看该作者
回复 6# kk5234

我说过必须在<h2></h2>符合条件的
<span>Examples[这个也是变化] of[有时是to] <em>SET[这个是变化]</em>
</span>

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
8 [报告]
发表于 2012-08-16 11:45 |只看该作者
本帖最后由 blackold 于 2012-08-16 11:46 编辑
  1. sed 's# of <em>SET</em>#:#'
复制代码

论坛徽章:
0
9 [报告]
发表于 2012-08-16 11:48 |只看该作者
回复 8# blackold

黑哥,我已经重新写要求了。
必要条件必须是<h2></h2>
   

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
10 [报告]
发表于 2012-08-16 12:00 |只看该作者
本帖最后由 blackold 于 2012-08-16 12:24 编辑

回复 9# peterdocter


    没有回头看。
  1. sed '/^<h2/{:n;N;/<\/h2>/!bn;s# *[a-zA-Z]* *<em>[^<>]*</em>#:#}' urfile
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP