免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: peterdocter
打印 上一主题 下一主题

[文本处理] [正则]可能要用awk才实现?[sed and awk完美解答] [复制链接]

论坛徽章:
0
21 [报告]
发表于 2013-09-23 14:01 |只看该作者
回复 20# blackold
黑哥还不行:
A效果还是有问题:
还有多余内容出来
" border='0'/><BR><span class='def'><span class='en'><a href="entry://a">a</a> <a href="entry://simple">simple</a> <a href="entry://house">house</a> <a href="entry://shaped">shaped</a> <a href="entry://like">like</a> <a href="entry://an">an</a> <a href="entry://a">A</a>, <a href="entry://with">with</a> <a href="entry://two">two</a> <a href="entry://of">of</a> <a href="entry://its">its</a> <a href="entry://four">four</a> <a href="entry://wall">walls</a> sloping <a href="entry://and">and</a> <a href="entry://meeting">meeting</a> <a href="entry://at">at</a> <a href="entry://the">the</a> <a href="entry://top">top</a> <a href="entry://to">to</a> <a href="entry://act">act</a> <a href="entry://as">as</a> <a href="entry://a">a</a> <a href="entry://roof">roof</a> <BR></span><span class='sc'>A 字形简易房屋<BR></span><span class='tc'>A 字形簡易房屋<BR></span></span>
</>

A效果就是
headword
*自添加
src="要而且带有base64所有值"

再组合成
A-frame*data:image/jpeg;base64, /9j/4AAQSkZJRgABAgEASABIAAD/...
现在明白了吧?

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
22 [报告]
发表于 2013-09-23 14:06 |只看该作者
回复 21# peterdocter


   try:
  1. LC_ALL=C sed ':n;/^</!{N;s/\n.*src="\([^"]*\)".*/*\1/;Tn}' base64.txt
复制代码
可能不是你需要的,根据你的要求稍作修改吧。

论坛徽章:
0
23 [报告]
发表于 2013-09-23 14:09 |只看该作者
回复 22# blackold
这就是我所需要,不过只是多一个</>可以直接删除!
再来一条不支持T,就更好了!多谢黑哥!

   

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
24 [报告]
发表于 2013-09-23 14:15 |只看该作者
回复 23# peterdocter


    try:
  1. LC_ALL=C sed ':n;/^</!{$!N;s/\n.*src="\([^"]*\)".*/*\1/;t;bn};d' base64.txt
复制代码
没有多余的。

论坛徽章:
0
25 [报告]
发表于 2013-09-23 14:35 |只看该作者
回复 24# blackold
利害!现在完美实现A效果!

   

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
26 [报告]
发表于 2013-09-23 14:39 |只看该作者
回复 25# peterdocter


    代码有点问题。

   如果不匹配 src="呢,就是没有 base64信息,则如何处理?输出还是不输出?

论坛徽章:
0
27 [报告]
发表于 2013-09-23 14:41 |只看该作者
回复 26# blackold
这个不存在!当然黑哥提到,就不输入处理又可以如何做了?

   

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
28 [报告]
发表于 2013-09-23 14:43 |只看该作者
回复 27# peterdocter
  1. LC_ALL=C sed ':n;/^</!{$d;N;s/\n.*src="\([^"]*\)".*/*\1/;t;bn};d' base64.txt
复制代码
如果不存在 base64信息,则不输出。原来的代码在这种情况下会进入死循环。

论坛徽章:
1
巳蛇
日期:2013-10-28 15:55:33
29 [报告]
发表于 2013-09-23 14:58 |只看该作者
回复 14# Shell_HAT


    我知道他是在做字典。我们都在一个词典分享论坛里,再看这个需求,就可以猜出来了。

论坛徽章:
0
30 [报告]
发表于 2013-09-23 15:55 |只看该作者
回复 15# Shell_HAT
这个还是有点问题,就是headword在原文没有了?希望再修改一下,多谢!

   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP