免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 4319 | 回复: 10

[文本处理] 如何正则提取字符串 [复制链接]

论坛徽章:
0
发表于 2013-01-29 16:45 |显示全部楼层
<span>aaa</span>bbbb<span>ccc</span>

我想要提取<span>*</span>包含的数据,例如aaa,ccc等
我该如何做?

论坛徽章:
0
发表于 2013-01-29 16:51 |显示全部楼层
本帖最后由 V_客 于 2013-01-29 16:56 编辑

  看花眼

论坛徽章:
5
技术图书徽章
日期:2014-04-18 08:52:38午马
日期:2014-04-30 13:28:11摩羯座
日期:2014-11-07 13:34:122015年亚洲杯之日本
日期:2015-03-12 14:01:4915-16赛季CBA联赛之北京
日期:2017-06-28 17:25:56
发表于 2013-01-29 16:51 |显示全部楼层
  1. echo '<span>aaa</span>bbbb<span>ccc</span>' | grep -oP  '(?<=<span>)[^<]*'
复制代码

论坛徽章:
0
发表于 2013-01-29 16:52 |显示全部楼层
本帖最后由 V_客 于 2013-01-29 16:58 编辑

delete              

论坛徽章:
71
15-16赛季CBA联赛之同曦
日期:2018-08-23 15:41:42辰龙
日期:2014-08-15 09:07:43狮子座
日期:2014-06-03 13:55:33亥猪
日期:2014-06-02 11:17:08巨蟹座
日期:2014-05-06 10:02:03午马
日期:2014-05-04 08:18:27亥猪
日期:2014-04-29 11:11:32技术图书徽章
日期:2014-04-24 15:51:26技术图书徽章
日期:2014-04-17 11:01:53辰龙
日期:2014-04-15 12:45:46亥猪
日期:2014-04-11 09:06:23射手座
日期:2014-04-01 15:28:10
发表于 2013-01-29 17:25 |显示全部楼层
echo "<span>aaa</span>bbbb<span>ccc</span>"|sed "s/<span>/ /g;s/<\/span>/ /g"
aaa bbbb ccc

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
发表于 2013-01-29 17:30 |显示全部楼层
本帖最后由 yestreenstars 于 2013-01-29 17:41 编辑
  1. awk 'BEGIN{FS="</span>";RS="<span>"}NF{print $1}'
复制代码

论坛徽章:
2
射手座
日期:2014-10-10 15:59:4715-16赛季CBA联赛之上海
日期:2016-03-03 10:27:14
发表于 2013-01-29 17:39 |显示全部楼层
echo '<span>aaa</span>bbbb<span>ccc</span>' |awk -vRS='<[^>]+>' 'NF'
aaa
bbbb
ccc

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
发表于 2013-01-29 17:43 |显示全部楼层
@zhaopingzi@yinyuemi两位你们都看错了,他只要aaa和ccc。

论坛徽章:
2
射手座
日期:2014-10-10 15:59:4715-16赛季CBA联赛之上海
日期:2016-03-03 10:27:14
发表于 2013-01-29 17:47 |显示全部楼层
回复 8# yestreenstars


谢谢啊~
也许这样可以   awk -vRS='<[^>]+>' 'NF&&!(NR%2)'

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
发表于 2013-01-29 17:54 |显示全部楼层
回复 9# yinyuemi


    我想你忽略了一个条件:他只要提取<span></span>中的内容。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP