免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1874 | 回复: 8
打印 上一主题 下一主题

[文本处理] 截取字符串的问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-04-01 10:11 |只看该作者 |倒序浏览
During my childhood, think lucky money and new clothes are necessary for New Year, but as the advance of the age, will be more and more found that those things are optional; Junior high school, thought to have a crush on just means that the real growth, but over the past three years later, his writing of alumni in peace, suddenly found that isn't really grow up, it seems is not so important; Then in high school, think don't want to give vent to out your inner voice can be in the high school children of the feelings in a period, but was eventually infarction when graduation party in the throat, later again stood on the pitch he has sweat profusely, looked at his thrown a basketball hoops, suddenly found himself has already can't remember his appearance.

我想截取New Year到后面第一个and之间的内容,即这一段,该怎么做啊,然后判断这段内容里是否有but字符串。
求教。

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
2 [报告]
发表于 2014-04-01 10:24 |只看该作者
  1. [root@localhost ~]# grep -Po 'New Year.*?and' i
  2. New Year, but as the advance of the age, will be more and
  3. [root@localhost ~]# grep -Po 'New Year.*?and' i | grep 'but'
  4. New Year, but as the advance of the age, will be more and
  5. [root@localhost ~]#
复制代码

论坛徽章:
0
3 [报告]
发表于 2014-04-01 11:05 |只看该作者
i是文件?另外问下   文件中有很多段落,这样也成立吗。

论坛徽章:
0
4 [报告]
发表于 2014-04-01 11:06 |只看该作者
New Year和第一个and可能在两段中。

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
5 [报告]
发表于 2014-04-01 11:21 |只看该作者
回复 3# niccn20

没错,i就是输入文件,你的意思是两个关键字可能不在同一行的情况也要匹配?
   

论坛徽章:
0
6 [报告]
发表于 2014-04-01 11:29 |只看该作者
对啊 就这意思 。其实简单点说就是一个文件里有很多行。
1 我想判断文件里有A和B字符串,并且A和B之间有C字符串。
2 文件里有A和C字符串就行。

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
7 [报告]
发表于 2014-04-01 13:16 |只看该作者
回复 6# niccn20

在age后加了换行的文件测试如下:
  1. [seesea@UC ~]$ sed -rn '1h; 1!H; $!b; g; s/.*(New Year.*and).*/\1/; p' file
  2. New Year, but as the advance of the age,
  3. will be more and
复制代码

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
8 [报告]
发表于 2014-04-01 13:18 |只看该作者
回复 7# seesea2517

这个输出是否有but这个单词的判断结果:
  1. [seesea@UC ~]$ sed -rn '1h; 1!H; $!b; g; s/.*(New Year.*and).*/\1/; /but/{s/.*/Have but/p; b}; s/.*/No but/p;' file
  2. Have but
复制代码

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
9 [报告]
发表于 2014-04-01 13:23 |只看该作者
回复 4# niccn20

awk 这个不担心有几次出现都可以匹配出来:
  1. [seesea@UC ~]$ awk 'BEGIN {RS="New Year.*and"} {print RT}' file
  2. New Year, but as the advance of the age,
  3. will be more and
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP