免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
1234下一页
最近访问板块 发新帖
查看: 4561 | 回复: 32
打印 上一主题 下一主题

[文本处理] 求助大神一个文本处理问题 [复制链接]

论坛徽章:
1
2015年迎新春徽章
日期:2015-03-04 10:01:44
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-02-26 17:13 |只看该作者 |倒序浏览
本帖最后由 黑王子的白马 于 2015-03-02 10:11 编辑

酱紫的,

文件tt内容是这样的:

a1 1/2 332 55 66
bb 99 888 666 55
a2 22 8/7 553 11
a3 11 3/5 66 777
bb 2/3 666 333 553
bb 333 4/5 222 11
c1 555 2/3 88 32
d3 4/5 222 111 999

现在需要
1,文本中找到开头是bb的行
2,找到第二列或者第三列有"/"的字符串
3,在全文本中将2中找到的字符串将"/"去掉

除了开头是bb的行里出现过的带'/'的关键字符需要全局替换,其他的不换

语言不限,实在csh不行,perl也可以

不甚感激!!

==========================================
非常感谢各位大神的帮助,是我描述的不清楚,结果不是简单的将bb开头的 第二列或第三列中的"/"去掉,是需要把全文中将刚找到的重复关键词全部替换掉
处理完的结果需要是酱紫的

原文本
a1 1/2 332 55 66
bb 99 888 666 55
a2 22 8/7 553 11
a3 11 3/5 66 777
bb a/b 666 333 553
bb 333 c/d 222 11
c1 555 a/b 88 32
d3 c/d 222 111 999

处理成
a1 1/2 332 55 66
bb 99 888 666 55
a2 22 8/7 553 11
a3 11 3/5 66 777
bb ab 666 333 553
bb 333 cd 222 11
c1 555 ab 88 32
d3 cd 222 111 999

##############################################################


20150302 非常感谢楼里的各位大神的不吝赐教,两天没来发现又有了好几种解决办法,
但是由于我们的系统问题要么是版本问题各种awk各种循环什么的都不太好使,要么报错要么运行不对关键是我不会改啊
最后放弃了csh,同事帮做了perl,
有相同类似问题的筒子们,可以进楼里找答案,或者学习类似问题的解决方法,

再次深深的感谢楼里出现过的各位大神,人民群众感激你们啊 ^_^

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
2 [报告]
发表于 2015-02-26 17:17 |只看该作者
根据顶楼的数据,你希望得到的完整结果发出来看看。

论坛徽章:
28
2015年迎新春徽章
日期:2015-03-04 10:16:53午马
日期:2015-03-20 17:11:07亥猪
日期:2015-03-20 17:11:23戌狗
日期:2015-03-20 17:11:33酉鸡
日期:2015-03-20 17:11:47申猴
日期:2015-03-20 17:11:58未羊
日期:2015-03-20 17:12:10子鼠
日期:2015-03-20 17:12:23丑牛
日期:2015-03-20 17:12:40卯兔
日期:2015-03-20 17:12:51辰龙
日期:2015-03-20 17:13:00巳蛇
日期:2015-03-20 17:13:12
3 [报告]
发表于 2015-02-26 17:22 |只看该作者
awk '$1 ~ /bb/{gsub("/","",$2)}1' inputfile
这样?

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
4 [报告]
发表于 2015-02-26 17:34 |只看该作者
回复 1# 黑王子的白马


目测:
  1. awk '/^bb/{gsub("/","")}1' file
复制代码

论坛徽章:
11
CU十二周年纪念徽章
日期:2013-10-24 15:41:342015年辞旧岁徽章
日期:2015-03-03 16:54:15丑牛
日期:2015-01-14 10:36:40技术图书徽章
日期:2015-01-12 15:46:11白羊座
日期:2014-11-14 09:35:36狮子座
日期:2014-10-30 13:18:49巳蛇
日期:2014-10-11 12:52:08子鼠
日期:2014-09-28 14:11:06双鱼座
日期:2014-04-22 13:05:48午马
日期:2014-02-11 17:58:002015年迎新春徽章
日期:2015-03-04 09:55:28
5 [报告]
发表于 2015-02-26 17:38 |只看该作者
楼主是不是只需要替换bb里面出现的/,全部替换掉,其他的不是bb的,都不替换?

如果是的,那就这样

sed -i '/bb/s/\///g' youfile

论坛徽章:
5
未羊
日期:2014-08-04 16:15:21天秤座
日期:2014-08-13 13:52:372015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:56:112015亚冠之浦和红钻
日期:2015-06-29 15:30:48
6 [报告]
发表于 2015-02-26 18:05 |只看该作者
  1. sed '/^[^b][^b]/s/\///g'
复制代码
小学语文不扎实“除了开头是bb的行里出现过的带'/'的关键字符需要全局替换,其他的不换”
对于这种否定+否定的理解只能达到这种程度了

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
7 [报告]
发表于 2015-02-26 19:22 |只看该作者
回复 1# 黑王子的白马

$ perl -lape '{if(m/^bb /){$F[1]=~s|/||g;$F[2]=~s|/||g}$_=join(" ",@F)}' tt
a1 1/2 332 55 66
bb 99 888 666 55
a2 22 8/7 553 11
a3 11 3/5 66 777
bb 23 666 333 553
bb 333 54 222 11
c1 555 2/3 88 32
d3 5/4 222 111 999

$ awk '$1=="bb"{gsub("/","",$2);gsub("/","",$3)}1' tt
a1 1/2 332 55 66
bb 99 888 666 55
a2 22 8/7 553 11
a3 11 3/5 66 777
bb 23 666 333 553
bb 333 54 222 11
c1 555 2/3 88 32
d3 5/4 222 111 999

   

论坛徽章:
1
2015年迎新春徽章
日期:2015-03-04 09:56:11
8 [报告]
发表于 2015-02-26 19:30 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
1
2015年迎新春徽章
日期:2015-03-04 10:01:44
9 [报告]
发表于 2015-02-27 09:03 |只看该作者
回复 2# Shell_HAT


需要把这样的原文本
a1 1/2 332 55 66
bb 99 888 666 55
a2 22 8/7 553 11
a3 11 3/5 66 777
bb a/b 666 333 553
bb 333 c/d 222 11
c1 555 a/b 88 32
d3 c/d 222 111 999

处理成
a1 1/2 332 55 66
bb 99 888 666 55
a2 22 8/7 553 11
a3 11 3/5 66 777
bb ab 666 333 553
bb 333 cd 222 11
c1 555 ab 88 32
d3 cd 222 111 999

论坛徽章:
1
2015年迎新春徽章
日期:2015-03-04 10:01:44
10 [报告]
发表于 2015-02-27 09:05 |只看该作者
谢谢楼上的各位大神了

我把希望得到的结果也贴出来了,不知道这样能不能准确描述我想要的处理结果。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP