免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1713 | 回复: 6
打印 上一主题 下一主题

[文本处理] 这种文本在shell里替换内容该如何做? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-01-27 17:05 |只看该作者 |倒序浏览
本帖最后由 xylcxyfc 于 2015-01-27 17:17 编辑

大家好!

现需要每天用shell自动处理某文件夹内上百个数据文件,其主要内容是把数据文件内的 不与逗号、行首、行尾相连的单个双引号替换为两个双引号 ,在shell里面怎么做啊。

文本内容摘抄一行举例:
"03501001 ",181884,"2013-07-05","",0,"Yan Lin "Anita" Lis, tuition fees","(JW)      "

为了不影响复制,还是在下面上颜色吧,这段文本中只需要把
"03501001 ",181884,"2013-07-05","",0,"Yan Lin "Anita" Lis, tuition fees","(JW)      "
其中标注红色的两个双引号分别替换为两个双引号就可以了,变成这样:
"03501001 ",181884,"2013-07-05","",0,"Yan Lin ""Anita"" Lis, tuition fees","(JW)      "

实际上在notepad++里面我已经把perl的正则写出来了:
(?<!^)(?<!,)"(?!,)(?!$)
替换为
""

但是在shell环境下只有grep自带兼容perl的命令(主要为了零宽查找),但是grep不能做替换啊

其实这些数据是为了向sqlldr导数的,源数据因为值含有奇数个引号会导致导数错误,但是该死的供数部门不肯改输出结构,不然简单多了。

先谢谢大家了!

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
2 [报告]
发表于 2015-01-27 17:16 |只看该作者
回复 1# xylcxyfc


直接用 perl 啊!

论坛徽章:
0
3 [报告]
发表于 2015-01-27 17:18 |只看该作者
本帖最后由 xylcxyfc 于 2015-01-27 17:18 编辑

回复 2# ly5066113


    汗,我不会用,上网找了半天感觉要另外写脚本?有直接的命令吗?

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
4 [报告]
发表于 2015-01-27 17:20 |只看该作者
回复 3# xylcxyfc
  1. perl -pe 's/(?<!^)(?<!,)"(?!,)(?!$)/""/g' file
复制代码

论坛徽章:
0
5 [报告]
发表于 2015-01-27 17:23 |只看该作者
回复 4# ly5066113


    谢谢你!我先研究下

论坛徽章:
28
2015年迎新春徽章
日期:2015-03-04 10:16:53午马
日期:2015-03-20 17:11:07亥猪
日期:2015-03-20 17:11:23戌狗
日期:2015-03-20 17:11:33酉鸡
日期:2015-03-20 17:11:47申猴
日期:2015-03-20 17:11:58未羊
日期:2015-03-20 17:12:10子鼠
日期:2015-03-20 17:12:23丑牛
日期:2015-03-20 17:12:40卯兔
日期:2015-03-20 17:12:51辰龙
日期:2015-03-20 17:13:00巳蛇
日期:2015-03-20 17:13:12
6 [报告]
发表于 2015-01-27 18:05 |只看该作者
回复 1# xylcxyfc

sed -i 's/"/""/g;s/^""\|""$/"/g;s/"",/",/g;s/,""/,"/g' testfile
这个貌似可以,但是应该有更简单的方法..
   

论坛徽章:
0
7 [报告]
发表于 2015-01-29 16:23 |只看该作者
回复 6# 我是一隻羊


  谢谢,原来这样也可以,之前是思维被困住了,非要用perl。
  不过这样做要进行三次替换,效率应该比perl直接改的低些吧
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP