免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1770 | 回复: 5

sed 替换问题 [复制链接]

论坛徽章:
0
发表于 2010-02-26 16:46 |显示全部楼层
大家好!就直接说了。

环境:
bash-3.00$ echo $LANG
zh_CN.GBK
bash-3.00$
bash-3.00$ uname -a
SunOS e20kb1 5.10 Generic_138888-03 sun4u sparc SUNW,Sun-Fire-15000
bash-3.00$

目的:将file.txt文件中分隔符'|'替换成','。
问题:用sed替换后,请看【替换后】,【纪晓岚4-和珅受贿】变成【纪晓岚4-和?受贿】,用vi打开变成【纪晓岚4-和\253,受贿】,
由于要用‘,‘做分隔符导入数据库,这样就会出现问题了,请达人帮忙下。用tr在这个机器上会将中文弄丢失。

替换前:
bash-3.00$ cat file.txt|grep 纪晓岚4-和
20100104|0011|点播|海口|861524892|纪晓岚4-和珅受贿|2030895463|CCTV|央视国际网络有限公司|178|1721|包月|0|客户端
20100104|0028|点播|海口|861387608|纪晓岚4-和珅受贿|2030895463|CCTV|央视国际网络有限公司|173|1710|包月|0|客户端
20100104|0022|点播|海口|861524892|纪晓岚4-和珅受贿|2030895463|CCTV|央视国际网络有限公司|9|181|包月|0|客户端
20100105|1135|点播|海口|861351809|纪晓岚4-和珅被削|2030892637|CCTV|央视国际网络有限公司|119|525|包月|0|WAP

替换后:
bash-3.00$ sed 's/\|/,/g' file.txt|grep 纪晓岚4-和
20100104,0011,点播,海口,861524892,纪晓岚4-和?受贿,2030895463,CCTV,央视国际网络有限公司,178,1721,包月,0,客户端
20100104,0028,点播,海口,861387608,纪晓岚4-和?受贿,2030895463,CCTV,央视国际网络有限公司,173,1710,包月,0,客户端
20100104,0022,点播,海口,861524892,纪晓岚4-和?受贿,2030895463,CCTV,央视国际网络有限公司,9,181,包月,0,客户端
20100105,1135,点播,海口,861351809,纪晓岚4-和?被削,2030892637,CCTV,央视国际网络有限公司,119,525,包月,0,WAP

bash-3.00$ sed 's/\|/,/g' file.txt|grep 纪晓岚4-和|head -4 > ask
bash-3.00$ vi ask
"ask" 4 行,453 字符
20100104,0011,点播,海口,861524892,纪晓岚4-和\253,受贿,2030895463,CCTV,央视国际网络有限公司,178,1721,包月,0,客户端
20100104,0028,点播,海口,861387608,纪晓岚4-和\253,受贿,2030895463,CCTV,央视国际网络有限公司,173,1710,包月,0,客户端
20100104,0022,点播,海口,861524892,纪晓岚4-和\253,受贿,2030895463,CCTV,央视国际网络有限公司,9,181,包月,0,客户端
20100105,1135,点播,海口,861351809,纪晓岚4-和\253,被削,2030892637,CCTV,央视国际网络有限公司,119,525,包月,0,WAP


谢谢@

论坛徽章:
0
发表于 2010-02-26 17:28 |显示全部楼层
我试了一下先把 珅字替换成一个别的字符,等你处理好其他的再替换回来好像是可以,不懂。。。只是尝试弄了一下

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
发表于 2010-02-26 17:34 |显示全部楼层
用unicode编码吧。

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
发表于 2010-02-26 17:38 |显示全部楼层
其它编码会有编码重叠问题。

gb2312编码的坤就包含了|

$ echo -n  "和珅"|xxd -g 1
0000000: ba cd ab 7c                                      ...|

$ echo -n  \||xxd -g 1
0000000: 7c                                               |

论坛徽章:
0
发表于 2010-02-26 22:12 |显示全部楼层
/Desktop$ sed 's/|/,/g' test
20100104,0011,点播,海口,861524892,纪晓岚4-和珅受贿,2030895463,CCTV,央视国际网络有限公司,178,1721,包月,0,客户端
20100104,0028,点播,海口,861387608,纪晓岚4-和珅受贿,2030895463,CCTV,央视国际网络有限公司,173,1710,包月,0,客户端
20100104,0022,点播,海口,861524892,纪晓岚4-和珅受贿,2030895463,CCTV,央视国际网络有限公司,9,181,包月,0,客户端
20100105,1135,点播,海口,861351809,纪晓岚4-和珅被削,2030892637,CCTV,央视国际网络有限公司,119,525,包月,0,WAP
看来是你编码问题……

论坛徽章:
0
发表于 2010-02-27 08:43 |显示全部楼层
回复 4# blackold


    专业
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP