免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12
最近访问板块 发新帖
楼主: heyj6969
打印 上一主题 下一主题

如何删除文件中的中文 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2010-07-16 15:57 |只看该作者
回复 10# 没本


   sed 's/[\x80-\xff]//g' add-remove.txt
我执行了这条命令 出现
sed: -e 表达式 #1, 字符 16: Invalid collation character↵
请问是怎么回事呢

我的文件编码
--enca add-remove.po
--Universal transformation format 8 bits; UTF-8

论坛徽章:
0
12 [报告]
发表于 2010-07-16 16:19 |只看该作者
回复 11# heyj6969
  1. $ LANG=UTF-8 sed -e 's/[\x80-\xff]*//g' add-remove.txt
复制代码

论坛徽章:
0
13 [报告]
发表于 2010-07-16 17:04 |只看该作者
回复 12# 没本


    呵呵呵  可以了  太感谢了  以后还得多多指教了呢   谢咯

论坛徽章:
15
射手座
日期:2014-11-29 19:22:4915-16赛季CBA联赛之青岛
日期:2017-11-17 13:20:09黑曼巴
日期:2017-07-13 19:13:4715-16赛季CBA联赛之四川
日期:2017-02-07 21:08:572015年亚冠纪念徽章
日期:2015-11-06 12:31:58每日论坛发贴之星
日期:2015-08-04 06:20:00程序设计版块每日发帖之星
日期:2015-08-04 06:20:00程序设计版块每日发帖之星
日期:2015-07-12 22:20:002015亚冠之浦和红钻
日期:2015-07-08 10:10:132015亚冠之大阪钢巴
日期:2015-06-29 11:21:122015亚冠之广州恒大
日期:2015-05-22 21:55:412015年亚洲杯之伊朗
日期:2015-04-10 16:28:25
14 [报告]
发表于 2010-07-18 17:15 |只看该作者
回复  heyj6969


    不怕误杀的话把0x80以上的全去掉得了。如果剩下的全是ASCII编码没什么大问题。
没本 发表于 2010-07-16 14:57



   gbk: 见0x80-ff,杀两个字节。

论坛徽章:
0
15 [报告]
发表于 2010-07-18 19:21 |只看该作者
参考utf-8编码标准,其实你文件的编码应该也有关系。

论坛徽章:
0
16 [报告]
发表于 2010-07-19 15:52 |只看该作者
挨个判断 小于0的全不要(gb 2个字节  utf-8 3个字节)
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP