免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 42964 | 回复: 8

[文本处理] 过滤掉文件中带有乱码的行 [复制链接]

论坛徽章:
3
15-16赛季CBA联赛之四川
日期:2016-07-02 01:12:1415-16赛季CBA联赛之上海
日期:2016-07-02 01:13:3515-16赛季CBA联赛之江苏
日期:2016-07-02 01:50:25
发表于 2016-08-11 14:55 |显示全部楼层
源文件内容:
  1. 1 CCTV-1
  2. 3 CCTV-5
  3. 3 CCTV-5
  4. 6 ¸£½¨μ¼˓HD
  5. 4 CCTV-12
  6. 4 ¸£½¨μ¼˓HD
  7. 20 ¸£½¨3-1«12
  8. 20 ¸£½¨5-μ苓¾刴 ¸£½¨μ¼˓HD
  9. 20 °2»֎JӸࠇ有 ʮܚπ˓
  10. 2 oӱ±π˓
  11. 8 ½񓥿¨ͨ
  12. 4 o Ӹࠇ名 ɽ¶«π˓¸ࠇ名 ʮܚπ˓¸ࠇ劳 泉州3套
  13. 8 泉州3套
  14. 8 CCTV-2
  15. 1 浙江卫视
复制代码
处理后的结果:
  1. 1 CCTV-1
  2. 3 CCTV-5
  3. 3 CCTV-5
  4. 4 CCTV-12
  5. 8 泉州3套
  6. 8 CCTV-2
  7. 1 浙江卫视
复制代码
求助:把上面文件中带有乱码的行过滤掉,有什么好的方法吗?各位大神,先谢谢了!

论坛徽章:
1
操作系统版块每日发帖之星
日期:2016-08-11 06:20:00
发表于 2016-08-11 15:31 |显示全部楼层
这个还真比较头疼,西文的直接过滤就行,但是汉字是俩,容俺想想

论坛徽章:
1
操作系统版块每日发帖之星
日期:2016-08-11 06:20:00
发表于 2016-08-11 15:41 |显示全部楼层
想到一个办法,你用sort 把文件排序,然后用vi 打开,乱码应该集中在一起,然后整个把乱码删除就可以了,如果想保持顺序,把每行行尾加个序列,删除完后再用这个序列排序就可以了!

论坛徽章:
3
15-16赛季CBA联赛之四川
日期:2016-07-02 01:12:1415-16赛季CBA联赛之上海
日期:2016-07-02 01:13:3515-16赛季CBA联赛之江苏
日期:2016-07-02 01:50:25
发表于 2016-08-11 15:55 |显示全部楼层
回复 3# lijunling
恩 谢谢! 这也是一种方法,但是不够灵活。


   

论坛徽章:
2
极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之新疆
日期:2017-02-06 17:31:41
发表于 2016-08-11 15:58 |显示全部楼层
本帖最后由 butterflyswim 于 2016-08-11 15:58 编辑
  1. grep -Pv  "[\x80-\xFF]" file
复制代码

评分

参与人数 1信誉积分 +50 收起 理由
lijunling + 50

查看全部评分

论坛徽章:
3
15-16赛季CBA联赛之四川
日期:2016-07-02 01:12:1415-16赛季CBA联赛之上海
日期:2016-07-02 01:13:3515-16赛季CBA联赛之江苏
日期:2016-07-02 01:50:25
发表于 2016-08-11 16:43 |显示全部楼层
回复 5# butterflyswim
这个可以,漂亮 太棒了!! 多谢!

论坛徽章:
1
操作系统版块每日发帖之星
日期:2016-07-05 06:20:00
发表于 2016-08-15 10:59 |显示全部楼层
赞!!!!!!

论坛徽章:
0
发表于 2016-08-15 20:13 |显示全部楼层
5楼的大仙,我试验了一下,怎么把所以带汉字的都过滤掉了?

论坛徽章:
0
发表于 2016-08-15 20:13 |显示全部楼层
5楼的大仙,我试验了一下,怎么把所有带汉字的都过滤掉了?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP