免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2570 | 回复: 8
打印 上一主题 下一主题

[文本处理] 求助大牛使用过滤掉有乱码的行 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-10-09 00:48 |只看该作者 |倒序浏览
如下
1.txt

篓潞篓娄篓潞篓娄ykarathanos
篓潞篓垄篓娄ykarathanos
篓潞篓娄?urou9
篓潞篓娄osan
篓潞篓娄ermpi
篓潞篓娄篓庐篓skoula
篓掳篓庐?篓垄篓?? kwstaslasith
篓潞篓潞?篓潞?篓m12
abcabcbxcvadfafdasfdq43trq342r5
asdghasdjgqkjtq

=========================
以上文本内容去掉不是英文字母、特列字符和数字和空格和TAB之外的乱码的行

论坛徽章:
2
射手座
日期:2014-10-10 15:59:4715-16赛季CBA联赛之上海
日期:2016-03-03 10:27:14
2 [报告]
发表于 2012-10-09 01:03 |只看该作者
回复 1# Tr4c3e


    grep -P '^[[:print:]]+$'

论坛徽章:
0
3 [报告]
发表于 2012-10-09 01:11 |只看该作者
貌似不太行,只要有包含有汉字的行,都过滤掉。你提供的方式如果一行里面有汉字还有字母,打印出来就会成乱码无法过滤掉带有汉字的行回复 2# yinyuemi


   

论坛徽章:
15
2015年辞旧岁徽章
日期:2015-03-03 16:54:15双鱼座
日期:2015-01-15 17:29:44午马
日期:2015-01-06 17:06:51子鼠
日期:2014-11-24 10:11:13寅虎
日期:2014-08-18 07:10:55酉鸡
日期:2014-04-02 12:24:51双子座
日期:2014-04-02 12:19:44天秤座
日期:2014-03-17 11:43:36亥猪
日期:2014-03-13 08:13:51未羊
日期:2014-03-11 12:42:03白羊座
日期:2013-11-20 10:15:18CU大牛徽章
日期:2013-04-17 11:48:45
4 [报告]
发表于 2012-10-09 09:08 |只看该作者
本帖最后由 rdcwayx 于 2012-10-09 11:08 编辑

想了个迂回的方法,你试试看。 用tr, 但是tr不支持 ^ .
  1. tr "[[:print:]]" "|" <1.txt > 1.new.txt

  2. awk -F "" '{getline a < "1.txt";split(a,b,""); for (i=1;i<=NF;i++) if ($i=="|") printf b[i];printf RS}' 1.new.txt

  3. ykarathanos
  4. ykarathanos
  5. ?urou9
  6. osan
  7. ermpi
  8. skoula
  9. ??? kwstaslasith
  10. ??m12
  11. abcabcbxcvadfafdasfdq43trq342r5
  12. asdghasdjgqkjtq
复制代码

论坛徽章:
5
未羊
日期:2014-08-04 16:15:21天秤座
日期:2014-08-13 13:52:372015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:56:112015亚冠之浦和红钻
日期:2015-06-29 15:30:48
5 [报告]
发表于 2012-10-09 09:15 |只看该作者
我认为2楼是对的,LZ可以这样试试看
  1. LANG=C && grep -P '^[[:print:]]+
复制代码

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
6 [报告]
发表于 2012-10-10 22:56 |只看该作者
为何要盲过滤?转码一下不行么?

论坛徽章:
0
7 [报告]
发表于 2012-10-11 10:39 |只看该作者
强烈支持。

论坛徽章:
0
8 [报告]
发表于 2012-10-11 11:15 |只看该作者
回复 6# L_kernel

how to ,能帮忙提示一下吗

   

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
9 [报告]
发表于 2012-10-11 11:20 |只看该作者
wuxiaobo_2009 发表于 2012-10-11 11:15
回复 6# L_kernel

how to ,能帮忙提示一下吗
就是原来是什么编码的,然后iconv转换一下,然后再过滤。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP