免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3319 | 回复: 3
打印 上一主题 下一主题

还是处理生僻字啊,有别的方法吗? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-11-24 00:02 |只看该作者 |倒序浏览
本帖最后由 perlnewbie 于 2011-11-24 09:13 编辑

bbs.chinaunix.net/thread-907172-1-1.html
这贴子里面提到了用正则,
现在有一文本,里面有很多GB18030-CJK扩展字集的许多生僻字(七万汉字!!!不知朋友怎么弄来的)。
gb18030.7z (787.04 KB, 下载次数: 61)
要将它们那些超级生僻字提取出来(手机上无法显示的)。
上述贴子里面的匹配GBK的正则是:[\x01-\x7f]|[\x81-\xfe][\x40-\xfe]

提取完GBK的,剩下的应该就是那些八辈子也用不到的生僻字了吧,不知对否???
但在vim里面运行无效啊。。。

  1. :perld s/[\x01-\x7f]|[\x81-\xfe][\x40-\xfe]//g
复制代码
除了正则外,还有没有更好的办法呀???非常感谢,万分感谢,超级感谢!!!!
就是图中这么些GBK外的字符,怎么提取出来???

论坛徽章:
46
15-16赛季CBA联赛之四川
日期:2018-03-27 11:59:132015年亚洲杯之沙特阿拉伯
日期:2015-04-11 17:31:45天蝎座
日期:2015-03-25 16:56:49双鱼座
日期:2015-03-25 16:56:30摩羯座
日期:2015-03-25 16:56:09巳蛇
日期:2015-03-25 16:55:30卯兔
日期:2015-03-25 16:54:29子鼠
日期:2015-03-25 16:53:59申猴
日期:2015-03-25 16:53:29寅虎
日期:2015-03-25 16:52:29羊年新春福章
日期:2015-03-25 16:51:212015亚冠之布里斯班狮吼
日期:2015-07-13 10:44:56
2 [报告]
发表于 2011-11-24 13:25 |只看该作者
之前有人讲 \p{Han} 可以匹配,看看这个文档吧 perluniprops 这么多属性我也不太懂

论坛徽章:
1
摩羯座
日期:2014-12-29 15:59:36
3 [报告]
发表于 2011-11-24 17:03 |只看该作者
iconv -c  -f utf-8 -t GBK zhengma.txt>GBK.txt

GBK中没有的字符就剔除了

论坛徽章:
0
4 [报告]
发表于 2011-11-24 21:35 |只看该作者
本帖最后由 perlnewbie 于 2011-11-24 22:10 编辑
iconv -c  -f utf-8 -t GBK zhengma.txt>GBK.txt

GBK中没有的字符就剔除了
ziyunfei 发表于 2011-11-24 17:03



{:3_198:} 超级谢谢大哥。

同谢版主
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP