免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4772 | 回复: 2
打印 上一主题 下一主题

bash下 有没有 匹配中文字符 的 正则表达式? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2010-05-21 14:40 |只看该作者 |倒序浏览
本帖最后由 wlong2000joint 于 2010-05-21 15:03 编辑

http://zh.wikipedia.org/zh-cn/%E ... 8%E8%BE%BE%E5%BC%8F
上面这个链接是 维基百科 - 正则表达式 ,其中提到常用的正则表达式:

Unicode编码中的汉字范围
/^[u4e00-u9fa5],{0,}$/

请问,这个表达式在bash下怎么写? 我试过egrep awk sed 都不支持,在bash下有没有能匹配中文字符的正则表达式呢?

比如用curl抓取一个网页,把中文内容过滤出来:
# curl http://cul.book.qq.com/a/20100521/000001.htm 2>/dev/null |iconv -f gbk -t utf-8|egrep 'exp'
这个匹配中文的正则怎么写?

论坛徽章:
1
巨蟹座
日期:2014-06-04 13:33:30
2 [报告]
发表于 2010-05-21 17:37 |只看该作者
能过滤,采集?

论坛徽章:
0
3 [报告]
发表于 2010-05-22 20:31 |只看该作者
http://www.blogjava.net/chenlb/archive/2008/04/21/194553.html
康熙字典中的部首共有214个:

一丨丶丿乙亅二亠人儿入八冂冖冫几凵刀力勹匕匚匸十卜卩厂厶又口囗土士夂夊夕大女子宀寸小尢尸屮山巛工己巾干幺广廴廾弋弓彐彡彳心戈戶手支攴文斗斤方无日曰月木欠止歹殳毋比毛氏气水火爪父爻爿片牙牛犬玄玉瓜瓦甘生用田疋疒癶白皮皿目矛矢石示禸禾穴立竹米糸缶网羊羽老而耒耳聿肉臣自至臼舌舛舟艮色艸虍虫血行衣襾見角言谷豆豕豸貝赤走足身車辛辰辵邑酉釆里金長門阜隶隹雨靑非面革韋韭音頁風飛食首香馬骨高髟鬥鬯鬲鬼魚鳥鹵鹿麥麻黃黍黑黹黽鼎鼓鼠鼻齊齒龍龜龠


用下面这个能过滤出大部分的中文字符,但是有没有更准确的表达式呢?
curl http://cul.book.qq.com/a/20100521/000001.htm 2>/dev/null |iconv -f gbk -t utf-8|egrep -o '[一-龠]{1,}'
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP