免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2355 | 回复: 2
打印 上一主题 下一主题

perl匹配泰文和中文 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-02-15 10:16 |只看该作者 |倒序浏览
项目需要用perl抓取一些含有泰文和中文的网页,传统的思路应该是使用
   
  LWP::Simple获取网页的内容,然后用该内容去匹配泰文编码吧,我查阅了一些

  资料,目前的思路是能包含多国文字的网页应该是utf-8编码,那抓取网页内容

  也应该是utf-8编码的,那现在问题的关键就是如何匹配utf-8下的中文和泰文。

  看到一些资料写用 /[0e00-0e7f]/能匹配泰文,这个我试了,泰文能匹配,可是好像

  有些不是泰文的东西它也能匹配下来!!!这个不行啊,还有就是匹配中文又当如何?

  请各位达人不吝赐教!

论坛徽章:
0
2 [报告]
发表于 2011-02-15 10:27 |只看该作者
本帖最后由 FenRagwort 于 2011-02-15 10:28 编辑

回复 1# kitsilence


    看一下 perluniprops

应该可以用\p{...}的方式匹配泰文字符,比如\p{Thai}或\p{InThai},具体哪个你自己摸索,我不懂泰文

匹配汉字用\p{Han},这个是匹配75000+汉字里的任意一个的意思

论坛徽章:
0
3 [报告]
发表于 2011-02-17 16:04 |只看该作者
回复 2# FenRagwort


    谢谢你的提示!我解决这部分问题了
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP