免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
1234下一页
最近访问板块 发新帖
查看: 29173 | 回复: 32
打印 上一主题 下一主题

[分享]对各字符集编码范围的总结[更新日期2007-03-12] [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2007-03-09 14:56 |只看该作者 |倒序浏览
最近项目中用到了对文字、标点以及特殊字符的判断。
网上关于GBK、GB2312和BIG5编码范围的资料比较多,但是日文的资料比较少,我总结了一下,希望能对大家在正则中判断
这些字符集尤其是日文字符集的各种字、标点以及特殊符号的时候有所帮助。

UTF8
  1. [\x01-\x7f]|[\xc0-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf]{2}|[\xf0-\xff][\x80-\xbf]{3}
复制代码

UTF16
  1. [\x00-\xd7][\xe0-\xff]|[\xd8-\xdf][\x00-\xff]{2}
复制代码

JIS
  1. [\x20-\x7e]|[\x21-\x5f]|[\x21-\x7e]{2}
复制代码

SJIS
  1. [\x20-\x7e]|[\xa1-\xdf]|([\x81-\x9f]|[\xe0-\xef])([\x40-\x7e]|[\x80-\xfc])
复制代码

EUC_JP      
  1. [\x20-\x7e]|\x81[\xa1-\xdf]|[\xa1-\xfe][\xa1-\xfe]|\x8f[\xa1-\xfe]{2}
复制代码

EUC_JP标点符号及特殊字符      
  1. [\xa1-\xa2][\xa0-\xfe]
复制代码

EUC_JP全角数字
  1. \xa3[\xb0-\xb9]
复制代码

EUC_JP全角大写英文
  1. \xa3[\xc1-\xda]
复制代码

EUC_JP全角小写英文   
  1. \xa3[\xe1-\xfa]
复制代码

EUC_JP全角平假名
  1. \xa4[\xa1-\xf3]
复制代码

EUC_JP全角片假名 2007-03-12 15:00更新
  1. \xa3[\xb0-\xb9]|\xa3[\xc1-\xda]|\xa5[\xa1-\xf6][\xa3][\xb0-\xfa]|[\xa1][\xbc-\xbe]|[\xa1][\xdd]
复制代码

EUC_JP全角汉字        2007-03-12 15:06更新
  1. [\xb0-\xcf][\xa0-\xd3]|[\xd0-\xf4][\xa0-\xfe]|[\xB0-\xF3][\xA1-\xFE]|[\xF4][\xA1-\xA6]|[\xA4][\xA1-\xF3]|[\xA5][\xA1-\xF6]|[\xA1][\xBC-\xBE]
复制代码

Big5
  1. [\x01-\x7f]|[\x81-\xfe]([\x40-\x7e]|[\xa1-\xfe])
复制代码

GBK
  1. [\x01-\x7f]|[\x81-\xfe][\x40-\xfe]
复制代码

GB2312汉字
  1. [\xb0-\xf7][\xa0-\xfe]
复制代码

GB2312半角标点符号及特殊符号
  1. \xa1[\xa2-\xfe]
复制代码

GB2312罗马数组及项目序号
  1. \xa2([\xa1-\xaa]|[\xb1-\xbf]|[\xc0-\xdf]|[\xe0-\xe2]|[\xe5-\xee]|[\xf1-\xfc])
复制代码

GB2312全角标点及全角字母
  1. \xa3[\xa1-\xfe]
复制代码

GB2312日文平假名
  1. \xa4[\xa1-\xf3]
复制代码

GB2312日文片假名
  1. \xa5[\xa1-\xf6]
复制代码


補充:
GB18030
  1. [\x00-\x7f]|[\x81-\xfe][\x40-\xfe]|[\x81-\xfe][\x30-\x39][\x81-\xfe][\x30-\x39]
复制代码


2007-03-12 21:35 补充
日文半角空格
  1. \x20
复制代码

SJIS全角空格               
  1. (?:\x81\x81)
复制代码

SJIS全角数字               
  1. (?:\x82[\x4f-\x58])
复制代码

SJIS全角大写英文       
  1. (?:\x82[\x60-\x79])
复制代码

SJIS全角小写英文       
  1. (?:\x82[\x81-\x9a])
复制代码

SJIS全角平假名       
  1. (?:\x82[\x9f-\xf1])
复制代码

SJIS全角平假名扩展
  1. (?:\x82[\x9f-\xf1]|\x81[\x4a\x4b\x54\x55])
复制代码

SJIS全角片假名       
  1. (?:\x83[\x40-\x96])
复制代码

SJIS全角片假名扩展
  1. (?:\x83[\x40-\x96]|\x81[\x45\x5b\x52\x53])
复制代码

EUC_JP全角空格       
  1. (?:\xa1\xa1)
复制代码

EUC半角片假名       
  1. (?:\x8e[\xa6-\xdf])
复制代码

[ 本帖最后由 gsging 于 2007-3-12 21:39 编辑 ]

论坛徽章:
0
2 [报告]
发表于 2007-03-09 14:57 |只看该作者
谢谢分享

论坛徽章:
0
3 [报告]
发表于 2007-03-09 15:02 |只看该作者
哇,flw和alexru的速度真快啊,谢谢斑竹。呵呵。

论坛徽章:
0
4 [报告]
发表于 2007-03-09 15:20 |只看该作者
不错,支持精华!

论坛徽章:
0
5 [报告]
发表于 2007-03-09 16:02 |只看该作者
这种好东东一定要收藏的。

论坛徽章:
0
6 [报告]
发表于 2007-03-09 16:20 |只看该作者
本贴会继续完善,也请写过类似代码的朋友一起分享您的tips.

论坛徽章:
0
7 [报告]
发表于 2007-03-09 20:33 |只看该作者
不错
好东西
以前在别的网站看到都只有几条
楼主一下子整理了这么多收藏一下

论坛徽章:
0
8 [报告]
发表于 2007-03-09 21:10 |只看该作者
GB18030的有吗?现在操作系统都必需支持这个。

论坛徽章:
1
荣誉版主
日期:2011-11-23 16:44:17
9 [报告]
发表于 2007-03-09 22:53 |只看该作者
感谢分享

论坛徽章:
0
10 [报告]
发表于 2007-03-09 22:55 |只看该作者
好帖, 谢谢。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP