Chinaunix
标题:
如何判断文中的 - 属于哪个字符集?
[打印本页]
作者:
perlplus33
时间:
2011-04-19 09:24
标题:
如何判断文中的 - 属于哪个字符集?
本帖最后由 perlplus33 于 2011-04-19 13:15 编辑
不知道题目是否合适。
我的问题是:当我从web网页上copy一段字符后,搜索其中的连字符 (- )的时候,找不到;当我手动将文中__DATA__段中的连字符 “ - ”改为键盘输入的连字符 “ - ”时,又可以正确搜索。
请问如何在写正则之前就知道类似的问题?(下一个可能不是连字符,是其他的呢?)谢谢。
#print all lines with 408-xxx-xxxx
while (<DATA>) {
print if /408\-/;
}
__DATA__
Tommy Savage:408-724-0140:1222 Oxbow Court, Sunnyvale,CA 94087:5/19/66:34200
Lesle Kerstin:408–456–1234:4 Harvard Square, Boston, MA 02133:4/22/62:52600
JonDeLoach:408–253–3122:123 Park St., San Jose, CA 94086:7/25/53:85100
Ephram Hardy:293–259–5395:235 Carlton Lane, Joliet, IL 73858:8/12/20:56700
Betty Boop:245–836–8357:635 Cutesy Lane, Hollywood, CA 91464:6/23/23:14500
William Kopf:846–836–2837:6937 Ware Road, Milton, PA 93756:9/21/46:43500
Norma Corder:397–857–2735:74 Pine Street, Dearborn, MI 23874:3/28/45:245700
James Ikeda:834–938–8376:23445 Aster Ave., Allentown, NJ 83745:12/1/38:45000
Lori Gortz:327–832–5728:3465 Mirlo Street, Peabody, MA 34756:10/2/65:35200
Barbara Kerz:385–573–8326:832 Ponce Drive, Gary, IN 83756:12/15/46:268500
复制代码
作者:
perlplus33
时间:
2011-04-20 13:07
换个问法:
能否用perl来判断某个网页的字符集,或者字体,或者其他有关字的属性设置?
这样或许能解决copy下来后进行搜索或者替换的时候,找不到被替换者的情况。
谢谢各位的关注。
作者:
zhlong8
时间:
2011-04-20 13:28
搞那么复杂你用 /[-–]/ 不就行了
作者:
ziyunfei
时间:
2011-04-20 13:42
本帖最后由 ziyunfei 于 2011-04-20 14:03 编辑
Dec Hex Symbol HTML Number HTML Name Description
45 2D - & #45; 减号 连字符 (minus sign - hyphen)
8211 2013 – & #8211; – 短破折号(En Dash)
8212 2014 — & #8212; — 长破折号(Em Dash)
欢迎光临 Chinaunix (http://bbs.chinaunix.net/)
Powered by Discuz! X3.2