Chinaunix

标题: 如何判断文中的 - 属于哪个字符集? [打印本页]

作者: perlplus33    时间: 2011-04-19 09:24
标题: 如何判断文中的 - 属于哪个字符集?
本帖最后由 perlplus33 于 2011-04-19 13:15 编辑

不知道题目是否合适。

我的问题是:当我从web网页上copy一段字符后,搜索其中的连字符 (- )的时候,找不到;当我手动将文中__DATA__段中的连字符 “ -  ”改为键盘输入的连字符 “  - ”时,又可以正确搜索。
请问如何在写正则之前就知道类似的问题?(下一个可能不是连字符,是其他的呢?)谢谢。
  1. #print all lines with 408-xxx-xxxx
  2. while (<DATA>) {
  3.     print if /408\-/;
  4. }
  5. __DATA__
  6. Tommy Savage:408-724-0140:1222 Oxbow Court, Sunnyvale,CA 94087:5/19/66:34200
  7. Lesle Kerstin:408–456–1234:4 Harvard Square, Boston, MA 02133:4/22/62:52600
  8. JonDeLoach:408–253–3122:123 Park St., San Jose, CA 94086:7/25/53:85100
  9. Ephram Hardy:293–259–5395:235 Carlton Lane, Joliet, IL 73858:8/12/20:56700
  10. Betty Boop:245–836–8357:635 Cutesy Lane, Hollywood, CA 91464:6/23/23:14500
  11. William Kopf:846–836–2837:6937 Ware Road, Milton, PA 93756:9/21/46:43500
  12. Norma Corder:397–857–2735:74 Pine Street, Dearborn, MI 23874:3/28/45:245700
  13. James Ikeda:834–938–8376:23445 Aster Ave., Allentown, NJ 83745:12/1/38:45000
  14. Lori Gortz:327–832–5728:3465 Mirlo Street, Peabody, MA 34756:10/2/65:35200
  15. Barbara Kerz:385–573–8326:832 Ponce Drive, Gary, IN 83756:12/15/46:268500
复制代码

作者: perlplus33    时间: 2011-04-20 13:07
换个问法:
能否用perl来判断某个网页的字符集,或者字体,或者其他有关字的属性设置?
这样或许能解决copy下来后进行搜索或者替换的时候,找不到被替换者的情况。

谢谢各位的关注。
作者: zhlong8    时间: 2011-04-20 13:28
搞那么复杂你用 /[-–]/ 不就行了
作者: ziyunfei    时间: 2011-04-20 13:42
本帖最后由 ziyunfei 于 2011-04-20 14:03 编辑



                           
Dec    Hex      Symbol         HTML Number         HTML Name         Description

45      2D        -                 & #45;                                         减号 连字符 (minus sign - hyphen)

8211  2013     –                & #8211;                &ndash;           短破折号(En Dash)

8212  2014    —                & #8212;                &mdash;          长破折号(Em Dash)




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2