免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
1234
最近访问板块 发新帖
楼主: 兰花仙子
打印 上一主题 下一主题

Windows中文 - 编码!编码!! [复制链接]

论坛徽章:
48
15-16赛季CBA联赛之青岛
日期:2021-01-07 13:41:2315-16赛季CBA联赛之上海
日期:2020-12-01 18:02:0720周年集字徽章-20	
日期:2020-10-28 14:14:2620周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之天津
日期:2020-10-18 22:51:412016猴年福章徽章
日期:2016-02-18 15:30:3415-16赛季CBA联赛之北控
日期:2015-12-22 13:30:48操作系统版块每日发帖之星
日期:2015-12-07 06:20:00操作系统版块每日发帖之星
日期:2015-09-04 06:20:002015亚冠之德黑兰石油
日期:2015-08-05 18:46:082015年亚洲杯之巴勒斯坦
日期:2015-04-19 10:42:502015年亚洲杯之巴林
日期:2015-04-09 08:03:23
31 [报告]
发表于 2011-10-13 23:39 |只看该作者
看来要学的东西不少,收藏了~

论坛徽章:
3
技术图书徽章
日期:2013-12-14 13:31:0615-16赛季CBA联赛之八一
日期:2016-03-10 18:23:4615-16赛季CBA联赛之青岛
日期:2016-03-19 11:36:04
32 [报告]
发表于 2011-10-14 00:16 |只看该作者
还是有问题啊,原文保存为UTF-8无BOM格式才行

论坛徽章:
0
33 [报告]
发表于 2011-11-03 17:31 |只看该作者
好人好贴

论坛徽章:
13
15-16赛季CBA联赛之同曦
日期:2016-01-28 19:52:032015亚冠之北京国安
日期:2015-10-07 14:28:19NBA常规赛纪念章
日期:2015-05-04 22:32:03处女座
日期:2015-01-15 19:45:44卯兔
日期:2014-10-28 16:17:14白羊座
日期:2014-05-24 15:10:46寅虎
日期:2014-05-10 09:50:35白羊座
日期:2014-03-12 20:52:17午马
日期:2014-03-01 08:37:27射手座
日期:2014-02-19 19:26:54子鼠
日期:2013-11-30 09:03:56狮子座
日期:2013-09-08 08:37:52
34 [报告]
发表于 2012-05-22 11:49 |只看该作者
支持阿,windows 编码

论坛徽章:
0
35 [报告]
发表于 2012-05-22 20:24 |只看该作者
万恶的Windows!全都UTF-8不就结了吗!

论坛徽章:
0
36 [报告]
发表于 2012-06-14 15:34 |只看该作者
不知算不算挖坟。

我的所有输入输出文件都是utf8编码的。
perl代码也是用utf8存储的。
不加这句“use open ':encoding(UTF-';”
出来的结果有问题。
加上后
程序运行比较慢,需要两三倍的时间…… 应该是转文件编码需要时间。

想问下perl读文件默认编码是什么?
我猜中文win7是gbk,不过做了实验似乎不是。

我想把出错的地方 encode decode一下,这样应该会节省点时间。

论坛徽章:
0
37 [报告]
发表于 2012-06-14 15:36 |只看该作者
另附上我的问题:
  1. #!perl -w
  2. use strict;
  3. use 5.010;
  4. use Encode;
  5. #use open ':encoding(UTF-8)'; #设开启为1
  6. #use utf8;#设开启为2

  7. #只开启1 3个结果正确
  8. #只开启2 1个结果正确
  9. #开启1+2 5个结果都正确
  10. #问题:在实际环境中(大量html须处理) 开启1 程序运行时间为两倍到三倍,如何优化,节省时间。

  11. open IN, "<in.txt";
  12. open OUT ,">tst.txt";
  13. my $chart = '¶†‡*§';
  14. $/ = undef;
  15. my $string2 = <IN>;

  16. say OUT $string2;
  17. say OUT "-" x 100;
  18. #in.txt里存储的内容如下,为utf8编码
  19. #<p class="articleCitationIndent1">*Institute of Mountain Risk Engineering, Austria</p>
  20. #<p class="articleCitationIndent1"><sup>†</sup>Laboratory of Dendrogeomorphology, Institute of Geological Sciences, Switzerland</p>
  21. #<p class="articleCitationIndent1"><sup>‡</sup>Climate Change and Climatic Impacts, Environmental Sciences, Switzerland</p>
  22. #<p class="articleCitationIndent1"><sup>§</sup>Federal Ministry for Agriculture, Forestry, Environment and Water Management, Austria</p></div>
  23. #<p class="articleCitationIndent1">¶Corresponding author: <a class="email" href="mailto:xxx@die-wildbach.at">xxx@die-wildbach.at</a></p>'
  24. ;

  25. while ($string2 =~ m{<p class="articleCitationIndent1">(?:</?a[^>]*>)*(?:<sup>)?+,?([$chart]),?(?:</sup>)?+,?(?:</?a[^>]*>)*((?:(?!</p>).)+)</p>}ig){
  26.         say OUT "$1\t$2";
  27. }
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP