1 234 5 / 5 页下一页

关于utf-8 代码转换问题求解 [复制链接]

bernana

稍有积蓄

论坛徽章:: 0

21楼 [报告]

发表于 2011-01-19 16:40 |只看该作者

回复 9# ziyunfei

我是指print decode_entities("& #x4E2D;& #x6587;")."\n";(程序中空格去掉了)返回的是
E2D;& #x6587;而不是你说的"中文".(不经过IE转)

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

toniz

富足长乐

论坛徽章:: 0

22楼 [报告]

发表于 2011-01-19 17:55 |只看该作者

本帖最后由 toniz 于 2011-01-19 17:56 编辑

提供你两种方法：一是把你的UTF-8全部改成GB2312

二是用Encode模块。UTF-8只是UNICODE的一种存储方式，这里你混淆了。帮你改下代码。

<html>
<head>
<meta http-equiv="content-type" content="text/html;charset=utf-8">
<title>tf8 Example</title>
</head>
<body>
中文中文中文 <br>
<form method="post" action="itest.cgi">
<p>word: <input name="word" type="text">
<input type="submit" name="Submit" value=" 查询 ">
</form>
</body>
</html>
-----------------------------------------------------
#!/usr/bin/perl -w
use CGI;
use HTML::Entities;
use utf8;
use Encode;
$query = new CGI;
$secretword = $query->param('word');
$remotehost = $query->remote_host();
my $a = $secretword;
$a = decode_entities($a);
print $query->header( -charset=>'utf-8' );
print encode("utf8",decode("gb2312",$a));

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

toniz

富足长乐

论坛徽章:: 0

23楼 [报告]

发表于 2011-01-19 17:56 |只看该作者

还有注意乱不乱码还和你浏览器的编码选择有关

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

bernana

稍有积蓄

论坛徽章:: 0

24楼 [报告]

发表于 2011-01-19 18:03 |只看该作者

还有注意乱不乱码还和你浏览器的编码选择有关
toniz 发表于 2011-01-19 17:56

我想在perl里直接把& #x4E2D;& #x6587;这类字符串变成$string="中文";而不是在浏览器里。有什么好办法吗？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

buypro9

白手起家

论坛徽章:: 0

25楼 [报告]

发表于 2011-01-19 20:56 |只看该作者

本帖最后由 buypro9 于 2011-01-20 11:07 编辑

toniz 你好

我测试了一下你的代码结果白高兴了

我的意思是####encode####以后返回的结果是 "& #x4E2D; 这样的。就是"& #x hexnum;"这样的格式（&后面空格都去掉）
decode我已经测试出来了。我也在perlmonk上发了贴。目前还没有答复。

另外关于你说的

还有注意乱不乱码还和你浏览器的编码选择有关

我觉得你该测试一下就知道你的想法对不对

<html>

<head>

<meta http-equiv="content-type" content="text/html;charset=随意编码">

& #x4E2D; （&后空格去掉）
</body>

</html>

按我测试结果 charset=随意编码的话都不会出现乱码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

buypro9

白手起家

论坛徽章:: 0

26楼 [报告]

发表于 2011-01-19 21:15 |只看该作者

我想在perl里直接把& #x4E2D;& #x6587;这类字符串变成$string="中文";而不是在浏览器里。有什么好办法吗？

据我所知 perl 里直接返回中文需要这个shell支持中文。至于在浏览器中或者perl里直接支持都牵涉到该程序是否支持中文。否则就是乱码

而我所说的字符串1. 本来就已经是 & #x+hexnumber格式了。不存在乱码不乱码问题.但是在浏览器中可以还原成正确字符。可以支持任何双字节的文字如日文。泰文等