- 论坛徽章:
- 0
|
在现在的软件工程当中,一个项目的完工并不可能只用到一种语言,往往会用到好几种语言相互配合才能完成整个工程。这就会遇到不同语言之间相互通信的问题,以及不同语言采用不同编码的转化问题,处理不好汉字将会产生乱码。
当今最流行的编程语言当属JAVA和C类语言,就以此为例加以说明。
JAVA一般采用UTF8的编码方式,而C类语言一般采用Unicode编码方式,则,UTF8编码转Unicode编码函数如下:
string textUTF8;
string textUnicode;
textUnicode=UTF8toUnicode((char *)textUTF8.c_str());
........
string UTF8toUnicode(char *s)
{
int len = 0;
WCHAR* r = new WCHAR[strlen(s) * 2];
while(s[0])
{
int bytes = 1;
if(s[0] & 0x80)
while(s[0] & (0x80 >> bytes)) bytes++;
if(bytes == 1)
r[len] = s[0];
else
{
r[len] = 0;
for(char*p = s + (bytes - 1); p > s; p--)
r[len] |= ((*p) & 0x3F) ((bytes - (p - s) - 1) * 6);
r[len] |= (s[0] & ((1 (7 - bytes)) - 1)) ((bytes - 1) * 6);
}
len++;
s += bytes;
}
r[len] = 0;
char*buffer = new char[len * 2 + 1];
ZeroMemory(buffer, len * 2 + 1);
::WideCharToMultiByte(CP_ACP, NULL, r, len, buffer, 1+ 2 * len, NULL, NULL);
string str = buffer;
delete[] r;
delete[] buffer;
return str;
}
本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u3/90876/showart_2135630.html |
|