转载关于unicode字符编码的四篇文章,转载地址是: http://blog.csdn.net/qinysong/archive/2006/09/05/1179480.aspx http://www.kuqin.com/language/20080507/8129.html ********************************************************************** java字符编码系列一: Unicode,GBK,GB2312,UTF-8概念基础 Unicode: unicode.org制定的编码机制, 要将全世界常用文字都函括进去. 在1.0中是16位编码, 由U+0000到U+FFFF. 每个2byte码...
by feichai - Java文档中心 - 2009-03-05 07:14:56 阅读(1207) 回复(0)
原文转自: http://blog.8yee.cn/u/q0epBn/archives/2006/24440.htm java为了国际通用,用的是UNICODE来保存里面的字符。而UNICODE只是一个种字符集,字符的存储和表示要用到一定的字符编码格式,而与UNICODE对应的字符编码格式就是我们常看到的UTF-8,UTF-16等等,而UTF-8是最常用的,所以人们常常把它和UNICODE等同起来,这在某些情况下是没有错的,但这样的理解在java里就会产生一些混淆。用下面的程序来演示一下。 定义一...
编写下面的程序代码,分析和观察程序的运行结果: import java.io.*; public class TestCodeIO { public static void main(String[] args) throws Exception{ InputStreamReader isr = new InputStreamReader(System.in,"iso8859-1"); BufferedReader br = new BufferedReader (isr); String strLine = br.readLine(); br.close(); isr.close(); S...
字符:人们使用的记号,抽象意义上的一个符号。比如:‘1’,‘中’,‘a’ 字节:计算机中存储数据的单元,一个8位的二进制数,是一个很具体的存储空间 字符集:使用哪些字符。也就是说哪些汉字,字母和符号会被收入标准中。所包含“字符”的集合就叫做“字符集”。 编码:规定每个“字符”分别用一个字节还是多个字节存储,用哪些字节来存储,这个规定就叫做“编码” 平常我们所说的“字符集”,比如:GB2312, GBK, JIS 等,除...
java字符串的各种编码转换 引自:http://www.blogjava.net/rabbit/archive/2008/03/27/189009.html import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符,也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final String US_ASCII = "US-ASCII"; /** ISO 拉丁字母表 No.1,也叫作 ISO-LATIN-1 */ public static final String ISO_8859_1 = ...
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符,也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final String US_ASCII = "US-ASCII"; /** ISO 拉丁字母表 No.1,也叫作 ISO-LATIN-1 */ public static final String ISO_8859_1 = "ISO-8859-1"; /** 8 位 UCS 转换格式 */ public static final String UTF_8 = "UTF-8"; /** 16...
我通过java使用native的方法调用C++写的so,C++ API是取消息的,我不知道它这个API读出来的字符串的编码是什么,我直接用System.out.println()打出来是乱码,应该如何来转换这个编码呢?我在linux上设置当前用户的环境变量LANG为中文,英文,UTF8都不行,这种问题应该如何下手解决?
1.通过把未知编码字符串,用猜想的编码再解码,观察字符串是不是正确还原了。 原理:假如目标编码没有数组中的字符,那么编码会破坏,无法还原。 缺点:假如字符少,而正巧错误的猜想编码中有这种字节,就会出错。 如:new String("tested str".getBytes("enc"),"enc") 2.大多数时候,我们只要判断本地平台编码和utf8,utf8编码相当有规律,所以可以分析是否是utf9,否则使用本地编码。 原理:分析byte[]来判断规律。 缺点:有时,个别本地编码字节...
值得注意的细节,值得一览! 1. 概述 本文主要包括以下几个方面:编码基本知识,java,系统软件,url,工具软件等。 在 下面的描述中,将以"中文"两个字为例,经查表可以知道其GB2312编码是"d6d0 cec4",Unicode编码为"4e2d 6587",UTF编码就是"e4b8ad e69687"。注意,这两个字没有iso8859-1编码,但可以用iso8859-1编码来"表示"。 2. 编码基本知识 最早的编码是iso8859-1,和ascii编码相似。但为了方便表示各种各样的语言,逐渐出现...
本文转自: http://blog.csdn.net/smartpoko/archive/2006/12/29/1467840.aspx 1. 概述 本文主要包括以下几个方面:编码基本知识,java,系统软件,url,工具软件等。 在下面的描述中,将以"中文"两个字为例,经查表可以知道其GB2312编码是"d6d0 cec4",Unicode编码为"4e2d 6587",UTF编码就是"e4b8ad e69687"。注意,这两个字没有iso8859-1编码,但可以用iso8859-1编码来"表示"。 2. 编码基本知识 最早的编码是iso8859-1,和asc...