Chinaunix

标题: 如何用C程序实现将GB2312的6763个汉字按输出到一个文本文件 [打印本页]

作者: fyimail    时间: 2008-10-21 16:43
标题: 如何用C程序实现将GB2312的6763个汉字按输出到一个文本文件
如何用C程序实现将GB2312的6763个汉字按输出到一个文本文件?
作者: redor    时间: 2008-10-21 17:16
按照编码段地址.. 数字

  1. int fd = -1, i = 0, start = xx, end = yy;
  2. if((fd = open("/tmp/zh.txt", O_CREAT|O_WRONLY)) > 0)
  3. {
  4.    for(i = start; i < end; i++)
  5.   {
  6.      write(fd, &i, sizeof(short));
  7.      write(fd, "\r\n", 2);
  8.   }
  9.   close(fd);
  10. }
复制代码

作者: fyimail    时间: 2008-10-21 17:22
redor, thank you.  I have a try right now.
作者: fyimail    时间: 2008-10-21 17:23
但是这个地址范围是多少啊?

[ 本帖最后由 fyimail 于 2008-10-21 17:42 编辑 ]
作者: cnangel    时间: 2008-10-21 17:57
本帖最后由 cnangel 于 2010-04-07 09:32 编辑

    int i = 32768;
for (; i < 65536; i ++)
{
if (i % 256 < 0x20)
printf("  ");
else
{
printf("%c%c", i / 256, i % 256);
if (i % 32 == 31) printf("\n");
}
}

作者: Godbach    时间: 2008-10-21 17:59
这样就可以输出汉字啊,呵呵。学习了
作者: redor    时间: 2008-10-21 18:14
原帖由 fyimail 于 2008-10-21 17:23 发表
但是这个地址范围是多少啊?


http://www.css8.cn/css8_document/gb2312.htm

你看看这个是否有帮助
作者: 雨过白鹭洲    时间: 2008-10-21 19:23
一直没搞清楚multi-byte字符,和unicode...

所以我写C语言一直都是直接char,惭愧
作者: honey709    时间: 2008-10-21 20:07
学习了
作者: Godbach    时间: 2008-10-21 20:24
原帖由 雨过白鹭洲 于 2008-10-21 19:23 发表
一直没搞清楚multi-byte字符,和unicode...

所以我写C语言一直都是直接char,惭愧


偶也是。因为一直也没涉及到要输出宽字符的程序。
作者: redor    时间: 2008-10-21 22:00
原帖由 雨过白鹭洲 于 2008-10-21 19:23 发表
一直没搞清楚multi-byte字符,和unicode...

所以我写C语言一直都是直接char,惭愧



其实很容易理解, unicode是把世界上任何一个国家的文字和字符都统一到一个表里, 也就是给你一个编码数字,
以前的unicode是short两个字节也就是65535个字符, 后来好像扩大了.
其他的一些比如UTF-8 UTF-16都是unicode的一种编码实现. 实际上最后的码还是unicode, 真正的的unicode只是一些数字.
我国的gb2312 GBK 都是自己的编码规则, 其实也是数字编码.
后来的gb18030好像扩大了码表可以兼容其他国家的字符.

一般做字符转换是先转成对应的unicode 然后在转成其他的编码, 因为任何字符编码最后都可以转成unicode.
作者: fyimail    时间: 2008-10-22 10:27
原帖由 cnangel 于 2008-10-21 17:57 发表
    int i = 32768;
&nbsp;&nbsp;&nbsp;&nbsp;for (; i < 65536; i ++)
&nbsp;&nbsp;&nbsp;&nbsp;{
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;if (i % 256 < 0x20)
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; ...


非常感谢。
但是里面的一些语句不太懂,32678,65535都代表什么,256代表什么,这段代码执行后,打印出来是好多乱码?




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2