hightman 发表于 2006-04-03 19:44

将全部GBK编码汉字转换为拼音. (原创)

如题所说, 有时会需要用到这个功能, 网上也已经出现过类似程序, 不过支持的范围比较小

我作了一个基本上支持全部GBK编码的汉字转拼音程序, 欢迎使用.目前不支持多音字

源码打包下载见附件   测试地址 (一次一字)

[ 本帖最后由 hightman 于 2008-12-16 16:34 编辑 ]

hightman 发表于 2006-04-03 19:57

贴个图吧

如题, 现场贴图

Yarco 发表于 2006-04-04 00:06

不错。 帮顶

neoedmund 发表于 2006-04-04 09:32

neoeime.sf.net
一个java输入法。
里面附带GBK拼音表,基本词汇表,日语词汇读法表。 (都是网上收集的)。

艾斯尼勒 发表于 2006-04-04 11:02

研究研究

艾斯尼勒 发表于 2006-04-04 11:12

老兄,把怎么分析的py.dat说说吧

dulao5 发表于 2006-04-04 11:26

代码风格不错,但是只有gb2312编码,gbk编码范围更广,而且有几个区域是不连续的,你需要一张更大的表

3sane 发表于 2006-04-04 13:01

回复 1楼 hightman 的帖子

不错,连“妺”这种冷僻字都有。

hightman 发表于 2006-04-04 13:05

原帖由 dulao5 于 2006-4-4 11:26 发表
代码风格不错,但是只有gb2312编码,gbk编码范围更广,而且有几个区域是不连续的,你需要一张更大的表

我发的这个就是 GBK 编码的, 基本上很齐全了. 大概2.5万字不到一点

hightman 发表于 2006-04-04 13:07

原帖由 艾斯尼勒 于 2006-4-4 11:12 发表
老兄,把怎么分析的py.dat说说吧

py.dat 很简单啦, 看下程序就知道了

基本上是 char(8) ......... 连续下去
将汉字的编码进行计算得出一个序号, 序号就是在 py.dat 中对应的拼音位置, 所以速度很快

因为汉字编码基本上是连续的, 但也有部分不连续, 已被我优化忽略了, 所以py.dat 大概膨胀了几KB
页: [1] 2 3 4
查看完整版本: 将全部GBK编码汉字转换为拼音. (原创)