免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 6455 | 回复: 11
打印 上一主题 下一主题

haskell 如何读入中文文件呢? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-05-13 09:19 |只看该作者 |倒序浏览
在 ghci 下,用 readFile 和 readUTF8File 读入中文文件,怎么显示出来都是 \xxxx\xxxx 这样的形式呢?

而用 let x = "你好" 显示的就是汉字。
那么,正确的读入中文文件的方法是什么呢?

谢谢各位了先。

注,用的是 utf8 的 locale, 文件编码也是用的 utf8。

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
2 [报告]
发表于 2009-05-13 10:35 |只看该作者
原帖由 drunkedcat 于 2009-5-13 09:19 发表
在 ghci 下,用 readFile 和 readUTF8File 读入中文文件,怎么显示出来都是 \xxxx\xxxx 这样的形式呢?

而用 let x = "你好" 显示的就是汉字。
那么,正确的读入中文文件的方法是什么呢?

默认情况下 GHC 的 String 是不支持 UTF-8 的,你可能需要先安装 utf8-string 或类似的模块,然后使用其中的 String, readFile 等函数。

论坛徽章:
0
3 [报告]
发表于 2009-05-14 14:08 |只看该作者
utf8-string 在 ghc 里已经有了,还是不会用,在 google 和 google code 也没找到例子,继续摸索。

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
4 [报告]
发表于 2009-05-14 14:17 |只看该作者
原帖由 drunkedcat 于 2009-5-14 14:08 发表
utf8-string 在 ghc 里已经有了,还是不会用,

System.IO.UTF8 提供的接口和 System.IO 提供的基本一样嘛,你碰到什么困难了?

论坛徽章:
0
5 [报告]
发表于 2009-05-14 15:36 |只看该作者
原帖由 MMMIX 于 2009-5-14 14:17 发表

System.IO.UTF8 提供的接口和 System.IO 提供的基本一样嘛,你碰到什么困难了?



谢谢版主,现在用一个绕弯的办法:
我发现,用 System.IO.UTF8 读进来的东西虽然在 ghci 下 show 的时候还是 unicode 数字,但是写回文件后就又是汉字了,也就是说,在文件 IO 上还是正常的,只是在调试时不能看写的是什么。先这样了,再看看 ghci 的 show 是如何处理的。

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
6 [报告]
发表于 2009-05-14 16:30 |只看该作者
原帖由 drunkedcat 于 2009-5-14 15:36 发表

谢谢版主,现在用一个绕弯的办法:
我发现,用 System.IO.UTF8 读进来的东西虽然在 ghci 下 show 的时候还是 unicode 数字,但是写回文件后就又是汉字了,也就是说,在文件 IO 上还是正常的,只是在调试 ...

那你就不要 show 嘛。
用 putStrLn

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
7 [报告]
发表于 2009-05-14 16:33 |只看该作者
原帖由 flw 于 2009-5-14 16:30 发表

那你就不要 show 嘛。
用 putStrLn

对头

论坛徽章:
0
8 [报告]
发表于 2009-05-15 17:01 |只看该作者
楼上两位正解,多谢。

只是,为什么呢?用 putStrLn 就可以,用 show 就不可以?

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
9 [报告]
发表于 2009-05-15 17:10 |只看该作者
原帖由 drunkedcat 于 2009-5-15 17:01 发表
楼上两位正解,多谢。

只是,为什么呢?用 putStrLn 就可以,

你用的 putStrLn 是 System.IO.UTF8 提供的。
用 show 就不可以?

show 用的是 GHCi 自己的。

论坛徽章:
0
10 [报告]
发表于 2009-05-15 18:25 |只看该作者
原帖由 MMMIX 于 2009-5-15 17:10 发表

你用的 putStrLn 是 System.IO.UTF8 提供的。

show 用的是 GHCi 自己的。


我试了一下,不加载 System.IO.UTF8, 直接用 prelude 的 readFile 和 putStrLn ,是一样的结果。能正常显示汉字。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP