免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 3056 | 回复: 20
打印 上一主题 下一主题

[文本处理] 已经结贴.结贴 文件编码方式 - enca [复制链接]

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-03-29 21:20 |只看该作者 |倒序浏览
本帖最后由 sunzhiguolu 于 2016-03-30 18:15 编辑

file 命令查看文件的编码方式, 结果显示 ISO-8859, 与 iconv 支持的哪种编码方式对应.

  1. file data.txt
  2. data.txt: ISO-8859 text, with CRLF line terminators
  3. --------------------------------------------------------------
  4. CP28591 CP819 IBM819 ISO-8859-1 ISO-IR-100 ISO8859-1 ISO8859_1 ISO_8859-1 ISO_8859-1:1987 L1 LATIN1 CSISOLATIN1
  5. CP28592 ISO-8859-2 ISO-IR-101 ISO8859-2 ISO8859_2 ISO_8859-2 ISO_8859-2:1987 L2 LATIN2 CSISOLATIN2
  6. CP28593 ISO-8859-3 ISO-IR-109 ISO8859-3 ISO8859_3 ISO_8859-3 ISO_8859-3:1988 L3 LATIN3 CSISOLATIN3
  7. CP28594 ISO-8859-4 ISO-IR-110 ISO8859-4 ISO8859_4 ISO_8859-4 ISO_8859-4:1988 L4 LATIN4 CSISOLATIN4
  8. CP28595 CYRILLIC ISO-8859-5 ISO-IR-144 ISO8859-5 ISO8859_5 ISO_8859-5 ISO_8859-5:1988 CSISOLATINCYRILLIC
  9. ARABIC ASMO-708 CP28596 ECMA-114 ISO-8859-6 ISO-IR-127 ISO8859-6 ISO8859_6 ISO_8859-6 ISO_8859-6:1987 CSISOLATINARABIC
  10. CP28597 ECMA-118 ELOT_928 GREEK GREEK8 ISO-8859-7 ISO-IR-126 ISO8859-7 ISO8859_7 ISO_8859-7 ISO_8859-7:1987 ISO_8859-7:2003 CSISOLATINGREEK
  11. CP28598 CP38598 HEBREW ISO-8859-8 ISO-IR-138 ISO8859-8 ISO8859_8 ISO_8859-8 ISO_8859-8:1988 CSISOLATINHEBREW
  12. CP28599 ISO-8859-9 ISO-IR-148 ISO8859-9 ISO8859_9 ISO_8859-9 ISO_8859-9:1989 L5 LATIN5 CSISOLATIN5
  13. ISO-8859-10 ISO-IR-157 ISO8859-10 ISO_8859-10 ISO_8859-10:1992 L6 LATIN6 CSISOLATIN6
  14. ISO-8859-11 ISO8859-11 ISO_8859-11
  15. ISO-8859-13 ISO-IR-179 ISO8859-13 ISO_8859-13 L7 LATIN7
  16. ISO-8859-14 ISO-CELTIC ISO-IR-199 ISO8859-14 ISO_8859-14 ISO_8859-14:1998 L8 LATIN8
  17. CP28605 ISO-8859-15 ISO-IR-203 ISO8859-15 ISO_8859-15 ISO_8859-15:1998 LATIN-9
  18. ISO-8859-16 ISO-IR-226 ISO8859-16 ISO_8859-16 ISO_8859-16:2001 L10 LATIN10

复制代码

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
2 [报告]
发表于 2016-03-29 21:40 |只看该作者
利用 file -i data.txt 得出的结果, iconv 转换后出现一堆乱码.  直接利用 gb2312 to utf8 倒是可以, 哪位大神能为解释下, 谢谢...
  1. What@What-PC /tmp
  2. $ file -i data.txt
  3. data.txt: text/plain; charset=iso-8859-1

  4. What@What-PC /tmp
  5. $ iconv -f iso-8859-1 -t utf8 data.txt
  6. »ªÖÐ.ÒæÑôB5³§.»ªÖÐ.ÒæÑôB5³§/20kV.#3»ú
  7. ½­Î÷.¾Å½­Ð³§.½­Î÷.¾Å½­Ð³§/15.75kV.#7»ú
  8. What@What-PC /tmp
  9. $ iconv -f gb2312 -t utf8 data.txt
  10. 华中.益阳B5厂.华中.益阳B5厂/20kV.#3机
  11. 江西.九江新厂.江西.九江新厂/15.75kV.#7机
复制代码

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
3 [报告]
发表于 2016-03-29 22:06 |只看该作者
通过 file 命令可以获取到 iconv 命令指定的编码方式吗, 查了下使用 vi 编辑器可以查看编码方式.
用 file 命令可以做到吗.

论坛徽章:
84
每日论坛发贴之星
日期:2015-12-29 06:20:00每日论坛发贴之星
日期:2016-01-16 06:20:00每周论坛发贴之星
日期:2016-01-17 22:22:00程序设计版块每日发帖之星
日期:2016-01-20 06:20:00每日论坛发贴之星
日期:2016-01-20 06:20:00程序设计版块每日发帖之星
日期:2016-01-21 06:20:00每日论坛发贴之星
日期:2016-01-21 06:20:00程序设计版块每日发帖之星
日期:2016-01-23 06:20:00程序设计版块每日发帖之星
日期:2016-01-31 06:20:00数据库技术版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-14 06:20:00
4 [报告]
发表于 2016-03-30 09:36 |只看该作者
man enca   貌似这个可以

论坛徽章:
84
每日论坛发贴之星
日期:2015-12-29 06:20:00每日论坛发贴之星
日期:2016-01-16 06:20:00每周论坛发贴之星
日期:2016-01-17 22:22:00程序设计版块每日发帖之星
日期:2016-01-20 06:20:00每日论坛发贴之星
日期:2016-01-20 06:20:00程序设计版块每日发帖之星
日期:2016-01-21 06:20:00每日论坛发贴之星
日期:2016-01-21 06:20:00程序设计版块每日发帖之星
日期:2016-01-23 06:20:00程序设计版块每日发帖之星
日期:2016-01-31 06:20:00数据库技术版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-14 06:20:00
5 [报告]
发表于 2016-03-30 09:39 |只看该作者
还有人说这个 https://libraries.io/cocoapods/uchardet
  但是看页面没有提 gb2312

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
6 [报告]
发表于 2016-03-30 10:50 |只看该作者
回复 4# yjh777
多谢大神帮忙, 我的是 Win 7 + Cygwin 环境 里面好像没有 enca 这个命令.

   

论坛徽章:
84
每日论坛发贴之星
日期:2015-12-29 06:20:00每日论坛发贴之星
日期:2016-01-16 06:20:00每周论坛发贴之星
日期:2016-01-17 22:22:00程序设计版块每日发帖之星
日期:2016-01-20 06:20:00每日论坛发贴之星
日期:2016-01-20 06:20:00程序设计版块每日发帖之星
日期:2016-01-21 06:20:00每日论坛发贴之星
日期:2016-01-21 06:20:00程序设计版块每日发帖之星
日期:2016-01-23 06:20:00程序设计版块每日发帖之星
日期:2016-01-31 06:20:00数据库技术版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-14 06:20:00
7 [报告]
发表于 2016-03-30 12:06 |只看该作者

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
8 [报告]
发表于 2016-03-30 15:41 |只看该作者
回复 7# yjh777
大神, 我是从第一个链接下载的 Cygwin x64 安装程序,
第二个链接 有点不知所措, 能给个参考吗. 谢谢...


   

论坛徽章:
84
每日论坛发贴之星
日期:2015-12-29 06:20:00每日论坛发贴之星
日期:2016-01-16 06:20:00每周论坛发贴之星
日期:2016-01-17 22:22:00程序设计版块每日发帖之星
日期:2016-01-20 06:20:00每日论坛发贴之星
日期:2016-01-20 06:20:00程序设计版块每日发帖之星
日期:2016-01-21 06:20:00每日论坛发贴之星
日期:2016-01-21 06:20:00程序设计版块每日发帖之星
日期:2016-01-23 06:20:00程序设计版块每日发帖之星
日期:2016-01-31 06:20:00数据库技术版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-14 06:20:00
9 [报告]
发表于 2016-03-30 16:25 |只看该作者
搜了一下 发现有这个包
  https://cygwin.com/cgi-bin2/pack ... nca&arch=x86_64

你直接用
  setup.exe-x86_64.exe  -q --packages=enca    #应该就可以了

论坛徽章:
84
每日论坛发贴之星
日期:2015-12-29 06:20:00每日论坛发贴之星
日期:2016-01-16 06:20:00每周论坛发贴之星
日期:2016-01-17 22:22:00程序设计版块每日发帖之星
日期:2016-01-20 06:20:00每日论坛发贴之星
日期:2016-01-20 06:20:00程序设计版块每日发帖之星
日期:2016-01-21 06:20:00每日论坛发贴之星
日期:2016-01-21 06:20:00程序设计版块每日发帖之星
日期:2016-01-23 06:20:00程序设计版块每日发帖之星
日期:2016-01-31 06:20:00数据库技术版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-14 06:20:00
10 [报告]
发表于 2016-03-30 16:43 |只看该作者
如果原来的 cygwin 版本旧了,下载最新的 setup.exe-x86_64.exe ;

然后先 ./setup.exe-x86_64.exe  -q  -g  升级一下,要不然很多命名执行回失败,也没有任何输出
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP