论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2013-01-13 00:43 |显示全部楼层 |倒序浏览

aa.rar (604 Bytes, 下载次数: 11)

附件压缩包，解开后是一个aa.frp的windows中的报表文件。
现在想通过shell只抽取该文件中的中文信息。
请教各位兄弟姐妹们，有什么好办法？

因为我知道用sed可以只抽取数字，或者只抽取英文，但现在想要弄中文，就不知道该怎么办了？

文库|博客

daming31

白手起家

论坛徽章:: 0

2楼 [报告]

发表于 2013-01-13 10:12 |显示全部楼层

回复 3# zavakid

tokenizer是个啥东东呀？没有用过。刚google了一把，好像是个什么java类？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

daming31

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2013-01-13 10:14 |显示全部楼层

回复 2# mcshell

我已经直接把.frp改成.txt了，但用cat读的时候，有用的信息还是夹杂在一堆乱码中。唉
倒是用strings 文件名，可以读出非中文的正常信息。
这位兄弟说的把frp转成txt，可以实现没有乱码的转吗？我现在有近五十万个这样的文件，如果要转也是想办法批量转。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

daming31

白手起家

论坛徽章:: 0

4楼 [报告]

发表于 2013-01-15 00:27 |显示全部楼层

回复 9# seesea2517

因为这个.frp的文件，如果直接cat的话，除了英文、数字、中文，还有乱码，所以，没有办法用排除法。
已经头痛好几天了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 程序设计 › Shell › 如何只抽取到一个文件中的中文信息

[文本处理] 如何只抽取到一个文件中的中文信息 [复制链接]