免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3431 | 回复: 6
打印 上一主题 下一主题

[文本处理] 怎么从文本生成一个字典,并且根据字典转换原文件 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-06-28 17:54 |只看该作者 |倒序浏览
本帖最后由 hxletter 于 2013-06-28 17:55 编辑

比如说我有如下文本a
dog eat meat
wolf eat dog
扫描文件a的时候每遇到一个新的单词就把它加入字典文件b
1 dog
2 eat
3 meat
4 wolf
如果已经有了字典b,我想把文本文件a根据字典转换为数据文件又怎么做?得到如下:
1 2 3
4 2 1


我现在的思路是先把所有文本内容转成按列的形式(行号,单词)上,再删除其中重复的单词并在该列前面加上序号, 即得到字典。但感觉好复杂啊,有更直接的方法吗?

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
2 [报告]
发表于 2013-06-28 18:01 |只看该作者
  1. awk 'NR==FNR{a[$2]=$1;next}{for(i=1;i<=NF;i++)$i=a[$i]}1' b a
复制代码

论坛徽章:
0
3 [报告]
发表于 2013-06-28 19:03 |只看该作者
本帖最后由 hxletter 于 2013-06-28 19:10 编辑

回复 2# yestreenstars
谢谢了,生成字典部分有什么好想法吗?我弄得好复杂啊,而且字典顺序不是我想要的.
  1. awk '{for(i=1;i<=NF;i++) print $i;}' a | awk '{aa[$1]+=1} END{for(i in aa) print i;}' | awk '{print NR, $1}'
复制代码
  1. 1 eat
  2. 2 dog
  3. 3 meat
  4. 4 wolf
复制代码

论坛徽章:
0
4 [报告]
发表于 2013-06-28 19:24 |只看该作者
本帖最后由 hxletter 于 2013-06-28 19:27 编辑

自己稍微简化了下,但还是有顺序问题。
  1. awk '{for(i=1;i<=NF;i++) aa[$i]+=1}  END{for(i in aa) print i;}' a| awk '{print NR, $1}'
复制代码

论坛徽章:
39
辰龙
日期:2013-08-21 15:45:192015亚冠之广州富力
日期:2015-05-12 16:34:52亥猪
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17双鱼座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:0815-16赛季CBA联赛之吉林
日期:2017-06-24 16:43:52
5 [报告]
发表于 2013-06-28 19:33 |只看该作者
回复 3# hxletter
  1. awk -vRS='[ \n]+' '!a[$1]++{print ++b,$0}'  urfile
复制代码

论坛徽章:
6
摩羯座
日期:2013-08-24 10:43:10狮子座
日期:2013-08-25 10:27:06天秤座
日期:2013-09-11 20:28:44午马
日期:2014-09-28 16:06:0015-16赛季CBA联赛之八一
日期:2016-12-19 13:55:0515-16赛季CBA联赛之天津
日期:2016-12-20 14:01:23
6 [报告]
发表于 2013-06-28 19:34 |只看该作者
根据文件a生成字典b
  1. awk '{for(i=1;i<=NF;i++)if(!a[$i]++)print ++n,$i}' a>b
复制代码

论坛徽章:
6
摩羯座
日期:2013-08-24 10:43:10狮子座
日期:2013-08-25 10:27:06天秤座
日期:2013-09-11 20:28:44午马
日期:2014-09-28 16:06:0015-16赛季CBA联赛之八一
日期:2016-12-19 13:55:0515-16赛季CBA联赛之天津
日期:2016-12-20 14:01:23
7 [报告]
发表于 2013-06-28 19:38 |只看该作者
根据另一个文件和文件a类似的文件a1生成过渡文件c
  1. awk '{for(i=1;i<=NF;i++)if(!a[$i]++)print $i}' a1>c
复制代码
将文件c的陌生单词添加进字典b
  1. while read i ; do grep '\<'$i'\>' b || echo $((`wc -l <b`+1)) $i >>b; done <c
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP