免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 5526 | 回复: 7
打印 上一主题 下一主题

[文本处理] 【求助】三个文本处理的问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-08-14 18:20 |只看该作者 |倒序浏览
本人初学这门课,遇到很多问题搞不懂,希望各位大神给与解答~~

【Q1】如何实现文本中删除指定的字符?
例如:
        xxx -c aeiou xx.txt #删除txt中所有的a,e,i,o,u

【Q2】uniq删除的都是比较单纯的重复行或者是忽略几个字符

但是如何把:
        in what I said! "Twaddle!", you say? I'll have you know
        "Twaddle!", you say? I'll have you know
        there's a deep truth
        in what I said! there's a deep truth
变成:
        "Twaddle!", you say? I'll have you know
        in what I said! there's a deep truth
菜鸟表示完全没有思路、、

【Q3】在忽略大小写的情况下如何检查并输出拼写错误的词汇
我记得unix下有个online-dictionary但是真不知道怎麽用、
例’:        Im not
        certin
        mouses
        or
        catsll
        pass
        fael

输出:
        Im certin
        mouses catsll
        fael

论坛徽章:
6
摩羯座
日期:2013-08-24 10:43:10狮子座
日期:2013-08-25 10:27:06天秤座
日期:2013-09-11 20:28:44午马
日期:2014-09-28 16:06:0015-16赛季CBA联赛之八一
日期:2016-12-19 13:55:0515-16赛季CBA联赛之天津
日期:2016-12-20 14:01:23
2 [报告]
发表于 2013-08-14 18:29 |只看该作者
q1
  1. $ echo "xxx -c aeiou xx.txt" | tr -d 'uoiea'
  2. xxx -c  xx.txt
复制代码
q2 没看懂

Q3 首先要有字典,对文件中的每个单词在字典中检索,检索不到输出。

论坛徽章:
0
3 [报告]
发表于 2013-08-14 18:55 |只看该作者
【Q1】
如果要求必须按照: sh xxx -c aeiou filename 这种形式来执行,那么在shell script xxx中应该怎麽写呢?

【Q2】
是我自己突发奇想,我也不知道能不能实现。
大意:第n行是第m行的一部分,那么就保留m行,删除第n行

【Q3】
字典是个什么样的文件?如果我找到了应该怎麽调用呢?

非常感谢之前的解答回复 2# cao627


   

论坛徽章:
0
4 [报告]
发表于 2013-08-14 19:09 |只看该作者
回复 2# cao627
第二题应该是这样的,删除第一次匹配的行,匹配到 in what I said! 和  there's a deep truth


   

论坛徽章:
0
5 [报告]
发表于 2013-08-14 19:16 |只看该作者
我看到了一个题目要求去除重复
in what I said!
"Twaddle!", you say? I'll have you know
"Twaddle!", you say? I'll have you know
there's a deep truth
in what I said!
there's a deep truth

执行后:
"Twaddle!", you say? I'll have you know
in what I said!
there's a deep truth

为什麽我执行后是?
in what I said!
there's a deep truth
"Twaddle!", you say? I'll have you know

我用的:  cat filename | sort -d -u
spiraspera 发表于 2013-08-14 19:09
回复 2# cao627
第二题应该是这样的,删除第一次匹配的行,匹配到 in what I said! 和  there's a deep t ...

论坛徽章:
6
摩羯座
日期:2013-08-24 10:43:10狮子座
日期:2013-08-25 10:27:06天秤座
日期:2013-09-11 20:28:44午马
日期:2014-09-28 16:06:0015-16赛季CBA联赛之八一
日期:2016-12-19 13:55:0515-16赛季CBA联赛之天津
日期:2016-12-20 14:01:23
6 [报告]
发表于 2013-08-14 21:02 |只看该作者
【Q2】
是我自己突发奇想,我也不知道能不能实现。
大意:第n行是第m行的一部分,那么就保留m行,删除第n行
但是如何把:
        in what I said! "Twaddle!", you say? I'll have you know
        "Twaddle!", you say? I'll have you know
        there's a deep truth
        in what I said! there's a deep truth
变成:
        "Twaddle!", you say? I'll have you know
        in what I said! there's a deep truth
菜鸟表示完全没有思路、

"Twaddle!", you say? I'll have you know 怎么没有删除? 它不是in what I said! "Twaddle!", you say? I'll have you know的一部分吗?
  1. $ awk '{a[NR]=$0;b[NR]=$0}END{for(i=1;i<=NR;i++)for(j=1;j<=NR;j++)if(i!=j && index(b[j],a[i])){delete a[i];break};for(i in a)print a[i]}' file
  2. in what I said! there's a deep truth
  3. in what I said! "Twaddle!", you say? I'll have you know
复制代码
【Q3】
字典是个什么样的文件?如果我找到了应该怎麽调用呢?

字典就是你要求的所有合法单词的集合。

论坛徽章:
0
7 [报告]
发表于 2013-08-15 12:19 |只看该作者
我看到了一个题目要求去除重复
in what I said!
"Twaddle!", you say? I'll have you know
"Twaddle!", you say? I'll have you know
there's a deep truth
in what I said!
there's a deep truth

执行后:
"Twaddle!", you say? I'll have you know
in what I said!
there's a deep truth

为什麽我执行后是?
in what I said!
there's a deep truth
"Twaddle!", you say? I'll have you know

我用的:  cat filename | sort -d -u
回复 6# cao627


   

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
8 [报告]
发表于 2013-08-16 10:35 |只看该作者
回复 7# ICrazyBox


因为那个题目的作者用了一种比较愚蠢的方法:
  1. awk '{a[$0]++}END{for(i in a)if(a[i]>1)print i}' urfile
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP