免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 2468 | 回复: 22
打印 上一主题 下一主题

[文本处理] 替换的问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2017-02-26 17:15 |只看该作者 |倒序浏览



把a中的生僻字替换成对应的b中相同的生僻字对应的拼音后,输出。

a
  1. a   de   lu   骥
  2. ai   鑫     yue
  3. ai   ya   淇  
  4. ai   鹄  睿
  5. 邝  昊     wen
复制代码


b
  1. ji(骥)
  2. xin(鑫)
  3. qi(淇)
  4. hu(鹄)
  5. rui(睿)
  6. kuang(邝)
  7. hao(昊)
  8. heng(姮)
  9. shi(奭)
  10. yue(龠)
复制代码



输出
  1. a   de   lu   ji
  2. ai   xin     yue
  3. ai   ya   qi  
  4. ai   hu  rui
  5. kuang   hao     wen
复制代码




论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
2 [报告]
发表于 2017-02-26 17:24 |只看该作者
  1. awk -F'[() ]+' 'NR==FNR{a[$2]=$1;next}{for(i=1;i<=NF;i++)$i=a[$i]?a[$i]:$i}1' b a
复制代码

论坛徽章:
0
3 [报告]
发表于 2017-02-26 17:43 |只看该作者
回复 2# haooooaaa



神速

完全正确

论坛徽章:
0
4 [报告]
发表于 2017-02-27 09:50 |只看该作者



不另开贴求助了,本帖继续求助

上面的生僻字不是太理想,有遗漏。另选一个数量多的

第一个求助命令:

a
  1. 呵 呵
  2. 吖 挨 孀
  3. 矮 泷
  4. 傱 呵 嗄 双
复制代码


b
  1. A





  2. Ai



  3. Shuang






  4. 注意:里面的拼音大小写不确定
复制代码


求助:当a文档与b文档汉字对比后,输出对应的拼音小写

结果
  1. a a
  2. ya ai shuang
  3. ai shuang
  4. shuang a a shuang
复制代码



第二个求助命令:

重新再给一个方法的命令(因为2楼已经给出下一步的方法)

file
  1. A





  2. Ai



  3. Shuang






  4. 注意:里面的拼音大小写不确定
复制代码


输出
  1. a(啊)
  2. a(阿)
  3. a(呵)
  4. a(吖)
  5. a(嗄)
  6. ai(爱)
  7. ai(矮)
  8. ai(挨)
  9. shuang(双)
  10. shuang(霜)
  11. shuang(爽)
  12. shuang(泷)
  13. shuang(孀)
  14. shuang(傱)
复制代码






论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
5 [报告]
发表于 2017-02-27 10:12 |只看该作者
  1. awk 'NR==FNR{if(/^[A-Za-z]/)s=$0;else a[$0]=s;next}{for(i=1;i<=NF;i++)$i=a[$i]?tolower(a[$i]):$i}1' b a
复制代码

论坛徽章:
28
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:5415-16赛季CBA联赛之青岛
日期:2017-03-18 22:00:44
6 [报告]
发表于 2017-02-27 11:50 |只看该作者
本帖最后由 moperyblue 于 2017-02-27 11:58 编辑

#1.
  1. awk 'NR==FNR{if(/[A-Za-z]/)s=tolower($1);else a[$1]=s;next}{while(i++<NF)if(a[$i])$i=a[$i]}1;i=0' b a
复制代码

论坛徽章:
28
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:5415-16赛季CBA联赛之青岛
日期:2017-03-18 22:00:44
7 [报告]
发表于 2017-02-27 11:58 |只看该作者
#2.
  1. awk '/[A-Za-z]/{s=tolower($1);next}{print s "("$1")"}' file
复制代码

论坛徽章:
0
8 [报告]
发表于 2017-02-27 18:33 |只看该作者
本帖最后由 rtzd 于 2017-02-28 08:30 编辑

回复 5# haooooaaa
回复 6# moperyblue

用这两个命令
输出均是a的相同的数据(不截图了)
可能是我文档的问题?a文档直接用记事本及写字板打开没问题。但用UE打开是乱码。
把我的原始文档发上附件来了。若你们测试正确,请发回个正确的附件给我好吗?



附件已删除

论坛徽章:
0
9 [报告]
发表于 2017-02-27 18:33 |只看该作者
回复 7# moperyblue

这个命令输出是下面这种情况。请看附件中的b
能否测试正确后,也回复个正确的附件?
a
(啊
)
a
(阿
)
a
(呵
)
a
(吖
)
a
(嗄
)

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
10 [报告]
发表于 2017-02-27 23:25 |只看该作者
回复 4# rtzd

$ awk 'NR==FNR{if(/[A-Za-z]/)k=tolower($1);a[$1]=k;next}{for(n=1;n<=NF;++n)$n=a[$n];print}' b a
a a
a ai shuang
ai shuang
shuang a a shuang

$ awk '{if(/[A-Za-z]/){k=tolower($1);next}print k"("$1")"}' b
a(啊)
a(阿)
a(呵)
...
shuang(孀)
shuang(傱)

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP