免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1162 | 回复: 3
打印 上一主题 下一主题

[文本处理] 日语音标上下两行提取(将括号内容提取到文字上一行) [复制链接]

论坛徽章:
1
白羊座
日期:2014-11-13 10:19:16
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-08-29 11:39 |只看该作者 |倒序浏览
本帖最后由 iocg 于 2016-08-29 11:45 编辑

如图片,一份日语的word文档,音标在文字的上方。但是从word里面复制到文本中是这样的

  1. 李(り):   はじめまして、私(わたし)は留学生(りゅうがくせい)の李(り)です。どうぞよろしくお願(ねが)      いします。
  2. 陳(ちん):  はじめまして、わたしは留学生(りゅうがくせい)の陳(ちん)です。どうぞよろしくお願(ねが)いします。
  3. 田中(たなか): はじめまして、私(わたし)は田中(たなか)です。こちらこそ どうぞよろしくお願(ねが)いします。李(り)さんは韓国(かんこく)の方(かた)ですか。
  4. 李(り):    いいえ、私(わたし)は韓国人(かんこくじん)ではありません。私(わたし)は中国人(ちゅうごくじん)で す。
  5. 田中(たなか): 陳(ちん)さんも中国(ちゅうごく)の方(かた)ですか。
  6. 陳(ちん):   はい、そうです。
复制代码


能不能将()里面的音标提取到正文的上方,独立一行,和word里面的显示一样呢?
如下:
  1. り                   わたし  りゅうがくせい り                      ねが
  2. 李:   はじめまして、 私  は 留 学 生   の 李 です。どうぞよろしくお 願   いします。
  3. ちん               りゅうがくせい ちん                     ねが
  4. 陳:  はじめまして、わたしは留学生の陳です。どうぞよろしくお 願 いします。
  5. たなか             わたし たなか                             ねが         り      かんこく  
  6. 田中: はじめまして、私は田中です。こちらこそ どうぞよろしくお 願 いします。李さんは 韓国 の方ですか。
  7. り              わたし かんこくじん     わたし ちゅうごくじん
  8. 李:    いいえ、私は韓国人ではありません。私は中国人で す。
  9. たなか  ちん   ちゅうごく  かた
  10. 田中: 陳さんも中国の方ですか。
  11. ちん
  12. 陳:   はい、そうです。
复制代码

QQ图片20160829114022.png (11.4 KB, 下载次数: 24)

日语音标

日语音标

论坛徽章:
1
白羊座
日期:2014-11-13 10:19:16
2 [报告]
发表于 2016-08-29 11:58 |只看该作者

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
3 [报告]
发表于 2016-08-31 14:38 |只看该作者
回复 1# iocg


$ awk -F'[()]' '{j=s="";for(n=1;n<=NF;n+=2){s=s$n" ";gsub(/./," ",$n);for(m=1;m<=length($(n+1));++m)sub(" $","",$n);if(n<NF)j=j$n$(n+1)" "}print j,"\n "s}' FILE
り          わたし りゅうがくせい  り           ねが  
李 :   はじめまして、私 は留学生 の李 です。どうぞよろしくお願       いしま 。
ちん           りゅうがくせい ちん           ねが  
陳 :  はじめまして、わたしは留学生 の陳 です。どうぞよろしくお願 いします。
たなか        わたし たなか                 ねが      り  かんこく かた  
田中 : はじめまして、私 は田中 です。こちらこそ どうぞよろしくお願 いします 李 さんは韓国 の方 ですか。
り        わたし かんこくじん       わたし ちゅうごくじん  
李 :    いいえ、私 は韓国人 ではありません。私 は中国人 で す。
たなか  ちん ちゅうごく かた  
田中 : 陳 さんも中国 の方 ですか。
ちん  
陳 :   はい、そうです。

论坛徽章:
28
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:5415-16赛季CBA联赛之青岛
日期:2017-03-18 22:00:44
4 [报告]
发表于 2016-08-31 14:48 |只看该作者
  1. sed -r 'h;s/.*/)&(/;:a;s/(\)[^(]*)[^@(]/\1@/;ta;s/[()]//g;s/@+//;s/@/ /gp;g;s/\([^)]*\)//g'
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP