免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2123 | 回复: 4
打印 上一主题 下一主题

[学习分享] 用bash, wget, sed, 在线金山词霸自制词典,查读音和意思 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-03-17 02:15 |只看该作者 |倒序浏览
本帖最后由 madfrogme 于 2013-03-17 11:51 编辑

用Bash脚本wget, sed 和金山词霸写的一个命令行词典

用法很简单 ./d memory 则查memory 的读音和意思

wget是安静模式,没有输出,比如查memory,则会下载memory这个文件

然后cat $1 | col -b | sed 's/[ \t]*//g' > tmp 这一行是去掉所有^M字符,和空格

去掉空格主要是我自己的喜好,方便用正则, 就这几行,仅供参阅

要是真想看懂下面的正则,最好先看一下下载下来的源文件

不想把它弄得太复杂,这样也方便别人删删减减,做成自己的口味

看到下面版主的提示也许还可以把例句抽出来什么的会不会很好啊,

不过个人喜好不同,这就给大家自己判断了


------------------------------------
#!/bin/bash
wget -q http://www.iciba.com/$1

cat $1 | col -b | sed 's/[ \t]*//g' > tmp

sed -n 's/<strong>\[<\/strong><stronglang="EN-US"xml:lang="EN-US">\(.*\)<\/strong><strong>\]<\/strong>/\1/p' tmp

# 下面第一个sed是找到 <spanclass..... 和 </span>之间的内容

# 然后传递给下一个sed

# 下面的第二个sed的意思是找到<label>这一行之后,进而继续匹配

# 然后这次匹配是用s# # # 的形式, 把<label> 和</label>都删掉


sed -nr '/<spanclass="label_list"/,/<\/span>/p' tmp | sed -nr '/<label>/{s#<[/]?label>##g;p}'

rm $1 tmp

---------------------------------------

评分

参与人数 1可用积分 +10 收起 理由
amarant + 10 很给力!

查看全部评分

论坛徽章:
6
CU大牛徽章
日期:2013-05-20 10:43:41IT运维版块每日发帖之星
日期:2016-07-29 06:20:00IT运维版块每日发帖之星
日期:2016-01-27 06:20:00CU大牛徽章
日期:2013-05-20 10:44:16CU大牛徽章
日期:2013-05-20 10:44:0615-16赛季CBA联赛之广东
日期:2018-03-09 11:17:08
2 [报告]
发表于 2013-03-17 10:10 |只看该作者
sofa, 这个有意思

论坛徽章:
13
15-16赛季CBA联赛之同曦
日期:2016-01-28 19:52:032015亚冠之北京国安
日期:2015-10-07 14:28:19NBA常规赛纪念章
日期:2015-05-04 22:32:03处女座
日期:2015-01-15 19:45:44卯兔
日期:2014-10-28 16:17:14白羊座
日期:2014-05-24 15:10:46寅虎
日期:2014-05-10 09:50:35白羊座
日期:2014-03-12 20:52:17午马
日期:2014-03-01 08:37:27射手座
日期:2014-02-19 19:26:54子鼠
日期:2013-11-30 09:03:56狮子座
日期:2013-09-08 08:37:52
3 [报告]
发表于 2013-03-17 11:27 |只看该作者

论坛徽章:
0
4 [报告]
发表于 2013-03-17 11:44 |只看该作者
回复 3# ulovko
哇,这个也很有意思,还能显示例句了,不过好像dict.cn先天没有读音,有点遗憾,我用金山词霸的主要原因就是可以把读音抽出来很让人开心

论坛徽章:
0
5 [报告]
发表于 2013-03-17 11:46 |只看该作者
回复 2# craaazy123


    谢了哈
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP