12 / 2 页下一页

论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2009-08-19 22:03 |只看该作者 |倒序浏览

从dict.cn取词。d.py

#! /usr/bin/python
# -*- coding: utf-8 -*-
import urllib,re,sys
def unquote(q):
'''在unicode终端下可以显示音标。'''
return re.sub('&#(\d{1,5});',lambda m:unichr(int(m.group(1))),q).encode('utf8')
if __name__=="__main__":
if len(sys.argv)==1:
print "请输入单词"
sys.exit(0)
else:
word=sys.argv[1]
response = urllib.urlopen("http://www.dict.cn/"+word+".htm")
result=response.read()
find=re.findall(r'您要查找的是不是',result,re.S)
if len(find)>=1:
print "没找到"
sys.exit(0)
list=re.findall(r"<table><tr>(.+?)添加生词",result,re.S)
pronounce=re.findall(r'<span class="pronounce">(.+?)</span>',list[0])
jies=re.findall(r'<div class="mut_jies"><strong>(.+?)</strong></div>',list[0])
ol=re.findall(r'<ol class="mut_ol">(.+?)</ol>',list[0],re.S)
if len(ol)>=1:
example=re.findall(r'<li>(.+?)</li>',ol[0],re.S)
print word,
if len(pronounce)>=1:
print unquote(pronounce[0])
print re.sub('<br />','\n',jies[0])
print
if len(ol)>=1:
for i in range(len(example)):
print str(i+1)+'.',re.sub('<.+?>','',example[i]),

复制代码

[ 本帖最后由 two 于 2009-8-21 11:42 编辑 ]

rrr.GIF (15.75 KB, 下载次数: 41)

评分

参与人数 1	可用积分 +2	收起理由
smallfish_xy	+ 2	原创内容

查看全部评分

文库|博客

two

白手起家

论坛徽章:: 0

2楼 [报告]

发表于 2009-08-19 22:08 |只看该作者

显示音标：

SHN3IR~U.PNG (56.08 KB, 下载次数: 34)

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

fmail

丰衣足食

论坛徽章:: 0

3楼 [报告]

发表于 2009-08-20 00:08 |只看该作者

原帖由 two 于 2009-8-19 22:03 发表
从dict.cn取词。d.py

#! /usr/bin/python
# -*- coding: utf-8 -*-
import urllib,re,sys

def unquote(q):
'''在unicode终端下可以显示音标。'''
return re.sub('&#(\d{1,5});',lambda m:unichr( ...

dict.cn有api的啊。。何须正则这么麻烦

我在这里扔过一个qt版本的

http://www.javaeye.com/topic/434185

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

smallfish_xy

广告杀手

论坛徽章:: 0

4楼 [报告]

发表于 2009-08-20 08:36 |只看该作者

哈哈，看到这个觉得俺以前写的那个实在太囧了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

kert_t8

白手起家

论坛徽章:: 0

5楼 [报告]

发表于 2009-08-20 11:24 |只看该作者

事实上，dict.cn在自己页面上的解释和例句比api调用返回的多多了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

nietsche

家境小康

论坛徽章:: 0

6楼 [报告]

发表于 2009-08-20 12:33 |只看该作者

好！
不过有个问题想起来，如果网页用脚本（js）所写，用正则怎么去处理，如果java脚本是一个函数，而这个函数可能就是下载？——python能否处理java脚本？
——多谢！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wolfg

荣誉版主

论坛徽章:: 0

7楼 [报告]

发表于 2009-08-20 13:16 |只看该作者

原帖由 nietsche 于 2009-8-20 12:33 发表
python能否处理java脚本？
——多谢！

纠正一下，java脚本还是叫做javascript吧。

如果网页用脚本（js）所写

能否给个具体例子？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

thsniperwolf

小富即安

论坛徽章:: 0

8楼 [报告]

发表于 2009-08-20 16:06 |只看该作者

回复 #6 nietsche 的帖子

是不是想解析google的翻译？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

thsniperwolf

小富即安

论坛徽章:: 0

9楼 [报告]

发表于 2009-08-20 16:09 |只看该作者

哈哈，本着学习的态度改了一下3楼的程序

#!/usr/bin/env python
# coding:utf-8

import urllib
import sys
import traceback
import re
from xml.etree.ElementTree import parse

def lookup(word):

    dict_url="http://dict.cn/ws.php?utf8=true&q=%s"
    url = dict_url % word
    resXML = parse(urllib.urlopen(url)).getroot()
    p = resXML.find("pron")
    d = resXML.find("def")

    if p == None:
        word = "[%s]" % word
        url = dict_url % word
        suggestion = parse(urllib.urlopen(url)).getroot()
        referenceWords = ",".join([i.text for i in suggestion.findall("sugg")])
        print "也许您要查找的是:" , referenceWords
    else:
        print "音:" ,p.text
        print "含义:" ,d.text
        print resXML.findall("sent")
        
        for i,sent in enumerate(resXML.findall("sent")):
            print i,sent[0].text
            print " " + sent[1].text

if __name__ == "__main__":
    while(True):
        word = raw_input("\n输入您要查询的单词(88是退出)：")
        if word == "88":
            break
        elif re.search("^([a-zA-Z]*)$",word)==None:
            print "Does not support C to E"
            break
        else:
            try:
                lookup(word)
            except Exception,e:
                print traceback.format_exc()

[ 本帖最后由 wolfg 于 2009-8-20 17:33 编辑 ]