论坛徽章:: 13

电梯直达

1楼 [收藏(0)] [报告]

发表于 2014-10-20 16:29 |只看该作者 |倒序浏览

本帖最后由 hmchzb19 于 2014-10-21 11:16 编辑

import urllib
import urllib2
import string
import sys
from bs4 import BeautifulSoup
data=sys.argv[1]
#response = urllib2.urlopen("http://iciba.com/"+"data")
问题在这里,下面的就对了
response = urllib2.urlopen("http://iciba.com/"+data)
the_page = response.read()
pool = BeautifulSoup(the_page)
results1 = pool.find('div',attrs={'class':'group_pos'}).findAll('label')
results2 = pool.find('div',attrs={'class':'net_paraphrase'}).find('ul').findAll('li')
answer=''
net_ans=''
for result1 in results1:
answer+=result1.getText()
for result2 in results2:
net_ans+=result2.getText()
print "the meaning of %s is \n %s \n %s" %(sys.argv[1],answer,net_ans)

复制代码

./get_iciba.py  query
the meaning of query is
资料，材料；datum的复数；[计算机]数据，资料；从科学实验中提取的价值
数据；数据的；资料；资料的

最后的结果却是这样，不太明白哪里出问题了,另外page source 如下

<div class="group_prons">

<div class="group_pos">
<p>
<strong class="fl">n.</strong>
<span class="label_list">
<label>问题；</label>
<label>疑问；</label>
<label>询问；</label>
<label>问号</label>
</span>
</p>
<p>
<strong class="fl">vt.</strong>
<span class="label_list">
<label>质疑，对…表示疑问</label>
</span>
</p>
<p>
<strong class="fl">vi.</strong>
<span class="label_list">
<label>询问；</label>
<label>表示怀疑</label>
</span>
</p>
</div>
</div>

<div class="net_paraphrase">
<a href="###" id="net_means_label" title="网络释义">网络</a>
<ul class="clear">
     <li>查询；</li>
     <li>质问；</li>
     <li>搜索请求；</li>
     <li>询问</li>
</ul>
</div>

文库|博客

crifan

富足长乐

论坛徽章:: 0

2楼 [报告]

发表于 2014-10-21 10:09 |只看该作者

1.最后的结果却是这样
你希望的是哪样？

2.不太明白哪里出问题了
我也没明白你想要什么。。。

3.源码
拜托先把源码用工具格式化一下，方便看，这样别人才方便帮你分析。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

hmchzb19

家境小康

论坛徽章:: 13

3楼 [报告]

发表于 2014-10-21 10:45 |只看该作者

1. sys.argv[1]就是我要查的单词。
2. 这个脚本做的就是在iciba.com上查英文单词的意思，然后把结果打印出来而已。
3. 这个网页的源代码我用chrome看到的就比较乱，所以是看起来比较乱。
这是我answer里面要取的内容，就是label里面的text.
代码就是这一句：
results1 = pool.find('div',attrs={'class':'group_pos'}).findAll('label')

<div class="group_prons">
<div class="group_pos">
<p>
<strong class="fl">n.</strong>
<span class="label_list">
<label>问题；</label>
<label>疑问；</label>
<label>询问；</label>
<label>问号</label>
</span>
</p>
<p>
<strong class="fl">vt.</strong>
<span class="label_list">
<label>质疑，对…表示疑问</label>
</span>
</p>
<p>
<strong class="fl">vi.</strong>
<span class="label_list">
<label>询问；</label>
<label>表示怀疑</label>
</span>
</p>
</div>
</div>

复制代码

下面是我net_ans要取的内容。对应这一句：
results2 = pool.find('div',attrs={'class':'net_paraphrase'}).find('ul').findAll('li')

<div class="net_paraphrase">
<a href="###" id="net_means_label" title="网络释义">网络</a>
<ul class="clear">
<li>查询；</li>
<li>质问；</li>
<li>搜索请求；</li>
<li>询问</li>
</ul>
</div>

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 程序设计 › Python › [已经解决]写了一个用beautiful soup抓iciba.com 单词意 ...

[已经解决]写了一个用beautiful soup抓iciba.com 单词意思的脚本，但是输出不对 [复制链接]

浏览过的版块