论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2013-07-22 18:32 |只看该作者 |倒序浏览

本帖最后由 jachin89 于 2013-07-22 18:39 编辑

import urllib2
import re
from bs4 import BeautifulSoup

#req = urllib2.Request("http://zx.caipiao.163.com/trend/ssq_basic.html")
req = urllib2.Request("http://zx.caipiao.163.com/trend/ssq_basic.html?periodNumber=100")
content = urllib2.urlopen(req).read()

soup = BeautifulSoup(content)
htmlcontent = open('conten.html','wb')
htmlcontent.write(content)
htmlFile = open("caipiao.txt",'w')
i=0
test = open('test.html','wb')
test.write(str(soup('td')))
n=1
htmlFile.write("%d.\t"%(n))
for elem in soup.find_all('td',class_=re.compile("^chartBall0\d*$"),limit=170):
      htmlFile.write(elem.string.strip()+ " ")
      i+=1
      print '%s' %(elem.string.strip()),
      if(i == 7):
         i = 0
         n+=1
         htmlFile.write('\n')
         htmlFile.write("%d.\t"%(n))

         print "\n"
htmlFile.close()
-----------------------------------------------------------------------------------------
结果：
1. 08 19 21 24 28 31 15
2. 14 18 27 30 31 33 15
3. 03 05 08 19 20 27 09
4. 05 18 22 28 29 31 06
5. 07 08 18 25 30 32 06
6. 03 10 12 13 27 30 04
7. 05 20 26 27 28 33 03
8. 01 05 07 13 29 32 13
9. 02 12 15 23 24 32 09
10. 03 06 11 17 21 31 07
11. 01 05 13 25 26 32 13
12. 09 11 17 23 24 26 07
13. 05 14 24 25 26 32 01
14. 10 12 18 22 28 29 07
15. 04 05 11 21 27 28 10
16. 05 07 12 16 28 32 04
17. 06 08 14 15 24 25 06
18. 01 16 18 22 28 30 12
19. 22 23 26 27 28 33 09
20. 06 10 16 20 27 32 08
21. 01 13 14 25 31 32 12
22. 09 10 13 17 22 30 13
23. 02 09 15 22 26 32 01
24. 03 08 17 21 25 32 15
25. 01 04 09 13 16 23 02
26.

-------------------------------------------------------------
find_all(name, attrs, recursive, text, limit, **kwargs)  有个limit设置可以限制匹配到的个数，（注：上面没有设置）调试设置180还是匹配到175个。
请问大虾，大神，有谁知道这个问题---我把content的内容也写到一个文件里，里面有全部的记录，但是find_all只有匹配到175

文库|博客

nmweizi

白手起家

论坛徽章:: 0

2楼 [报告]

发表于 2013-07-22 20:29 |只看该作者

本帖最后由 nmweizi 于 2013-07-22 20:37 编辑

limit=300,结果就是300啊，limit=180，结果也是180，没错啊。bs4.__version__ '4.1.3'
08 19 21 24 28 31 15

14 18 27 30 31 33 15

03 05 08 19 20 27 09

05 18 22 28 29 31 06

07 08 18 25 30 32 06

03 10 12 13 27 30 04

05 20 26 27 28 33 03

01 05 07 13 29 32 13

02 12 15 23 24 32 09

03 06 11 17 21 31 07

01 05 13 25 26 32 13

09 11 17 23 24 26 07

05 14 24 25 26 32 01

10 12 18 22 28 29 07

04 05 11 21 27 28 10

05 07 12 16 28 32 04

06 08 14 15 24 25 06

01 16 18 22 28 30 12

22 23 26 27 28 33 09

06 10 16 20 27 32 08

01 13 14 25 31 32 12

09 10 13 17 22 30 13

02 09 15 22 26 32 01

03 08 17 21 25 32 15

01 04 09 13 16 23 02

01 09 11 17 32 33 12

03 12 17 24 27 29 09

06 14 17 22 28 29 02

05 06 13 19 22 28 09

02 04 05 17 19 20 08

05 06 07 11 13 18 15

02 05 06 12 14 28 05

04 06 12 30 31 32 09

02 08 13 28 29 30 05

01 02 05 16 20 26 06

01 07 08 12 16 21 01

01 06 17 19 26 31 11

02 04 07 09 15 20 07

03 06 15 18 30 32 05

04 05 13 23 27 30 09

16 17 18 24 25 30 08

04 11 14 15 22 31 11

01 02 04 12 21 24

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jachin1989

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2013-07-22 21:05 |只看该作者

nmweizi 发表于 2013-07-22 20:29
limit=300,结果就是300啊，limit=180，结果也是180，没错啊。bs4.__version__ '4.1.3'
08 19 21 24 28 ...

C:\Python27\python.exe E:/Projects/CorePython/python_modules/caipiao.py
08 19 21 24 28 31 15

14 18 27 30 31 33 15

03 05 08 19 20 27 09

05 18 22 28 29 31 06

07 08 18 25 30 32 06

03 10 12 13 27 30 04

05 20 26 27 28 33 03

01 05 07 13 29 32 13

02 12 15 23 24 32 09

03 06 11 17 21 31 07

01 05 13 25 26 32 13

09 11 17 23 24 26 07

05 14 24 25 26 32 01

10 12 18 22 28 29 07

04 05 11 21 27 28 10

05 07 12 16 28 32 04

06 08 14 15 24 25 06

01 16 18 22 28 30 12

22 23 26 27 28 33 09

06 10 16 20 27 32 08

01 13 14 25 31 32 12

09 10 13 17 22 30 13

02 09 15 22 26 32 01

03 08 17 21 25 32 15

01 04 09 13 16 23 02

Process finished with exit code 0

我的结果怎么只有25期的。一样代码？？？
>>> import bs4
>>> bs4.__version__
'4.2.1'
>>>

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

crifan

富足长乐

论坛徽章:: 0

4楼 [报告]

发表于 2013-07-23 09:57 |只看该作者

本帖最后由 crifan 于 2013-07-23 10:11 编辑

1.你的python版本是？
2.你自己调试一下，看看conten的内容，即真正返回的htm到底是什么，其中包含的chartBall0\d* 本身只有多少个。
如果本身就只有175，那你程序自然，也没法输出更多的。
如果超过175个，那就是后续的代码又问题了。
总之，一点点调试，自然很容易找到问题所在。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jachin1989

白手起家

论坛徽章:: 0

5楼 [报告]

发表于 2013-07-23 15:15 |只看该作者

crifan 发表于 2013-07-23 09:57
1.你的python版本是？
2.你自己调试一下，看看conten的内容，即真正返回的htm到底是什么，其中包含的chart ...

找出问题了，我安装的是python(x,y) 2.7.5.0 （--python2.7.5） bs4(4.2.1)

然后我现在卸载python(x,y)，然后单独安装了python2.7.5，代码就可以爬取全部的数据了
------问题就在用了python(x,y)------

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 程序设计 › Python › python BeautifulSoup(bs4) 解析网页的时候，find_all只 ...

python BeautifulSoup(bs4) 解析网页的时候，find_all只能解析到175个 [复制链接]