免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1556 | 回复: 0
打印 上一主题 下一主题

bs4的find_next_siblings通过正则过滤不能含子标签 [复制链接]

论坛徽章:
1
操作系统版块每日发帖之星
日期:2016-06-12 06:20:00
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-12-13 09:08 |只看该作者 |倒序浏览


  1. # -*- encoding=utf8 -*-

  2. from bs4 import BeautifulSoup
  3. import re

  4. html_doc='''

  5. <div class='row'>

  6. <h3> AA </h3>
  7.     <p>0. AA0<a href="www.google.com" >google1</a></p>
  8.     <p>2. AA2<a href="www.baidu.com" >baidu2</a></p>
  9.     <p>some</p>
  10.      <p>1. AAc</p>
  11.      <p>AAd </p>


  12. '''

  13. soup = BeautifulSoup(html_doc, 'lxml',from_encoding='utf8')


  14. titles =soup.select("div.row h3")


  15. for title in titles:
  16.     print("--------------------")
  17.     for paragraph in title.find_next_siblings("p",text=re.compile("\d")):
  18.         print(paragraph.text)

复制代码

不写  text=re.compile("\d") 直接打印  paragraph.text  是 0. AA0google1
但是 text=re.compile("\d")  就不行了


您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP