免费注册 查看新帖 |

ChinaUnix.net

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2688 | 回复: 4

关于爬取百度搜索结果不对的问题 [复制链接]

论坛徽章:
0
发表于 2018-11-19 15:12 |显示全部楼层
  1. from selenium import webdriver
  2. from selenium.webdriver.support.ui import WebDriverWait
  3. from selenium.webdriver.support import expected_conditions as EC
  4. from selenium.webdriver.common.by import By
  5. from pyquery import PyQuery as pq
  6. import time

  7. if __name__ == "__main__":
  8.     browser = webdriver.Chrome()
  9.     wait = WebDriverWait(browser, 5)
  10.     browser.get("http://www.baidu.com")
  11.     kw = browser.find_element_by_id("kw")
  12.     kw.send_keys("iphone6")
  13.    
  14.     button = browser.find_element_by_id("su")
  15.     button.click()
  16.     wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#container #content_left')))
  17.     html = browser.page_source
  18.     print(html)
  19.     browser.close()
复制代码
html里的内容不对。只有一个什么<meta>这个标签的内容。没有搜索结果。不知道什么地方不对

论坛徽章:
0
发表于 2018-11-30 18:48 |显示全部楼层
点击  "cu" button后浏览器里显示什么?

论坛徽章:
0
发表于 2018-12-05 14:14 |显示全部楼层
浏览器显示是正常的内容

论坛徽章:
0
发表于 2018-12-06 09:02 |显示全部楼层
wait.until(EC.presence_of_element_located(
        (By.ID, 'content_left')))
    html = browser.find_element_by_id('content_left')
改成这样只获得
<selenium.webdriver.remote.webelement.WebElement (session="37f57cbb9e767f7497a32c4fdfa04430", element="0.21314784833102896-3")>

论坛徽章:
0
发表于 2018-12-15 12:08 |显示全部楼层
本帖最后由 ighack 于 2018-12-15 12:18 编辑
ighack 发表于 2018-12-06 09:02
wait.until(EC.presence_of_element_located(        (By.ID, 'content_left')))    html = browser.find_ ...

这个方法是可以获取搜索以后的元素,但我怎么才能结合pyquery
html.text只是获取文字没有html元素。主要是想怎么样doc = pq(html)

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

基于案例的 SQL 优化实战训练营

讲师:中电福富特级专家梁敬彬,参与本次课程培训,你将收获:
1. 能编写出较为高效的 SQL;
2. 能解决70%以上的数据库常见优化问题;
3. 能得到老师提供的高效的相关工具和解决方案;
4. 能举一反三,收获不仅仅是 SQL 优化。
现在购票享受8.8折优惠!
----------------------------------------
优惠时间:2019年3月20日前

大会官网>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP