使用Python selenium处理页面延迟加载问题

使用python爬取数据的时候,碰到了一个非常无语的问题。有个网站,在输入url进入页面之后,会强制加载一段动画,之后才显示正确内容。后来发现了selenium这个神器,不过还是折腾了我好久。


用selenium 设置浏览器等待时间

很多人问,这个下拉框定位不到、那个弹出框定位不到…各种定位不到,其实大多数情况下就是两种问题:1 有frame,2 没有加等待。殊不知,你的代码运行速度是什么量级的,而浏览器加载渲染速度又是什么量级的,就好比闪电侠和奥特曼约好去打怪兽,然后闪电侠打完回来之后问奥特曼你为啥还在穿鞋没出门?奥特曼分分中内心一万只羊驼飞过,欺负哥速度慢,哥不跟
运行需要两个前提,每个都不好搞。。

最简单粗暴的一种办法就是强制等待sleep(xx),强制让闪电侠等xx时间,不管凹凸曼能不能跟上速度,还是已经提前到了,都必须等xx时间。

1
2
3
4
5
6
7
8
# coding: utf-8
from selenium import webdriver
from time import sleep
driver = webdriver.Chrome()
driver.get('https://feiyang.li')
sleep(3) # 强制等待3秒再执行下一步
print driver.title
driver.quit()

结合selenium使用Xpath获得所需信息

  • 需要注意的是,selenium内find_elements的方法有很多种,xpath表达式的要求很严格,所以可以试试find_elements_id等方法。
  • Xpath表达式可以检测文字中是否包含某文字,以此为标准过滤。
    mark
  • Xpath表达式支持and 和 or。
1
2
3
4
def extract_from(browser):
links = browser.find_elements_by_xpath("//p[contains(text(), '出处') or contains(text(), '组成') or contains(text(), '组成') or contains(text(), '主治') or contains(text(), '用法')] ")
print(browser.title)
return [link.text for link in links]

中文输入输出问题

  • send_keys() 不能正确的输入关键字,在中文前边加一个u即可,比如elem.send_keys(u'你好哇')
  • 不能正确的输出中文,print ('\n'.join(extract_from(browser)))
    以上两个问题都跟python2的特性有关,升级至3之后应当不会出现此类问题。

写了一个小demo,解释中文输入输出问题

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
# coding=utf-8

import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
def search(key):
elem = browser.find_element_by_xpath("//input[@id='kw']")
elem.send_keys(key)
elem.send_keys(Keys.RETURN)
time.sleep(1)
def extract_from(browser):
links = browser.find_elements_by_xpath("//div[contains(text(),'李银河')]")
return [link.text for link in links]
key = u"你好哇"
browser = webdriver.Chrome()
browser.get('http://www.baidu.com')
search(key)
print ('\n'.join(extract_from(browser)))
browser.close()

运行结果见下,可以抽取出对应文字。
运行结果

Code

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
# coding=utf-8

import time
import requests
from selenium import webdriver
from selenium.webdriver.common.keys import Keys


def search(key):
elem = browser.find_element_by_xpath("//input[@id='simple_search_filed']")
elem.send_keys(key)
elem.send_keys(Keys.RETURN)
time.sleep(3)

def extract_from(browser):
links = browser.find_elements_by_xpath("//p[contains(text(), '出处') or contains(text(), '组成') or contains(text(), '组成') or contains(text(), '主治') or contains(text(), '用法')] ")
print(browser.title)
return [link.text for link in links]

from lxml import etree
html = requests.get("http://www.zk120.com/fang/")
html.encoding = 'utf-8'
selector = etree.HTML(html.text)
content = selector.xpath("//ul/li/a/span[@class='free_icon_r']/../@href")
for imgurl in content:
imgurl = "http://www.zk120.com" +imgurl
browser = webdriver.Chrome()
browser.get(imgurl)
time.sleep(2)
print ('\n'.join(extract_from(browser)))
print("------------")
browser.close()

参考代码

在搜索资料的时候,同时发现了一个非常好的示例代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
import re

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC


def extract_data(browser):
links = browser.find_elements_by_xpath('//i[@class="RecordStats"]/a')
return [link.get_attribute('href') for link in links]


browser = webdriver.Firefox()
browser.get("http://www.scba.gov.ar/jurisprudencia/Navbar.asp?Busca=Fallos+Completos&SearchString=Inconstitucionalidad")

# get max pages
element = WebDriverWait(browser, 10).until(EC.presence_of_element_located((By.XPATH, "//p[@class='c'][last()]")))
max_pages = int(re.search(r'\d+ de (\d+)', element.text).group(1), re.UNICODE)

# extract from the current (1) page
print "Page 1"
print extract_data(browser)

# loop over the rest of the pages
for page in xrange(2, max_pages + 1):
print "Page %d" % page

next_page = browser.find_element_by_xpath("//table[last()]//td[last()]/a").click()

print extract_data(browser)
print "-----"

这个地方真的花费了我好大的精力啊,让人头疼。

使用Python selenium处理页面延迟加载问题

https://iii.run/archives/ce22252d7e42.html

作者

mmmwhy

发布于

2016-12-29

更新于

2022-10-08

许可协议

评论