使用Python selenium处理页面延迟加载问题
in Python with 0 comment

使用Python selenium处理页面延迟加载问题

in Python with 0 comment
使用python爬取数据的时候,碰到了一个非常无语的问题。有个网站,在输入url进入页面之后,会强制加载一段动画,之后才显示正确内容。后来发现了selenium这个神器,不过还是折腾了我好久。

用selenium 设置浏览器等待时间

很多人问,这个下拉框定位不到、那个弹出框定位不到…各种定位不到,其实大多数情况下就是两种问题:1 有frame,2 没有加等待。殊不知,你的代码运行速度是什么量级的,而浏览器加载渲染速度又是什么量级的,就好比闪电侠和奥特曼约好去打怪兽,然后闪电侠打完回来之后问奥特曼你为啥还在穿鞋没出门?奥特曼分分中内心一万只羊驼飞过,欺负哥速度慢,哥不跟
运行需要两个前提,每个都不好搞。。

推荐使用pip安装,pip install selenium
或者直接下载selenium包:https://pypi.python.org/pypi/selenium 解压,cmd进入目录:python setup.py install

推荐在这里 https://sites.google.com/a/chromium.org/chromedriver/downloads 下载,然后放在Chrome浏览器目录内,配置Path环境变量为形如 XXGoogleChromeApplication的形式
你玩了,抛个异常撂挑子了。

最简单粗暴的一种办法就是强制等待sleep(xx),强制让闪电侠等xx时间,不管凹凸曼能不能跟上速度,还是已经提前到了,都必须等xx时间。

# coding: utf-8
from selenium import webdriver
from time import sleep
driver = webdriver.Chrome()
driver.get('https://feiyang.li')
sleep(3) # 强制等待3秒再执行下一步
print driver.title
driver.quit()

结合selenium使用Xpath获得所需信息

mark

def extract_from(browser):
    links = browser.find_elements_by_xpath("//p[contains(text(), '出处') or contains(text(), '组成') or contains(text(), '组成') or contains(text(), '主治') or contains(text(), '用法')] ")
    print(browser.title)
    return [link.text for link in links]

中文输入输出问题

以上两个问题都跟python2的特性有关,升级至3之后应当不会出现此类问题。

写了一个小demo,解释中文输入输出问题

# coding=utf-8

import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
def search(key):
    elem = browser.find_element_by_xpath("//input[@id='kw']")
    elem.send_keys(key)
    elem.send_keys(Keys.RETURN)
    time.sleep(1)
def extract_from(browser):
    links = browser.find_elements_by_xpath("//div[contains(text(),'李银河')]")
    return [link.text for link in links]
key = u"你好哇"
browser = webdriver.Chrome()
browser.get('http://www.baidu.com')
search(key)
print ('\n'.join(extract_from(browser)))
browser.close()

运行结果见下,可以抽取出对应文字。
运行结果

Code

# coding=utf-8

import time
import requests
from selenium import webdriver
from selenium.webdriver.common.keys import Keys


def search(key):
    elem = browser.find_element_by_xpath("//input[@id='simple_search_filed']")
    elem.send_keys(key)
    elem.send_keys(Keys.RETURN)
    time.sleep(3)

def extract_from(browser):
    links = browser.find_elements_by_xpath("//p[contains(text(), '出处') or contains(text(), '组成') or contains(text(), '组成') or contains(text(), '主治') or contains(text(), '用法')] ")
    print(browser.title)
    return [link.text for link in links]

from lxml import etree
html = requests.get("http://www.zk120.com/fang/")
html.encoding = 'utf-8'
selector = etree.HTML(html.text)
content = selector.xpath("//ul/li/a/span[@class='free_icon_r']/../@href")
for imgurl in content:
    imgurl = "http://www.zk120.com" +imgurl
    browser = webdriver.Chrome()
    browser.get(imgurl)
    time.sleep(2)
    print ('\n'.join(extract_from(browser)))
    print("------------")
    browser.close()

参考代码

在搜索资料的时候,同时发现了一个非常好的示例代码

import re

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC


def extract_data(browser):
    links = browser.find_elements_by_xpath('//i[@class="RecordStats"]/a')
    return [link.get_attribute('href') for link in links]


browser = webdriver.Firefox()
browser.get("http://www.scba.gov.ar/jurisprudencia/Navbar.asp?Busca=Fallos+Completos&SearchString=Inconstitucionalidad")

# get max pages
element = WebDriverWait(browser, 10).until(EC.presence_of_element_located((By.XPATH, "//p[@class='c'][last()]")))
max_pages = int(re.search(r'\d+ de (\d+)', element.text).group(1), re.UNICODE)

# extract from the current (1) page
print "Page 1"
print extract_data(browser)

# loop over the rest of the pages
for page in xrange(2, max_pages + 1):
    print "Page %d" % page

    next_page = browser.find_element_by_xpath("//table[last()]//td[last()]/a").click()

    print extract_data(browser)
    print "-----"

这个地方真的花费了我好大的精力啊,让人头疼。

Responses

From now on, bravely dream and run toward that dream.
陕ICP备17001447号