selenium获取网页源码的方法（selenium获取html） - 杂七乱八

本篇文章给大家谈谈selenium获取网页源码的方法，以及selenium获取html对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、python 有几种方法可以获取js动态源码。用哪种方法好
2、如何使用python或R抓取网页被隐藏的源代码
3、python，求一个简单的selenium+re的网页源码爬取
4、从零开始学Python-使用Selenium抓取动态网页数据
5、python selenium如何获取下一页的html网页源码

python 有几种方法可以获取js动态源码。用哪种方法好

最好的方法就是使用selenium这种库哦。简单介绍一下selenium，这本身是一种网站自动测试的库，所以可以模拟用户的所有交互行为，包括输入、点击、拖拉、滚动等等和用户完全相同的操作，所以也和真正打开网页一样，可以响应Javascript的行为，可以加载JS异步加载的网页。selenium最好配合PhantomJS使用，这样就没有界面，完全自动处理哦。

selenium获取网页源码的方法（selenium获取html）,selenium获取网页源码的方法,信息,源码,百度,第1张

如何使用python或R抓取网页被隐藏的源代码

隐藏的源代码？不知道你指的是什么？我的理解有两种，一是不在前段显示，但是查看源代码时有，二是，异步加载的内容在前端和源代码中均看不到，第一种很容易解决，想必你指的时第二种，解决方法有三种：

模拟浏览器，动态获取，可以使用大杀器selenium工具

使用这种方法可以实现只要能看到就能抓取到，如鼠标滑过，异步加载等，因为他的行为可以与浏览器一模一样，但是这种方式的效率却是最低的，一般不到实在没有办法的时候不推荐使用。

执行js代码

在python中执行异步加载的js代码，获得一些诸如鼠标滑过，下拉加载更多等，但是现在的网站中都有非常多的js代码，要找到需要执行的目标js代码时非常困难和耗时的，此外python对js的兼容性也不是很好，也不推荐使用。

找到异步加载的json文件，最常用，最方便，最好用的方法，这是我平常抓取动态异步加载网站时最常用的方法，可以解决我99%的问题。具体的使用方法是打开浏览器的开发者工具，转到network选项，之后重新加载网页，在network中的列表中找到加载过程中加载的需要动态异步加载的json文件，以京东为例，如图，第一张找到的是异步加载的库存信息的json文件，第二招找到的是异步加载的评论信息的json文件：

具体更详细的方法可以google或百度

python，求一个简单的selenium+re的网页源码爬取

网页爬取不一定要用Selenium，Selenium是为了注入浏览器获取点击行为的调试工具，如果网页无需人工交互就可以抓取，不建议你使用selenium。要使用它，你需要安装一个工具软件，使用Chrome浏览器需要下载chromedriver.exe到system32下，如使用firefox则要下载geckodriver.exe到system32下。下面以chromedriver驱动chrome为例：

# -*- coding:UTF-8 -*-

from selenium import webdriver

from bs4 import BeautifulSoup

import re

import time

if __name__ == '__main__':

options = webdriver.ChromeOptions()

options.add_argument('user-agent="Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19"')

driver = webdriver.Chrome()

driver.get('url')#你要抓取百度文库的URL，随便找个几十页的替换掉

html = driver.page_source

bf1 = BeautifulSoup(html, 'lxml')

result = bf1.find_all(class_='rtcspage')

bf2 = BeautifulSoup(str(result[0]), 'lxml')

title = bf2.div.div.h1.string

pagenum = bf2.find_all(class_='size')

pagenum = BeautifulSoup(str(pagenum), 'lxml').span.string

pagepattern = re.compile('页数：(\d+)页')

num = int(pagepattern.findall(pagenum)[0])

print('文章标题：%s' % title)

print('文章页数：%d' % num)

while True:

num = num / 5.0

html = driver.page_source

bf1 = BeautifulSoup(html, 'lxml')

result = bf1.find_all(class_='rtcspage')

for each_result in result:

bf2 = BeautifulSoup(str(each_result), 'lxml')

texts = bf2.find_all('p')

for each_text in texts:

main_body = BeautifulSoup(str(each_text), 'lxml')

for each in main_body.find_all(True):

if each.name == 'span':

print(each.string.replace('\xa0',''),end='')

elif each.name == 'br':

print('')

print('\n')

if num 1:

page = driver.find_elements_by_xpath("//div[@class='page']")

driver.execute_script('arguments[0].scrollIntoView();', page[-1]) #拖动到可见的元素去

nextpage = driver.find_element_by_xpath("//a[@data-fun='next']")

nextpage.click()

time.sleep(3)

else:

break

执行代码，chromedriver自动为你打开chrome浏览器，此时你翻页到最后，点击阅读更多，然后等一段时间后关闭浏览器，代码继续执行。

从零开始学Python-使用Selenium抓取动态网页数据

AJAX（Asynchronouse JavaScript And XML：异步JavaScript和XML）通过在后台与服务器进行少量数据交换，Ajax 可以使网页实现异步更新，这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行局部更新。传统的网页（不使用Ajax）如果需要更新内容，必须重载整个网页页面。

因为传统的网页在传输数据格式方面，使用的是 XML 语法，因此叫做 AJAX ，其实现在数据交互基本上都是使用 JSON 。使用AJAX加载的数据，即使使用了JS将数据渲染到了浏览器中，在右键-查看网页源代码还是不能看到通过ajax加载的数据，只能看到使用这个url加载的html代码。

法1：直接分析ajax调用的接口。然后通过代码请求这个接口。

法2：使用Selenium+chromedriver模拟浏览器行为获取数据。

Selenium 相当于是一个机器人。可以模拟人类在浏览器上的一些行为，自动处理浏览器上的一些行为，比如点击，填充数据，删除cookie等。 chromedriver 是一个驱动 Chrome 浏览器的驱动程序，使用他才可以驱动浏览器。当然针对不同的浏览器有不同的driver。以下列出了不同浏览器及其对应的driver：

现在以一个简单的获取百度首页的例子来讲下 Selenium 和 chromedriver 如何快速入门：

参考：Selenium的使用

直接直接分析ajax调用的接口爬取

selenium结合lxml爬取