今天给各位分享selenium爬取网页乱码的知识,其中也会对selenium翻页爬取进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
本文目录一览:
- 1、用python写selenium webdriver脚本,link_text遇到中文就报错!
- 2、Selenium-针对alert弹窗无法获取,弹出no such alert的解决方法
- 3、selenium模拟打开浏览器访问网页报错
- 4、Python+selenium上传中文路径文件时乱码
- 5、你需要知道的有关Selenium异常处理的都在这儿
用python写selenium webdriver脚本,link_text遇到中文就报错!
因为录制的字符集是GBK的,你变成utf-8后就相当于乱码了,自己再把那些中文删掉,重新打一遍就OK了
Selenium-针对alert弹窗无法获取,弹出no such alert的解决方法
在爬取网页的过程中,经常会遇到一些弹窗的情况,有alert、confirm、prompt等三种,区别如下:
提示消息框 提供了一个文本字段,用户可以在此字段输入一个答案来响应您的提示。该消息框有一个“确定”按钮和一个“取消”按钮。如果您提供了一个辅助字符串参数,则提示消息框将在文本字段显示该辅助字符串作为默认响应。否则,默认文本为 "undefined"。
这三种弹窗的共同点是,弹出之后你是获取不到任何网页内容的,也就是无法通过常规的driver.find_element_by_xpath这种形式来获取元素。F12是没有任何内容,也无法点选的。
selenium另外有一套方法来把driver转换到弹窗上:
其中driver就是你设置好的浏览器句柄,switch_to.alert代表你当前的弹窗类型,alert就对应alert,accept的意思就是点确定,另外还有dismiss等用法,网上很多了,不详细说。
用这个语句,就可以把弹窗点掉,之后正常操作,但是我重点想说的是以下内容:
在实际网页中,往往弹窗会有一定延时,这时候你用这个语句就会报一个no such alert的错误,意味着获取不到弹窗,此时要用如下的办法解决:
引用Webdriver类,里面的参数第一个是句柄,第二个则是超时等待时间,这里是10秒钟。
Webdriver这种方法叫做 显示等待 ,用一个默认频率不停的刷新(默认是0.5s),检测当前页面元素是否存在,如果超过10秒则抛出TimeOut。
很显然,这种方法比一般的sleep效率要高。
wait.until(EC.alert_is_present())就是判断弹窗是否存在,如果存在,那么就不会抛出异常,继续走下一步也就是获取到弹窗点击确定。
之后就可以进行正常的操作了。
selenium模拟打开浏览器访问网页报错
这是最普通的解决办法:你先试试!
1、打开浏览器,点“工具”→“管理加载项”那里禁用所有插件,或者你能准确知道没问题的保留。然后→工具→INTERNET选项→常规页面→删除cookies→删除文件→钩选删除所有脱机内容→确定→设置使用的磁盘空间为:2MB确定→清除历史纪录→网页保存在历史记录中的天数:3以下→应用确定(我自己使用的设置是“0”天)。到此立即关闭所有浏览器窗口。
2、重新打开浏览器,做最后一步:工具→INTERNET选项→高级→恢复浏览器默认设置。
3、如果是浏览器中毒就使用卡卡助手修复,然后做插件免疫:全部钩选→免疫。然后→全部去掉钩选→找到“必备”一项,把能用到的重新钩选→取消免疫。能用到的就是FLASH和几种播放器的,其余的不要取消免疫。完成所有操作以后,你的浏览器就不会出问题了
如果上面得这些方法不行,再用下面这些方法试试:
1:安装一个DirectX,试一下浏览器加速;
2:点击“开始”,选择“运行”,然后输入“regedit”回车。即可打开注册表编辑器,打开 HKEY_CURRENT_USER\Control Panel\Desktop 键,将 AutoEndTasks 值设为 1。 ( 原设定值:0 )
3:浏览器加速:
开始→运行→regedit启动注册表编辑器,找到HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft
\Windows\CurrentVersion\Explorer\RemoteComputer\NameSpace\
将其下的主键{2227A280-3AEA-1069-A2DE-08002B30309D}删除,该主键是网络(打印机)
将其下的主键{D6277990-4C6A-11CF8D87-00AA0060F5BF}删除,该主键是(计划任务)
4:在运行里面输入gpedit.msc进入组策略,然后在 管理模版-windows组件里面给Internet Explorer 设置一下!
如果上面的都不行,那就说明你这个系统有问题,不用再求医,直接重新装系统就行了!还有有些问题是系统主题引起的,安装系统主题时候要找个好用并且安全的!
Python+selenium上传中文路径文件时乱码
这个应该和selenium没多少关系,而是应该查看一下上传.html本身的编码。可以用记事本打开另存为对话框看是什么编码,一般改成utf-8
你需要知道的有关Selenium异常处理的都在这儿
什么是异常?
顾名思义,作为程序员的一种常用术语,“异常”与任何特定的编程语言无关。它属于程序因为突然中止,而未能交付出预期输出的事件。通常,引发异常出现的潜在因素往往来自如下方面:
· Java虚拟内存(JVM)的不足
· 请求访问的文件在目标系统中不存在
· 用户提供了无效的数据
· 在正常的通信过程中突然出现断网
Java中的异常类型
1. 已查明的异常(Checked Exceptions):编译器在编译的过程中,会检查到这些异常,并验证它们是否已被处理。如果未被处理,系统会报告编译错误。因此它们被通称为编译时异常(compile-time exceptions)。下面是一些常见的此类异常示例:
· SQLException:程序在基于 SQL 语法执行 数据库 查询时,可能会产生此类异常。
· IOException:程序在文件上执行无效的I/O流操作时,可能会产生此类异常。
· ClassNotFoundException:当JVM无法找到所需的Java类时,可能会产生此类异常。
2. 未查明的异常(Unchecked Exceptions):这些异常是在程序的执行期间发生的逻辑错误,因此通常称为运行时异常(Runtime Exceptions)。此类异常在编译时未被检查出来,或者在整个编译过程中已被忽略。下面是一些典型的此类异常示例:
· NullPointerException:当访问具有空值的对象时,可能会产生此类异常。
· ArrayIndexOutofBound:当使用无效的索引值去访问数组时,可能会产生此类异常。
· IllegalArgumentException:当程序将不正确的参数传递给方法时,可能会产生此类异常。
· NumberFormatException:当程序将字符串传递给无法转换为数字的方法时,可能会产生此类异常。
· ArithmeticException:当程序执行不正确的算术运算(例如将数字除以零)时,可能会产生此类异常。
异常处理标准
通过对异常处理能力的提升,我们不仅可以保持代码的整洁,而且能够增强其可维护性、可扩展性和可阅读性。当然,不同的面向对象编程(Object-Oriented Programming,OOP)语言,具有不同的异常处理方法。以下是一些常用的Java异常处理标准:
Try-Catch:该关键字组合可被用于捕获异常。其中,try块应当被放在开头,而catch块应被放在try块的末尾,以便捕获异常,并采取必要的行动。也就是说,我们可以在遇到异常时,创建异常类的对象,以便使用以下预定义的方法,来显示调试信息:
· printStackTrace():该函数可用于打印栈的跟踪、异常的名称、以及其他重要的异常信息。
· getMessage():此函数有助于获取针对异常的深入描述。
try
{
// Code
} catch(Exception e){
// Code for Handling exception
}
同时,Try-Catch块也可以用其他高级方法来处理异常,例如,我们可能希望从单个代码块中捕获多个异常,那么就可以通过在try块之后的多个catch块,去处理不同的异常。而且,我们在try块之后,使用无限数量的catch块。
try
{
//Code
} catch(ExceptionType1 e1){
//Code for Handling Exception 1
} catch(ExceptionType2 e2){
//Code for Handling Exception 2
}
Throw/Throws:如果程序员想显式地抛出异常,那么可以使用throw关键字,与要在运行时处理的异常对象协同使用。
public static void exceptionProgram()throws Exception{
try {
// write your code here
} Catch(Exception b){
// Throw an Exception explicitly
throw(b); }
}
如果开发者想抛出多个异常,则可以通过在方法签名的子句中使用throws关键字来抛出,并且由方法的调用者去进行异常处理。
public static void exceptionProgram()throws ExceptionType1, ExceptionType2{
try {
// write your code here
} catch(ExceptionType1 e1){
// Code to handle exception 1
} catch(ExceptionType1 e2){
// Code to handle exception 2
}
finally:该个代码块往往是在try-catch块之后被创建的。也就是说,无论是否抛出异常,它都会被执行。
try {
//Code
} catch(ExceptionType1 e1){
//Catch block
} catch(ExceptionType2 e2){
//Catch block
} finally {
//The finally block always executes.
}
Selenium中的常见异常
WebDriverException定义了Selenium中的多种异常,我们从中选取最常见的异常予以介绍,并配上简单的针对Selenium的异常处理方案:
1. NoSuchElementException
当WebDriver无法定位所需要元素时,Selenium可能会产生此类异常。此处的NoSuchElementException是NotFoundException类的子类,它通常出现在程序使用了无效的定位器时。
此外,如果WebDriver仍然停留在上一页、或正在加载下一页,而所需的定位器已到达了下一页时,就会因为该延迟而出现异常。为此,我们应当通过适当的等待处理 测试 ,最大限度地减少此类异常的发生。
当然,此类异常可以在catch块中被捕获到,并且可以在其中执行所需的操作,以继续完成自动化的测试。例如:
try { driver.findElement(By.id("form-save")).click(); } catch(NoSuchElementException e){
System.out.println(“WebDriver couldn’t locate the element”); }
2. NoSuchWindowException
该异常也是NotFoundException类的子类。如果WebDriver尝试着切换到无效的 浏览器 窗口,那么WebDriver将抛出NoSuchWindowException。因此,要实现窗口切换的好方法是,首先获取活动窗口的会话,然后在对应的窗口上执行所需的操作。例如:
for(String windowHandle : driver.getWindowHandles()){
try { driver.switchTo().window(handle); } catch(NoSuchWindowException e){ System.out.println(“Exception while switching browser window”); }
}
3. NoAlertPresentException
当WebDriver尝试着切换到某个不存在或无效的警报时,Selenium可能会产生此类异常。对此,我建议开发者使用显式、或适当的等待时间,来处理浏览器的各类警报。倘若仍然等不到警报的话,catch块可以捕获该异常。例如:
try {
driver.switchTo().alert().accept(); } catch(NoSuchAlertException e){
System.out.println(“WebDriver couldn’t locate the Alert”); }
4. ElementNotVisibleException
该异常被定义为ElementNotInteractableException类的子类。当WebDriver尝试着对不可见的元素、或不可交互的元素执行各项操作时,Selenium可能会产生此类异常。对此,我建议开发者在的确需要之处,让Selenium进行适当的超时等待。例如:
try { driver.findElement(By.id("form-save")).click(); } catch(ElementNotVisibleException e){
System.out.println(“WebDriver couldn’t locate the element”); }
5. ElementNotSelectableException
该异常属于InvalidElementStateException类的子类。在Selenium中,ElementNotSelectableException表明某个元素虽然存在于网页上,但是无法被WebDriver所选择。
catch块不但可以处理Selenium中的此类异常,而且可以使用相同或不同的 技术 ,重新选择相同的元素。例如:
try {
Select dropdown = new Select(driver.findElement(By.id(“swift”))); } catch(ElementNotSelectableException e){
System.out.println("Element could not be selected")}
6. NoSuchSessionException
Selenium通过driver.quit()命令退出自动化的浏览器会话后,以及在调用某个测试方法时,会产生此类异常。当然,如果浏览器崩溃或出现断网,该异常也可能会发生。为了避免出现NoSuchSessionException,我们可以在测试套件结束时,退出浏览器,并确保用于 自动化测试 的浏览器版本的稳定性。例如:
private WebDriver driver;
@BeforeSuite
public void setUp(){ driver = new ChromeDriver(); }
@AfterSuite
public void tearDown(){ driver.quit(); }
7. StaleElementReferenceException
当DOM中不再存在程序所需的元素时,Selenium将抛出StaleElementReferenceException。当然,如果DOM未能被正确加载、或WebDriver被卡在错误的页面上时,也可能会产生这种异常。对此,您可以使用catch块捕获该异常,并且使用动态的XPath、或尝试着重新刷新页面。例如:
try { driver.findElement(By.xpath(“//*[contains(@id,firstname’)]”)).sendKeys(“Aaron”);
} catch(StaleElementReferenceException e){
System.out.println("Could not interact with a desired element")}
8. TimeoutException
当WebDriver超过了执行下一步的等待时限时,Selenium中可能会产生此类异常。Selenium的各种等待通常被用于避免出现ElementNotVisibleException之类的异常。不过,即使在使用了适当的等待之后,如果元素仍然不可交互,那么TimeoutException也会被抛出。为此,我们必须通过执行手动测试,来检验元素的延时性,以便采取进一步的处理等待。
9. InvalidSelectorException
当使用无效的或不正确的选择器时,Selenium中会抛出此类异常。当然,类似情况也可能发生在创建XPATH时。对此,我们需要在将代码推送到主分支之前,检查测试脚本,并测试脚本的端到端流程。此外,SelectorHub和ChroPath等工具,也可以被用于验证定位器。
10. NoSuchFrameException
NoSuchFrameException属于NotFoundException类的子类。当WebDriver尝试着切换到当前网页上无效的、或不存在的框架时,Selenium可能会产生此类异常。为此,我们需要首先确保框架的名称或id是正确的;其次,应确保框架的加载不会过于消耗时间。当然,如果在网页上加载框架的确非常耗时的话,则需要修正相应的等待处理。例如:
try {
driver.switchTo().frame("frame_1"); } catch(NoSuchFrameException e){
System.out.println("Could not find the desired frame")
}
小结
综上所述,为了适应各种场景,异常处理对于任何自动化脚本和逻辑结构都是至关重要的。请您务必在了解每个异常特征的基础上,有选择性地在自动化脚本中使用上述十种有关Selenium的常用异常处理命令。
关于selenium爬取网页乱码和selenium翻页爬取的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。
2、本站永久网址:https://www.yuanmacun.com
3、本网站的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,请联系站长进行删除处理。
4、本站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
6、本站资源大多存储在云盘,如发现链接失效,请联系我们我们会第一时间更新。
源码村资源网 » selenium爬取网页乱码(selenium翻页爬取)
1 评论