知行编程网知行编程网  2022-02-08 09:00 知行编程网 隐藏边栏 |   抢沙发  5 
文章评分 0 次,平均分 0.0

前言

可能有人说,初学者Python爬虫爬数据太难啦,构造正则表达式的时候,太烦琐了,眼睛都看花了,而且前一秒还可以愉快地爬取,下一秒IP就被封了,这还爬个屁啊,不爬了。哎,不要着急,这篇文章我们教你如何使用XPath来爬取快代理中的免费代理IP,告别眼花,告别IP被封的烦恼。

XPath

首先我们来简单了解一下XPath,想要了解更多XPath,我们可以打开W3school官方文档进行了解。

什么是 XPath?

  • XPath是XML路径语言(XML Path Language);
  • XPath 使用路径表达式在 XML 文档中进行导航;
  • XPath 包含一个标准函数库;
  • XPath 是 XSLT 中的主要元素;
  • XPath 是一个 W3C 标准;

XPath作用是什么?

  • XPath用来确定XML文档中某部分位置的语言
  • XPath在XML文档中查找信息的语言
  • XPath用于在XML文档中通过元素和属性进行导航。

XPath 含有超过 100 个内建的函数。这些函数用于字符串值、数值、日期和时间比较、节点和 QName 处理、序列处理、逻辑值等等。在Python爬虫中,我们完成可以使用XPath来做相应的信息抽取。

XPath——常用规则

简单了解一下XPath后,我们来看看它的常用规则,如下表:

表达式 描述
nodename 选取此节点的所有子节点
/ 从根节点选取
// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置
. 选取当前节点
.. 选取当前节点的父节点
@ 选取属性

我们来简单说一个示例:

):
        get_page(page)

好了,这样我们就成功爬取了快代理的免费代理IP的前两页,我们可以根据需要来进行保存免费代理IP。

结果展示

手把手教你使用XPath爬取免费代理IP

代码获取

最后需要本文代码的小伙伴可以点击阅读原文。

本文为原创文章,版权归所有,欢迎分享本文,转载请保留出处!

知行编程网
知行编程网 关注:1    粉丝:1
这个人很懒,什么都没写

发表评论

表情 格式 链接 私密 签到
扫一扫二维码分享