前言
可能有人说,初学者Python爬虫爬数据太难啦,构造正则表达式的时候,太烦琐了,眼睛都看花了,而且前一秒还可以愉快地爬取,下一秒IP就被封了,这还爬个屁啊,不爬了。哎,不要着急,这篇文章我们教你如何使用XPath来爬取快代理中的免费代理IP,告别眼花,告别IP被封的烦恼。
XPath
首先我们来简单了解一下XPath,想要了解更多XPath,我们可以打开W3school官方文档进行了解。
什么是 XPath?
-
XPath是XML路径语言(XML Path Language); -
XPath 使用路径表达式在 XML 文档中进行导航; -
XPath 包含一个标准函数库; -
XPath 是 XSLT 中的主要元素; -
XPath 是一个 W3C 标准;
XPath作用是什么?
-
XPath用来确定XML文档中某部分位置的语言 -
XPath在XML文档中查找信息的语言 -
XPath用于在XML文档中通过元素和属性进行导航。
XPath 含有超过 100 个内建的函数。这些函数用于字符串值、数值、日期和时间比较、节点和 QName 处理、序列处理、逻辑值等等。在Python爬虫中,我们完成可以使用XPath来做相应的信息抽取。
XPath——常用规则
简单了解一下XPath后,我们来看看它的常用规则,如下表:
表达式 | 描述 |
---|---|
nodename | 选取此节点的所有子节点 |
/ | 从根节点选取 |
// | 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置 |
. | 选取当前节点 |
.. | 选取当前节点的父节点 |
@ | 选取属性 |
我们来简单说一个示例:
):
get_page(page)
好了,这样我们就成功爬取了快代理的免费代理IP的前两页,我们可以根据需要来进行保存免费代理IP。
结果展示
代码获取
最后需要本文代码的小伙伴可以点击阅读原文。
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
你可能也喜欢
- ♥ python如何代表权力的力量09/09
- ♥ 如何从 cmd 启动 Python11/20
- ♥ python生成器函数的特点12/04
- ♥ python字典的编写方法12/13
- ♥ Python如何读取excel中的图片10/13
- ♥ 如何使用python脚本实现表单打印?01/06
内容反馈