爬虫实战 | 爬取东方财富网股票数据

知行编程网 2022-07-02 08:00 知行编程网 | 隐藏边栏 | 抢沙发 | 358 0

文章评分 0 次，平均分 0.0 ：

今天有个朋友说，他想做个关于股票的可视化网页，但是缺乏股票的数据，想让志斌帮他做个爬虫来每天获取数据。所以我将它写成一个实战案例，供大家一起参考学习！

1.页面分析

此次我们获取数据的网站是东方财富网！

首先我们按F12打开开发者模式，对name里面的网页进行观察，发现数据是以jQuery加载进网页的，每次加载20个数据，如图：

我们已经发现单页数据存储的方式了，现在我们来看一下各页URL之间的联系，如图：

从图中我们可以清楚的发现，每翻一页，pn的参数增加1，所以我们构建URL时，只需让params中的pn参数循环，即可批量对网页发起访问请求，代码如下：

2.获取数据

上面我们已经将网页的URL之间的联系和数据存储分析好了，下面我们就可以开始对数据进行获取了。

在上面对网页进行分析时，我们感觉这个网页存储数据是json格式的，其实不是，它前面多了一些脏数据，如图：

我们如果想用json来将数据进行解析的话，就必须将这些脏数据去掉。

当然我们也可以用另一种方法来解决这个问题，就是将数据转化成字符串的形式，然后用正则表达式将目标数据提取出来。代码如下：

3.数据存储

在之前的文章中，我们关于数据存储的各种方式已经介绍的很清楚了，这里我们就不在过多介绍了，此次才用Excel文件来对数据进行存储，代码如下：

让我们来看看最终效果：

总结

1. 本文详细的介绍了如何从东方财富网上批量获取股票数据，请读者仔细阅读，并加以操作。

2. 东方财富网没有反爬，但是本着友好的原则，用户在爬取时最好使用间隔爬取。

3. 本文仅供参考学习，不做商用。

4. 需要远吗，回复【小助手】，找他获取，即可获取源代码。

本篇文章来源于: 菜鸟学Python

本文为原创文章，版权归知行编程网所有，欢迎分享本文，转载请保留出处！

知行编程网关注：1 粉丝：1

这个人很懒，什么都没写