1.页面分析
此次我们获取数据的网站是东方财富网!
首先我们按F12打开开发者模式,对name里面的网页进行观察,发现数据是以jQuery加载进网页的,每次加载20个数据,如图:
我们已经发现单页数据存储的方式了,现在我们来看一下各页URL之间的联系,如图:
从图中我们可以清楚的发现,每翻一页,pn的参数增加1,所以我们构建URL时,只需让params中的pn参数循环,即可批量对网页发起访问请求,代码如下:
2.获取数据
上面我们已经将网页的URL之间的联系和数据存储分析好了,下面我们就可以开始对数据进行获取了。
在上面对网页进行分析时,我们感觉这个网页存储数据是json格式的,其实不是,它前面多了一些脏数据,如图:
我们如果想用json来将数据进行解析的话,就必须将这些脏数据去掉。
当然我们也可以用另一种方法来解决这个问题,就是将数据转化成字符串的形式,然后用正则表达式将目标数据提取出来。代码如下:
3.数据存储
在之前的文章中,我们关于数据存储的各种方式已经介绍的很清楚了,这里我们就不在过多介绍了,此次才用Excel文件来对数据进行存储,代码如下:
让我们来看看最终效果:
总结
1. 本文详细的介绍了如何从东方财富网上批量获取股票数据,请读者仔细阅读,并加以操作。
2. 东方财富网没有反爬,但是本着友好的原则,用户在爬取时最好使用间隔爬取。
3. 本文仅供参考学习,不做商用。
4. 需要远吗,回复【小助手】,找他获取,即可获取源代码。
本篇文章来源于: 菜鸟学Python
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
内容反馈