前几天地铁上看到很多人在谈论新的神剧《黄金瞳》,从开播至今,短短的三天时间内,瞬间俘获了一大批观众,我好奇的去猫眼上查看了一番,发现演员阵容强大,而且题材也很不错,猫眼评分高达9.5。这么好的影视剧,要不爬一下岂不是太可惜了?
网页爬取
首先我在网页端打开了《黄金瞳》的页面开发者模式,发现最为关键的观众评价不能全部爬取,于是我以手机模式打开,发现了全部的短评,而短评的json数据链接也可以在XHR下找到。如下图所示:
找到我们需要的json链接后,接下来就是观察这个链接有什么特点。url如下所示:
。
观察上面的两个url可以发现,不同的链接之间,区别只在于offset,也即偏移量的不同,所以在模拟浏览器进行请求时,只需要改变offset的数值即可。模拟浏览器进行数据抓取的代码如下图所示:
上述代码中要注意请求头的建立,请求头信息要补充完全,否则猫眼网页会对我们的请求进行反爬虫处理。最后我们大概得到了500多条短评数据:
保存数据
接下来是将数据进行提取并将我们提取的信息写入本地的csv文件当中,代码如下所示:
由于上述的链接返回的是json数据信息,因此,我们直接利用json数据库对信息进行解析,并进行提取即可。
看看都评论了啥
1).字数分析
爬取到信息后,先按照字数进行分析,看看大家都写了什么内容:
请注意上面的用户编号为51905119的用户,该用户竟然在评价字数为200字的情况下,给出了0分的评价。看来这部吸引大众眼球的《黄金瞳》让他感觉很失望啊。
2).评分分析
接下来,我们查看一下评分如何,我们用pyecharts快速可视化看一下:
由饼形图可见,评分为10分的占到了评价总量的80%以上
3).用户等级分布
接下来我们来看一下针对于不同的用户等级数量,以及不同等级下的用户评分。
由上图可以看出,等级1、等级2和等级3的用户都给了很高的评价,而唯一的等级5给出了一个0分的评价,还记得我们数据展示的那个0分吗?对,就是那个用户给出的,数据分析的结果与我们上面数据展示产生了很好的呼应。
词云看看大家的焦点
最后,我们来制作一下关于《黄金瞳》的评价词云展示,从词云里看一下大家对于这部剧的评价。
目前的评论分析主要是采集第一集,评论的样本量比较小。大家的焦点是里面有很多老戏骨,剧情有的说不错,有的说拖沓,如果后面剧情展开,能收集到上万条评论,会更准确些。
如果有看过这部片子的欢迎留言讨论。
近期热门:
不废话,学Python就是这条捷径
我用Python开了外挂,元宵节我做了一个灯谜答题王
用Python预测收入,我用Python机器学习了5万人的数据
强烈推荐|麻烦这周刚关注2128名小伙伴一定要看,信息量太大
本篇文章来源于: 菜鸟学Python
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
你可能也喜欢
- ♥ 如何在 Django 中创建视图?11/09
- ♥ python数值类型包括什么01/03
- ♥ python if判断写在哪里12/30
- ♥ python如何追加到文件中09/23
- ♥ python中的self是什么08/29
- ♥ Python中__slots__的禁用实例10/01
内容反馈