知行编程网知行编程网  2022-03-26 06:00 知行编程网 隐藏边栏 |   抢沙发  4 
文章评分 0 次,平均分 0.0

前几天地铁上看到很多人在谈论新的神剧《黄金瞳》,从开播至今,短短的三天时间内,瞬间俘获了一大批观众,我好奇的去猫眼上查看了一番,发现演员阵容强大,而且题材也很不错,猫眼评分高达9.5。这么好的影视剧,要不爬一下岂不是太可惜了?


用Python来看看,神剧“黄金瞳”真的好看吗?

用Python来看看,神剧“黄金瞳”真的好看吗?
1

网页爬取


首先我在网页端打开了《黄金瞳》的页面开发者模式,发现最为关键的观众评价不能全部爬取,于是我以手机模式打开,发现了全部的短评,而短评的json数据链接也可以在XHR下找到。如下图所示:

用Python来看看,神剧“黄金瞳”真的好看吗?

找到我们需要的json链接后,接下来就是观察这个链接有什么特点。url如下所示:


观察上面的两个url可以发现,不同的链接之间,区别只在于offset,也即偏移量的不同,所以在模拟浏览器进行请求时,只需要改变offset的数值即可。模拟浏览器进行数据抓取的代码如下图所示:

用Python来看看,神剧“黄金瞳”真的好看吗?

上述代码中要注意请求头的建立,请求头信息要补充完全,否则猫眼网页会对我们的请求进行反爬虫处理。最后我们大概得到了500多条短评数据:

用Python来看看,神剧“黄金瞳”真的好看吗?

用Python来看看,神剧“黄金瞳”真的好看吗?
2

保存数据


接下来是将数据进行提取并将我们提取的信息写入本地的csv文件当中,代码如下所示:

用Python来看看,神剧“黄金瞳”真的好看吗?

由于上述的链接返回的是json数据信息,因此,我们直接利用json数据库对信息进行解析,并进行提取即可。


用Python来看看,神剧“黄金瞳”真的好看吗?
3

看看都评论了啥


1).字数分析

爬取到信息后,先按照字数进行分析,看看大家都写了什么内容:

用Python来看看,神剧“黄金瞳”真的好看吗?

请注意上面的用户编号为51905119的用户,该用户竟然在评价字数为200字的情况下,给出了0分的评价。看来这部吸引大众眼球的《黄金瞳》让他感觉很失望啊。


2).评分分析

接下来,我们查看一下评分如何,我们用pyecharts快速可视化看一下:

用Python来看看,神剧“黄金瞳”真的好看吗?


由饼形图可见,评分为10分的占到了评价总量的80%以上

用Python来看看,神剧“黄金瞳”真的好看吗?


3).用户等级分布

接下来我们来看一下针对于不同的用户等级数量,以及不同等级下的用户评分。

用Python来看看,神剧“黄金瞳”真的好看吗?


用Python来看看,神剧“黄金瞳”真的好看吗?

由上图可以看出,等级1、等级2和等级3的用户都给了很高的评价,而唯一的等级5给出了一个0分的评价,还记得我们数据展示的那个0分吗?对,就是那个用户给出的,数据分析的结果与我们上面数据展示产生了很好的呼应。


用Python来看看,神剧“黄金瞳”真的好看吗?
4

词云看看大家的焦点


最后,我们来制作一下关于《黄金瞳》的评价词云展示,从词云里看一下大家对于这部剧的评价。

用Python来看看,神剧“黄金瞳”真的好看吗?



目前的评论分析主要是采集第一集,评论的样本量比较小。大家的焦点是里面有很多老戏骨,剧情有的说不错,有的说拖沓,如果后面剧情展开,能收集到上万条评论,会更准确些。


如果有看过这部片子的欢迎留言讨论。


近期热门:

不废话,学Python就是这条捷径

我用Python开了外挂,元宵节我做了一个灯谜答题王

用Python预测收入,我用Python机器学习了5万人的数据

强烈推荐|麻烦这周刚关注2128名小伙伴一定要看,信息量太大

本篇文章来源于: 菜鸟学Python

本文为原创文章,版权归所有,欢迎分享本文,转载请保留出处!

知行编程网
知行编程网 关注:1    粉丝:1
这个人很懒,什么都没写

发表评论

表情 格式 链接 私密 签到
扫一扫二维码分享