菜鸟学Python粉丝的第22篇投稿
阅读本文大概需要3分钟
今天是五四青年节,刘若英的电影《后来的我们》上映了,相信大家有点小期待吧,不知道看完了之后,有多少小伙伴想起了前尘往事,毕竟大家都年轻过,尤其是影片的主题曲《我们》,不知道听哭了多少人。电影能否跟歌曲一样深入人心,怀着这样的一种心情,我们一起来分析一下它的影评吧。
要点:
-
用selenium 爬取数据
-
数据清洗并存入Mongodb
-
用echart可视化分析
-
用jieba分词
-
用WordCloud做云图
01
爬取数据
通过试探知道:豆瓣影评设置权限,没有登陆的话,只能够看到前面的几十条短评,并且登录的时候需要输入验证码。所以考虑使用selenium来获取数据。 登录时需要的验证码,通过保存图片,然后手动输入
所以构造两个方法,先登入,然后获取验证码,但是验证码不是每次都需要的
1).登入方法:
我们用web自动化神器selenium来模拟登入,然后找到username和passwd框,输入我们用的用户名和密码即可。
2).获取验证码
-
验证码的解析,我们这里用一种比较原始的方法
-
我们首先用selenium找到验证码的图片,然后保存下来
-
接着用人眼解析,然后在input输入
-
当然不是每一次都要验证码的,如果不需要验证码,大家可以略过这一步
3).进入详情页面
登陆成功之后,接着我们就可以通过搜索框搜索《后来的我们》,进入详情页,随后进入短评列表
找到文本搜索框inp-query,然后输入"后来的我们",然后点击搜索按钮,获取短评的列表。
4).查看具体短评的内容
分析一下短评列表的网页元素,然后用xpath找到短评的列表每个评论的具体内容
4).进行翻页,然后重新获取短评信息
一共有24页,我们直接简单的循环爬取
02
数据简单分析
数据分析其实是最精彩的地方,用数据来讲故事,玩数据分析的库有很多。比如可以用matplotlib,pandas,sns或者Tableau,也可以用交互性比较好的js库,这里用百度的开源库echart来处理,比较方便直观。
1).看一下点赞数
js的代码比较简单,直接构造一个json格式的数据列表
从图中可以看出短评中最受欢迎的大概有2500票,并且大部分集中在前排,(这是后面没有多少人看,所以点赞少嘛?) 看来前排很重要呀
2).把评论制作成词云图
大部分在评论周冬雨、感慨我们后来没有故事的
3).统计一下赞同数前十的评论
也许是主题曲提前预热了市场,让观众的期望值变高了,《后来的我们》在豆瓣上的评分只有6.2分,并且现在又出现了退票事件。 单就电影来说,感觉还是可以的。或许是豆瓣的用户眼光有点高了。
爱情有一种结局,是后来的我们,只能从情侣变成爱了很久的朋友。 电影有句很扎心的文案,“再后来,我什么都有了,却独独没有了我们”。 希望我们好好珍惜。
需要完整的源码,请留言获取
近期热门:
程序员如何用Python科学炒股
用Python来分析股票|发现炒股软件里惊人内幕
我爬取了微信的粉丝留言数,就为了...
零基础学了8个月的Python,到底有啥感悟
点击阅读原文,了解详情
本篇文章来源于: 菜鸟学Python
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
内容反馈