爬取豆瓣短评，刘若英导演的电影《后来的我们》发现爱情原来是这样

知行编程网 2022-03-14 06:00 知行编程网 | 隐藏边栏 | 抢沙发 | 8 0

文章评分 0 次，平均分 0.0 ：

菜鸟学Python粉丝的第22篇投稿

阅读本文大概需要3分钟

粉丝独白

今天是五四青年节，刘若英的电影《后来的我们》上映了，相信大家有点小期待吧，不知道看完了之后，有多少小伙伴想起了前尘往事，毕竟大家都年轻过，尤其是影片的主题曲《我们》，不知道听哭了多少人。电影能否跟歌曲一样深入人心，怀着这样的一种心情，我们一起来分析一下它的影评吧。

要点：

用selenium 爬取数据
数据清洗并存入Mongodb
用echart可视化分析
用jieba分词
用WordCloud做云图

爬取数据

通过试探知道：豆瓣影评设置权限，没有登陆的话，只能够看到前面的几十条短评，并且登录的时候需要输入验证码。所以考虑使用selenium来获取数据。登录时需要的验证码，通过保存图片，然后手动输入

所以构造两个方法，先登入，然后获取验证码，但是验证码不是每次都需要的

1).登入方法：

我们用web自动化神器selenium来模拟登入，然后找到username和passwd框，输入我们用的用户名和密码即可。

2).获取验证码

验证码的解析，我们这里用一种比较原始的方法
我们首先用selenium找到验证码的图片，然后保存下来
接着用人眼解析，然后在input输入
当然不是每一次都要验证码的，如果不需要验证码，大家可以略过这一步

3).进入详情页面

登陆成功之后，接着我们就可以通过搜索框搜索《后来的我们》，进入详情页，随后进入短评列表

找到文本搜索框inp-query,然后输入"后来的我们"，然后点击搜索按钮，获取短评的列表。

4).查看具体短评的内容

分析一下短评列表的网页元素，然后用xpath找到短评的列表每个评论的具体内容

4).进行翻页，然后重新获取短评信息

一共有24页，我们直接简单的循环爬取

数据简单分析

数据分析其实是最精彩的地方，用数据来讲故事，玩数据分析的库有很多。比如可以用matplotlib,pandas,sns或者Tableau,也可以用交互性比较好的js库，这里用百度的开源库echart来处理，比较方便直观。

1).看一下点赞数

js的代码比较简单，直接构造一个json格式的数据列表

从图中可以看出短评中最受欢迎的大概有2500票,并且大部分集中在前排,(这是后面没有多少人看,所以点赞少嘛?) 看来前排很重要呀

2).把评论制作成词云图

大部分在评论周冬雨、感慨我们后来没有故事的

3).统计一下赞同数前十的评论

也许是主题曲提前预热了市场,让观众的期望值变高了，《后来的我们》在豆瓣上的评分只有6.2分，并且现在又出现了退票事件。单就电影来说，感觉还是可以的。或许是豆瓣的用户眼光有点高了。

爱情有一种结局，是后来的我们，只能从情侣变成爱了很久的朋友。电影有句很扎心的文案，“再后来，我什么都有了，却独独没有了我们”。希望我们好好珍惜。

需要完整的源码，请留言获取

近期热门：

程序员如何用Python科学炒股

用Python来分析股票|发现炒股软件里惊人内幕

我爬取了微信的粉丝留言数，就为了...

零基础学了8个月的Python，到底有啥感悟

点击阅读原文，了解详情

本篇文章来源于: 菜鸟学Python

本文为原创文章，版权归知行编程网所有，欢迎分享本文，转载请保留出处！

知行编程网关注：1 粉丝：1

这个人很懒，什么都没写

内容反馈

你可能也喜欢

热评文章

发表评论

联系我们

标签云

推广返利