知行编程网知行编程网  2022-03-14 06:00 知行编程网 隐藏边栏 |   抢沙发  8 
文章评分 0 次,平均分 0.0

菜鸟学Python粉丝的第22篇投稿

阅读本文大概需要3分钟

粉丝独白

今天是五四青年节,刘若英的电影《后来的我们》上映了,相信大家有点小期待吧,不知道看完了之后,有多少小伙伴想起了前尘往事,毕竟大家都年轻过,尤其是影片的主题曲《我们》,不知道听哭了多少人。电影能否跟歌曲一样深入人心,怀着这样的一种心情,我们一起来分析一下它的影评吧。


要点:

  • 用selenium 爬取数据

  • 数据清洗并存入Mongodb

  • 用echart可视化分析

  • 用jieba分词

  • 用WordCloud做云图



01

爬取数据


通过试探知道:豆瓣影评设置权限,没有登陆的话,只能够看到前面的几十条短评,并且登录的时候需要输入验证码。所以考虑使用selenium来获取数据。 登录时需要的验证码,通过保存图片,然后手动输入


爬取豆瓣短评,刘若英导演的电影《后来的我们》发现爱情原来是这样


所以构造两个方法,先登入,然后获取验证码,但是验证码不是每次都需要的

1).登入方法

爬取豆瓣短评,刘若英导演的电影《后来的我们》发现爱情原来是这样

我们用web自动化神器selenium来模拟登入,然后找到username和passwd框,输入我们用的用户名和密码即可。


2).获取验证码

爬取豆瓣短评,刘若英导演的电影《后来的我们》发现爱情原来是这样

  • 验证码的解析,我们这里用一种比较原始的方法

  • 我们首先用selenium找到验证码的图片,然后保存下来

  • 接着用人眼解析,然后在input输入

  • 当然不是每一次都要验证码的,如果不需要验证码,大家可以略过这一步


3).进入详情页面

登陆成功之后,接着我们就可以通过搜索框搜索《后来的我们》,进入详情页,随后进入短评列表

爬取豆瓣短评,刘若英导演的电影《后来的我们》发现爱情原来是这样


爬取豆瓣短评,刘若英导演的电影《后来的我们》发现爱情原来是这样

找到文本搜索框inp-query,然后输入"后来的我们",然后点击搜索按钮,获取短评的列表。



4).查看具体短评的内容

爬取豆瓣短评,刘若英导演的电影《后来的我们》发现爱情原来是这样


分析一下短评列表的网页元素,然后用xpath找到短评的列表每个评论的具体内容

爬取豆瓣短评,刘若英导演的电影《后来的我们》发现爱情原来是这样


爬取豆瓣短评,刘若英导演的电影《后来的我们》发现爱情原来是这样


4).进行翻页,然后重新获取短评信息

一共有24页,我们直接简单的循环爬取

爬取豆瓣短评,刘若英导演的电影《后来的我们》发现爱情原来是这样



02

数据简单分析


数据分析其实是最精彩的地方,用数据来讲故事,玩数据分析的库有很多。比如可以用matplotlib,pandas,sns或者Tableau,也可以用交互性比较好的js库,这里用百度的开源库echart来处理,比较方便直观。


1).看一下点赞数

爬取豆瓣短评,刘若英导演的电影《后来的我们》发现爱情原来是这样

js的代码比较简单,直接构造一个json格式的数据列表


爬取豆瓣短评,刘若英导演的电影《后来的我们》发现爱情原来是这样

从图中可以看出短评中最受欢迎的大概有2500票,并且大部分集中在前排,(这是后面没有多少人看,所以点赞少嘛?) 看来前排很重要呀



2).把评论制作成词云图

爬取豆瓣短评,刘若英导演的电影《后来的我们》发现爱情原来是这样

大部分在评论周冬雨、感慨我们后来没有故事


3).统计一下赞同数前十的评论


也许是主题曲提前预热了市场,让观众的期望值变高了,《后来的我们》在豆瓣上的评分只有6.2分,并且现在又出现了退票事件。 单就电影来说,感觉还是可以的。或许是豆瓣的用户眼光有点高了。

爱情有一种结局,是后来的我们,只能从情侣变成爱了很久的朋友。 电影有句很扎心的文案,“再后来,我什么都有了,却独独没有了我们”。 希望我们好好珍惜。

需要完整的源码,请留言获取



近期热门:

程序员如何用Python科学炒股

用Python来分析股票|发现炒股软件里惊人内幕

我爬取了微信的粉丝留言数,就为了...

零基础学了8个月的Python,到底有啥感悟


点击阅读原文,了解详情

本篇文章来源于: 菜鸟学Python

本文为原创文章,版权归所有,欢迎分享本文,转载请保留出处!

知行编程网
知行编程网 关注:1    粉丝:1
这个人很懒,什么都没写

发表评论

表情 格式 链接 私密 签到
扫一扫二维码分享