这是菜鸟学Python的第99篇原创文章
阅读本文大概需要3分钟
学Python这么久了,回首想想自己看过的Python书也不少,到底哪本书最牛,哪本书最火呢,哪个出版社出版的Python最多的,实力最强,这一系列的问题我都想知道.于是我就做了一个全网Python书的排行榜,前面两篇文章分别从思路和爬虫的角度去给大家分享,今天我就从数据的角度来给大家排个榜吧
一共1218本Python的书,有国人写的,也有老外写的,也有日本人写的,我把这些书全部存入了SQL数据库中,下面就给大家分享一下数据分析的结果
1).数据存入了sqlite db里面,建了一个 books的表格,我把"作者","书名","ISDN","页数","价格","出版社","出版日期","点评人数","翻译","链接","评分",一共11个维度全部存入表里
数据库books表头是:
HEADERS=['author', 'book', 'isdn', 'page', 'price','pub_company', 'pub_date', 'rating_people','translator', 'url', 'vote_num']
2).建一个class 专门查询
-
为了方便,我们把连接数据库和关闭数据库都提取到类里面的两个方法
-
连接SQLite3其实还好,但是如果用MySQL的时候,要用connect可能会报错,所以建议都加异常保护.
-
查询的方法我们可以封装在类里面,这样清晰简单些
在1200多本Python书中,到底哪家出版社出版的书最多呢:
发现出版最多的是"Packt Publishing",然后就是人邮
相信很多同学买书的时候,一定会查这本书的评分如何,我这里列出了评分最高的10本书,看看有没有你心仪的哪本
-
第一名是"Fluent Python",第二名:"流畅的Python"其实一个是英文版,一个是中文版,看来流畅的Python目前是头牌
-
有同学一定不服气,说我心目中的Python Cookbook, Python核心编程也是很不错呀,为啥连前10都没有上榜
-
好,确实不太公平,如果一本书10人评价,10个人都是给高分,这样是不是样本太少了,好我们继续往下看
为了更公平的评价到底哪一本才是人气最高的书,我们综合"点评人数"和"评分"两个维度去分析,把这两个数据相乘,Python好书太多了,我取前15名:
-
原来人气最高的是"Python基础教程" 1518个点评,7.9分
-
我最喜欢的"A byte of Python"排第4
下面是我写这个程序的最初的目的,我就想知道哪家出版社的Python书卖的最好,最牛呢(因为有4家出版社陆陆续续跟我联系过关于出书的事情)。其实要分析也很简单,把Top10的出版社的出版的书的评分求和,然后求均值再排序就可了
第一名:实力最强的看来是"机械工业出版社"
第二名:人民邮电出版社
第三名:O'Reolly Media
其实第二名和第三名比分很接近了
-
大家是不是也先想知道,这么多Python书,到底哪一年出版的书最多呢,
-
从这个数字的背后也反应了Python是从哪一年开始火起来了,不信我们分析一下
我们把数据库里面的出版日期全部提取出来,然后稍微要进行一下数据清洗,因为日期里面有'September 2007','2007年9月','April 09, 2007','2017-9','2017-8-25',5种杂乱的数据格式,我用正则进行了清洗(插一句正则对数据分析来说非常非常重要,不懂的小伙伴可以看我的历史文章,有详细的介绍)
然后把年份过滤提取,在用colleaction里面的Counter进行排序
发现年份最多的是2015年,其次是2016年,正好是Python开始火的时候
>>
[(u'2015', 167), (u'2016', 144), (u'2017', 97)]
1).Python书名最长的:174个字符
2).日期最老的Python书:1975年就出版了
3).页数最多的Python书:有1632页
4).页数最少的Python书
书名叫:Good morning,Little Python! 只有12页
结论:
好,今天的全网分析Python书,结论篇,就讲道这里,这个实战项目算是结束了,后面还有很多好玩的文章要跟大家分享,数据分析是一个非常有趣的话题。这个实战项目有兴趣的小伙伴,也可以自己动手写一下哦。源码我会放github上,到时会通知大家,若有什么问题,也欢迎留言讨论一下.另外过两天还有送书的活动,大家敬请期待~~
另外:
我发现前天取关的人数很多,我也不知道是什么原因,原创其实很不容易,当然人各有志,如果不喜欢也没有关系,只是希望取关之前,写句话告诉我到底啥原因
欢迎大家关注 菜鸟学Python",更多好玩有趣的Python原创教程,趣味算法,经验技巧,行业动态,尽在菜鸟学Python,一起来学python吧
用Python炒股|10年翻400倍的量化投资策略
用Python来分析股票|发现炒股软件里惊人内幕
菜鸟学Python入门教程大盘点|7个多月的心血总结
同学,学Python真的不能这样学
全网爬取6500多只基金|看看哪家基金最强
用Python破解微软面试题|24点游戏
2道极好的Python算法题|带你透彻理解装饰器的妙用
一道Google的算法题 |Python巧妙破解
长按二维码,关注【菜鸟学python】
来源 | 菜鸟学Python
作者 | xinxin
本文章为菜鸟学Python独家原创稿件,未经授权不得转载
本篇文章来源于: 菜鸟学Python
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
内容反馈