SQL是结构化查询语言Structured Query Language的简称,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。
在正式讲解代码之前,先来科普一下数据库相关的知识。
数据库是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。数据库系统具有如下特点:
① 数据结构化
实现整体数据的结构化,这里所说的“整体”结构化,是指在数据库中的数据不再仅针对某个应用,而是面向全组织;不仅数据内部是结构化,而且整体式结构化,数据之间有联系。
② 数据共享性高
多个用户可以同时存取数据库中的数据,甚至可以同时存取数据库中的同一个数据。
③ 数据冗余度低
减少重复数据的存储,节约存储空间。
④ 数据独立性高
用户的应用程序与数据库的物理存储结构和逻辑结构是相互独立的。
数据库可以分为两类,关系型数据库和非关系型数据库NoSQL(Not Only SQL)。
关系型数据库是由多张能互相联接的二维行列表格组成的数据库。
非关系型数据库NoSQL主要是指非关系型、分布式、不提供ACID的数据库设计模式。其中,ACID是指数据库事务处理的四个基本要素,分别代表原子性Atomicity、一致性Consistency、隔离性Isolation、持久性Durability。
这里我们重点介绍一下关系型数据库,常用的有Oracle、MySQL、Microsoft SQL Server和PostgreSQL等,下面会用PostgreSQL作为实例,讲解如何用Python连接数据库并用SQL进行后续操作。
01
用Python连接数据库PostgreSQL
PostgreSQL是最先进并且应用最广泛的关系型数据库管理系统之一。它非常受欢迎的原因有很多,其中包括它是开源的、它的可扩展性以及它处理许多不同类型的应用程序和不同负载的能力。
用Python可以轻松地建立到PostgreSQL数据库的连接。PostgreSQL有很多Python驱动程序,其中“psycopg”是最流行的一个,它的当前版本是psycopg2。
我们可以用psycopg2模块将Postgres与Python连在一起。psycopg2是一个用于Python的Postgres数据库适配器。首先,需要用pip命令进行安装。
安装好之后,我们就可以用它进行数据库连接操作。首先,应该创建一个表示数据库的连接对象con。接着,创建一个游标对象cur来执行SQL语句。
database:要连接的数据库名称。
user:用于身份验证的用户名,默认为"postgres"。
password:用户的数据库密码,自己设置的。
host:数据库服务器的地址,如域名、“localhost”或IP地址。
port:端口,默认值为5432。
我们也可以用sqlalchemy库连接,代码如下:
02
SQL数据库操作
建表
我们用SQL语句CREATE TABLE在Python中创建Postgres表,先用上面提到的方法建立数据库连接,再调用属于连接对象的cursor()方法来创建游标对象,该游标对象用于实际执行命令。
然后调用cursor对象的execute()方法来帮助创建表。最后,我们需要提交con.commit()并关闭连接con.close()。“提交”连接告诉驱动程序将命令发送到数据库,这一步很重要。
这里我们创建两个表,“沪深300指数日线行情”和“沪深股票qfq日线行情”。
插入数据
既然表已经创建成功,我们就可以开始插入数据了,先从tushare.pro上面获取沪深300指数日线行情数据,用INSERT INTO这个SQL语句插入。
(左右滑动查看代码)
同理,将tushare.pro里面的沪深股票前复权通用行情数据插入表“沪深股票qfq日线行情”,示例中只插入两只股票,平安银行'000001.SZ' 和万科A'000002.SZ'。
这里我们介绍另一种存储数据的方法,直接用Pandas自带的df.to_sql(),将获取的DataFrame一次性插入到数据库中,比上面介绍的先建表,再一行行插入的方法要简洁很多。
(左右滑动查看代码)
值得注意的一点是,这种方法在数据量小的时候一般不会出问题,但当数据量很大时,可能会因服务器无法响应而报错。这时,需要设置参数值chunksize,限制每次插入的行数。更多有关参数的说明,可到官方文档查看【1】。
有了数据,我们就可以用SQL对数据库进行一系列的操作了。
获取数据
我们可以用Pandas自带的.read_sql()方法获取数据,直接返回的是DataFrame格式,非常方便,详细的参数解析请查看官方文档【2】。SQL的查询功能是很强大的,下面介绍常用的一些筛选条件。
选取某张表的特定几列:
用DISTINCT选取唯一值:
用COUNT计数:
用WHERE语句筛选数值:
WHERE语句搭配AND和OR一起使用:
和WHERE语句类似,BETWEEN也可以搭配AND和OR一起使用:
WHERE和IN的组合,可以简化WHERE结合多个OR进行筛选的代码:
NULL的意思是空值,IS NULL代表是空值,IS NOT NULL代表不是空值:
可以用聚合函数对数据做一些计算,如平均值AVG(),最大值MAX(),求和SUM():
聚合函数也可以和WHERE语句结合进行筛选:
用AS为新列命名:
ORDER BY排序,默认为升序,降序需要在末尾加上DESC:
ORDER BY也可以根据多个列进行排序:
GROUP BY进行分组,并结合聚合函数分组计算数据:
如果要在分组GROUP BY的基础上再增加聚合函数筛选条件,可用HAVING:
LIMIT限制取出的行数:
03
总结
本文介绍了数据库系统的优势,如何用Python连接数据库并用SQL进行后续的查询操作。SQL是非常强大的查询语言,在使用Python对数据进行分析之前,可以通过筛选精准地获取想要的数据。
Python和SQL的组合能够大大提升数据分析的效率和质量,希望大家可以好好学习和利用起来!
618来了,说三个小福利 历史最低特价还剩1天
仅限6/17-6/19
目前已经破1000人
本篇文章来源于: 菜鸟学Python
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
你可能也喜欢
- ♥ python控制台是什么意思09/20
- ♥ 来秀一个!实战办公自动化!用Python玩转Excel,看GDP变化05/05
- ♥ python中什么是空闲的08/27
- ♥ python中的字符串是什么11/02
- ♥ Python中a是b和a==b之间的区别?10/24
- ♥ Python让七夕告白10/24
内容反馈