提交 1ef5bf05 编写于 作者: J jackfrued

更新了部分文档

上级 b67ed793
...@@ -4,17 +4,17 @@ ...@@ -4,17 +4,17 @@
1. 数据持久化 - 将数据保存到能够长久保存数据的存储介质中,在掉电的情况下数据也不会丢失。 1. 数据持久化 - 将数据保存到能够长久保存数据的存储介质中,在掉电的情况下数据也不会丢失。
2. 数据库发展史 - 网状数据库、层次数据库、关系数据库、NoSQL数据库。 2. 数据库发展史 - 网状数据库、层次数据库、关系数据库、NoSQL数据库、NewSQL数据库
> 1970年,IBM的研究员E.F.Codd在*Communication of the ACM*上发表了名为*A Relational Model of Data for Large Shared Data Banks*的论文,提出了关系模型的概念,奠定了关系模型的理论基础。后来Codd又陆续发表多篇文章,论述了范式理论和衡量关系系统的12条标准,用数学理论奠定了关系数据库的基础。 > 1970年,IBM的研究员E.F.Codd在*Communication of the ACM*上发表了名为*A Relational Model of Data for Large Shared Data Banks*的论文,提出了**关系模型**的概念,奠定了关系模型的理论基础。后来Codd又陆续发表多篇文章,论述了范式理论和衡量关系系统的12条标准,用数学理论奠定了关系数据库的基础。
3. 关系数据库特点。 3. 关系数据库特点。
- 理论基础:集合论和关系代数 - 理论基础:**集合论****关系代数**
- 具体表象:用二维表(有行和列)组织数据。 - 具体表象:用**二维表**(有行和列)组织数据。
- 编程语言:结构化查询语言(SQL)。 - 编程语言:**结构化查询语言**(SQL)。
4. ER模型(实体关系模型)和概念模型图。 4. ER模型(实体关系模型)和概念模型图。
...@@ -181,7 +181,7 @@ MySQL在过去由于性能高、成本低、可靠性好,已经成为最流行 ...@@ -181,7 +181,7 @@ MySQL在过去由于性能高、成本低、可靠性好,已经成为最流行
再次使用客户端工具连接MySQL服务器时,就可以使用新设置的口令了。在实际开发中,为了方便用户操作,可以选择图形化的客户端工具来连接MySQL服务器,包括: 再次使用客户端工具连接MySQL服务器时,就可以使用新设置的口令了。在实际开发中,为了方便用户操作,可以选择图形化的客户端工具来连接MySQL服务器,包括:
- MySQL Workbench(官方提供的工具) - MySQL Workbench(官方提供的工具)
- Navicat for MySQL(界面简单优雅,功能直观强大 - Navicat for MySQL(界面简单,功能直观
- SQLyog for MySQL(强大的MySQL数据库管理员工具) - SQLyog for MySQL(强大的MySQL数据库管理员工具)
2. 常用命令。 2. 常用命令。
...@@ -224,588 +224,706 @@ MySQL在过去由于性能高、成本低、可靠性好,已经成为最流行 ...@@ -224,588 +224,706 @@ MySQL在过去由于性能高、成本低、可靠性好,已经成为最流行
### SQL详解 ### SQL详解
#### 基本操作
我们通常可以将SQL分为三类:DDL(数据定义语言)、DML(数据操作语言)和DCL(数据控制语言)。DDL主要用于创建(create)、删除(drop)、修改(alter)数据库中的对象,比如创建、删除和修改二维表;DML主要负责插入数据(insert)、删除数据(delete)、更新数据(update)和查询(select);DCL通常用于授予权限(grant)和召回权限(revoke)。 我们通常可以将SQL分为三类:DDL(数据定义语言)、DML(数据操作语言)和DCL(数据控制语言)。DDL主要用于创建(create)、删除(drop)、修改(alter)数据库中的对象,比如创建、删除和修改二维表;DML主要负责插入数据(insert)、删除数据(delete)、更新数据(update)和查询(select);DCL通常用于授予权限(grant)和召回权限(revoke)。
> 说明:SQL是不区分大小写的语言,为了书写方便,下面的SQL都使用了小写字母来书写。 > **说明**:SQL是不区分大小写的语言,为了书写和识别方便,下面的SQL都使用了小写字母来书写。
1. DDL(数据定义语言) #### DDL(数据定义语言)
```SQL ```SQL
-- 如果存在名为school的数据库就删除它 -- 如果存在名为school的数据库就删除它
drop database if exists school; drop database if exists `school`;
-- 创建名为school的数据库并设置默认的字符集和排序方式
create database school default charset utf8;
-- 切换到school数据库上下文环境
use school;
-- 创建学院表
create table tb_college
(
collid int auto_increment comment '编号',
collname varchar(50) not null comment '名称',
collintro varchar(500) default '' comment '介绍',
primary key (collid)
);
-- 创建学生表
create table tb_student
(
stuid int not null comment '学号',
stuname varchar(20) not null comment '姓名',
stusex boolean default 1 comment '性别',
stubirth date not null comment '出生日期',
stuaddr varchar(255) default '' comment '籍贯',
collid int not null comment '所属学院',
primary key (stuid),
foreign key (collid) references tb_college (collid)
);
-- 创建教师表
create table tb_teacher
(
teaid int not null comment '工号',
teaname varchar(20) not null comment '姓名',
teatitle varchar(10) default '助教' comment '职称',
collid int not null comment '所属学院',
primary key (teaid),
foreign key (collid) references tb_college (collid)
);
-- 创建课程表
create table tb_course
(
couid int not null comment '编号',
couname varchar(50) not null comment '名称',
coucredit int not null comment '学分',
teaid int not null comment '授课老师',
primary key (couid),
foreign key (teaid) references tb_teacher (teaid)
);
-- 创建选课记录表
create table tb_record
(
recid int auto_increment comment '选课记录编号',
sid int not null comment '选课学生',
cid int not null comment '所选课程',
seldate datetime default now() comment '选课时间日期',
score decimal(4,1) comment '考试成绩',
primary key (recid),
foreign key (sid) references tb_student (stuid),
foreign key (cid) references tb_course (couid),
unique (sid, cid)
);
```
上面的DDL有几个地方需要强调一下: -- 创建名为school的数据库并设置默认的字符集和排序方式
create database `school` default character set utf8mb4;
- 创建数据库时,我们通过`default charset utf8`指定了数据库默认使用的字符集,我们推荐使用该字符集,因为utf8能够支持国际化编码。如果将来数据库中用到的字符可能包括类似于Emoji这样的图片字符,也可以将默认字符集设定为utf8mb4(最大4字节的utf-8编码)。查看MySQL支持的字符集可以执行下面的语句。 -- 切换到school数据库上下文环境
use `school`;
```SQL -- 创建学院表
show character set; create table `tb_college`
``` (
`col_id` int unsigned auto_increment comment '编号',
`col_name` varchar(50) not null comment '名称',
`col_intro` varchar(5000) default '' comment '介绍',
primary key (`col_id`)
) engine=innodb comment '学院表';
-- 创建学生表
create table `tb_student`
(
`stu_id` int unsigned not null comment '学号',
`stu_name` varchar(20) not null comment '姓名',
`stu_sex` boolean default 1 comment '性别',
`stu_birth` date not null comment '出生日期',
`stu_addr` varchar(255) default '' comment '籍贯',
`col_id` int unsigned not null comment '所属学院',
primary key (`stu_id`),
foreign key (`col_id`) references `tb_college` (`col_id`)
) engine=innodb comment '学生表';
-- 创建教师表
create table `tb_teacher`
(
`tea_id` int unsigned not null comment '工号',
`tea_name` varchar(20) not null comment '姓名',
`tea_title` varchar(10) default '助教' comment '职称',
`col_id` int unsigned not null comment '所属学院',
primary key (`tea_id`),
foreign key (`col_id`) references `tb_college` (`col_id`)
) engine=innodb comment '老师表';
-- 创建课程表
create table `tb_course`
(
`cou_id` int unsigned not null comment '编号',
`cou_name` varchar(50) not null comment '名称',
`cou_credit` int unsigned not null comment '学分',
`tea_id` int unsigned not null comment '授课老师',
primary key (`cou_id`),
foreign key (`tea_id`) references `tb_teacher` (`tea_id`)
) engine=innodb comment '课程表';
-- 创建选课记录表
create table `tb_record`
(
`rec_id` bigint unsigned auto_increment comment '选课记录号',
`sid` int unsigned not null comment '学号',
`cid` int unsigned not null comment '课程编号',
`sel_date` date not null comment '选课日期',
`score` decimal(4,1) comment '考试成绩',
primary key (`rec_id`),
foreign key (`sid`) references `tb_student` (`stu_id`),
foreign key (`cid`) references `tb_course` (`cou_id`),
unique (`sid`, `cid`)
) engine=innodb comment '选课记录表';
```
``` 上面的DDL有几个地方需要强调一下:
+----------+---------------------------------+---------------------+--------+
| Charset | Description | Default collation | Maxlen | - 创建数据库时,我们通过`default charset utf8`指定了数据库默认使用的字符集,我们推荐使用该字符集,因为utf8能够支持国际化编码。如果将来数据库中用到的字符可能包括类似于Emoji这样的图片字符,也可以将默认字符集设定为utf8mb4(最大4字节的utf-8编码)。查看MySQL支持的字符集可以执行下面的语句。
+----------+---------------------------------+---------------------+--------+
| big5 | Big5 Traditional Chinese | big5_chinese_ci | 2 | ```SQL
| dec8 | DEC West European | dec8_swedish_ci | 1 | show character set;
| cp850 | DOS West European | cp850_general_ci | 1 | ```
| hp8 | HP West European | hp8_english_ci | 1 |
| koi8r | KOI8-R Relcom Russian | koi8r_general_ci | 1 | ```
| latin1 | cp1252 West European | latin1_swedish_ci | 1 | +----------+---------------------------------+---------------------+--------+
| latin2 | ISO 8859-2 Central European | latin2_general_ci | 1 | | Charset | Description | Default collation | Maxlen |
| swe7 | 7bit Swedish | swe7_swedish_ci | 1 | +----------+---------------------------------+---------------------+--------+
| ascii | US ASCII | ascii_general_ci | 1 | | big5 | Big5 Traditional Chinese | big5_chinese_ci | 2 |
| ujis | EUC-JP Japanese | ujis_japanese_ci | 3 | | dec8 | DEC West European | dec8_swedish_ci | 1 |
| sjis | Shift-JIS Japanese | sjis_japanese_ci | 2 | | cp850 | DOS West European | cp850_general_ci | 1 |
| hebrew | ISO 8859-8 Hebrew | hebrew_general_ci | 1 | | hp8 | HP West European | hp8_english_ci | 1 |
| tis620 | TIS620 Thai | tis620_thai_ci | 1 | | koi8r | KOI8-R Relcom Russian | koi8r_general_ci | 1 |
| euckr | EUC-KR Korean | euckr_korean_ci | 2 | | latin1 | cp1252 West European | latin1_swedish_ci | 1 |
| koi8u | KOI8-U Ukrainian | koi8u_general_ci | 1 | | latin2 | ISO 8859-2 Central European | latin2_general_ci | 1 |
| gb2312 | GB2312 Simplified Chinese | gb2312_chinese_ci | 2 | | swe7 | 7bit Swedish | swe7_swedish_ci | 1 |
| greek | ISO 8859-7 Greek | greek_general_ci | 1 | | ascii | US ASCII | ascii_general_ci | 1 |
| cp1250 | Windows Central European | cp1250_general_ci | 1 | | ujis | EUC-JP Japanese | ujis_japanese_ci | 3 |
| gbk | GBK Simplified Chinese | gbk_chinese_ci | 2 | | sjis | Shift-JIS Japanese | sjis_japanese_ci | 2 |
| latin5 | ISO 8859-9 Turkish | latin5_turkish_ci | 1 | | hebrew | ISO 8859-8 Hebrew | hebrew_general_ci | 1 |
| armscii8 | ARMSCII-8 Armenian | armscii8_general_ci | 1 | | tis620 | TIS620 Thai | tis620_thai_ci | 1 |
| utf8 | UTF-8 Unicode | utf8_general_ci | 3 | | euckr | EUC-KR Korean | euckr_korean_ci | 2 |
| ucs2 | UCS-2 Unicode | ucs2_general_ci | 2 | | koi8u | KOI8-U Ukrainian | koi8u_general_ci | 1 |
| cp866 | DOS Russian | cp866_general_ci | 1 | | gb2312 | GB2312 Simplified Chinese | gb2312_chinese_ci | 2 |
| keybcs2 | DOS Kamenicky Czech-Slovak | keybcs2_general_ci | 1 | | greek | ISO 8859-7 Greek | greek_general_ci | 1 |
| macce | Mac Central European | macce_general_ci | 1 | | cp1250 | Windows Central European | cp1250_general_ci | 1 |
| macroman | Mac West European | macroman_general_ci | 1 | | gbk | GBK Simplified Chinese | gbk_chinese_ci | 2 |
| cp852 | DOS Central European | cp852_general_ci | 1 | | latin5 | ISO 8859-9 Turkish | latin5_turkish_ci | 1 |
| latin7 | ISO 8859-13 Baltic | latin7_general_ci | 1 | | armscii8 | ARMSCII-8 Armenian | armscii8_general_ci | 1 |
| utf8mb4 | UTF-8 Unicode | utf8mb4_general_ci | 4 | | utf8 | UTF-8 Unicode | utf8_general_ci | 3 |
| cp1251 | Windows Cyrillic | cp1251_general_ci | 1 | | ucs2 | UCS-2 Unicode | ucs2_general_ci | 2 |
| utf16 | UTF-16 Unicode | utf16_general_ci | 4 | | cp866 | DOS Russian | cp866_general_ci | 1 |
| utf16le | UTF-16LE Unicode | utf16le_general_ci | 4 | | keybcs2 | DOS Kamenicky Czech-Slovak | keybcs2_general_ci | 1 |
| cp1256 | Windows Arabic | cp1256_general_ci | 1 | | macce | Mac Central European | macce_general_ci | 1 |
| cp1257 | Windows Baltic | cp1257_general_ci | 1 | | macroman | Mac West European | macroman_general_ci | 1 |
| utf32 | UTF-32 Unicode | utf32_general_ci | 4 | | cp852 | DOS Central European | cp852_general_ci | 1 |
| binary | Binary pseudo charset | binary | 1 | | latin7 | ISO 8859-13 Baltic | latin7_general_ci | 1 |
| geostd8 | GEOSTD8 Georgian | geostd8_general_ci | 1 | | utf8mb4 | UTF-8 Unicode | utf8mb4_general_ci | 4 |
| cp932 | SJIS for Windows Japanese | cp932_japanese_ci | 2 | | cp1251 | Windows Cyrillic | cp1251_general_ci | 1 |
| eucjpms | UJIS for Windows Japanese | eucjpms_japanese_ci | 3 | | utf16 | UTF-16 Unicode | utf16_general_ci | 4 |
| gb18030 | China National Standard GB18030 | gb18030_chinese_ci | 4 | | utf16le | UTF-16LE Unicode | utf16le_general_ci | 4 |
+----------+---------------------------------+---------------------+--------+ | cp1256 | Windows Arabic | cp1256_general_ci | 1 |
41 rows in set (0.00 sec) | cp1257 | Windows Baltic | cp1257_general_ci | 1 |
``` | utf32 | UTF-32 Unicode | utf32_general_ci | 4 |
| binary | Binary pseudo charset | binary | 1 |
| geostd8 | GEOSTD8 Georgian | geostd8_general_ci | 1 |
| cp932 | SJIS for Windows Japanese | cp932_japanese_ci | 2 |
| eucjpms | UJIS for Windows Japanese | eucjpms_japanese_ci | 3 |
| gb18030 | China National Standard GB18030 | gb18030_chinese_ci | 4 |
+----------+---------------------------------+---------------------+--------+
41 rows in set (0.00 sec)
```
如果要设置MySQL服务启动时默认使用的字符集,可以修改MySQL的配置并添加以下内容
```INI
[mysqld]
character-set-server=utf8
```
- 在创建表的时候,我们可以在右圆括号的后面通过`engine=XXX`来指定表的存储引擎,MySQL支持多种存储引擎,可以通过`show engines`命令进行查看。MySQL 5.5以后的版本默认使用的存储引擎是InnoDB,它正好也就是我们推荐大家使用的存储引擎(因为InnoDB更适合互联网应用对高并发、性能以及事务支持等方面的需求)。
```SQL
show engines\G
```
```
*************************** 1. row ***************************
Engine: InnoDB
Support: DEFAULT
Comment: Supports transactions, row-level locking, and foreign keys
Transactions: YES
XA: YES
Savepoints: YES
*************************** 2. row ***************************
Engine: MRG_MYISAM
Support: YES
Comment: Collection of identical MyISAM tables
Transactions: NO
XA: NO
Savepoints: NO
*************************** 3. row ***************************
Engine: MEMORY
Support: YES
Comment: Hash based, stored in memory, useful for temporary tables
Transactions: NO
XA: NO
Savepoints: NO
*************************** 4. row ***************************
Engine: BLACKHOLE
Support: YES
Comment: /dev/null storage engine (anything you write to it disappears)
Transactions: NO
XA: NO
Savepoints: NO
*************************** 5. row ***************************
Engine: MyISAM
Support: YES
Comment: MyISAM storage engine
Transactions: NO
XA: NO
Savepoints: NO
*************************** 6. row ***************************
Engine: CSV
Support: YES
Comment: CSV storage engine
Transactions: NO
XA: NO
Savepoints: NO
*************************** 7. row ***************************
Engine: ARCHIVE
Support: YES
Comment: Archive storage engine
Transactions: NO
XA: NO
Savepoints: NO
*************************** 8. row ***************************
Engine: PERFORMANCE_SCHEMA
Support: YES
Comment: Performance Schema
Transactions: NO
XA: NO
Savepoints: NO
*************************** 9. row ***************************
Engine: FEDERATED
Support: NO
Comment: Federated MySQL storage engine
Transactions: NULL
XA: NULL
Savepoints: NULL
9 rows in set (0.00 sec)
```
下面的表格对MySQL几种常用的数据引擎进行了简单的对比。
| 特性 | InnoDB | MRG_MYISAM | MEMORY | MyISAM |
| ------------ | ------------ | ---------- | ------ | ------ |
| 存储限制 | 有 | 没有 | 有 | 有 |
| 事务 | 支持 | | | |
| 锁机制 | 行锁 | 表锁 | 表锁 | 表锁 |
| B树索引 | 支持 | 支持 | 支持 | 支持 |
| 哈希索引 | | | 支持 | |
| 全文检索 | 支持(5.6+) | | | 支持 |
| 集群索引 | 支持 | | | |
| 数据缓存 | 支持 | | 支持 | |
| 索引缓存 | 支持 | 支持 | 支持 | 支持 |
| 数据可压缩 | | | | 支持 |
| 内存使用 | 高 | 低 | 中 | 低 |
| 存储空间使用 | 高 | 低 | | 低 |
| 批量插入性能 | 低 | 高 | 高 | 高 |
| 是否支持外键 | 支持 | | | |
通过上面的比较我们可以了解到,InnoDB是唯一能够支持外键、事务以及行锁的存储引擎,所以我们之前说它更适合互联网应用,而且它也是较新的MySQL版本中默认使用的存储引擎。
- 在定义表结构为每个字段选择数据类型时,如果不清楚哪个数据类型更合适,可以通过MySQL的帮助系统来了解每种数据类型的特性、数据的长度和精度等相关信息。
```SQL
? data types
```
```
You asked for help about help category: "Data Types"
For more information, type 'help <item>', where <item> is one of the following
topics:
AUTO_INCREMENT
BIGINT
BINARY
BIT
BLOB
BLOB DATA TYPE
BOOLEAN
CHAR
CHAR BYTE
DATE
DATETIME
DEC
DECIMAL
DOUBLE
DOUBLE PRECISION
ENUM
FLOAT
INT
INTEGER
LONGBLOB
LONGTEXT
MEDIUMBLOB
MEDIUMINT
MEDIUMTEXT
SET DATA TYPE
SMALLINT
TEXT
TIME
TIMESTAMP
TINYBLOB
TINYINT
TINYTEXT
VARBINARY
VARCHAR
YEAR DATA TYPE
```
```SQL
? varchar
```
```
Name: 'VARCHAR'
Description:
[NATIONAL] VARCHAR(M) [CHARACTER SET charset_name] [COLLATE
collation_name]
A variable-length string. M represents the maximum column length in
characters. The range of M is 0 to 65,535. The effective maximum length
of a VARCHAR is subject to the maximum row size (65,535 bytes, which is
shared among all columns) and the character set used. For example, utf8
characters can require up to three bytes per character, so a VARCHAR
column that uses the utf8 character set can be declared to be a maximum
of 21,844 characters. See
http://dev.mysql.com/doc/refman/5.7/en/column-count-limit.html.
MySQL stores VARCHAR values as a 1-byte or 2-byte length prefix plus
data. The length prefix indicates the number of bytes in the value. A
VARCHAR column uses one length byte if values require no more than 255
bytes, two length bytes if values may require more than 255 bytes.
*Note*:
MySQL follows the standard SQL specification, and does not remove
trailing spaces from VARCHAR values.
VARCHAR is shorthand for CHARACTER VARYING. NATIONAL VARCHAR is the
standard SQL way to define that a VARCHAR column should use some
predefined character set. MySQL uses utf8 as this predefined character
set. http://dev.mysql.com/doc/refman/5.7/en/charset-national.html.
NVARCHAR is shorthand for NATIONAL VARCHAR.
URL: http://dev.mysql.com/doc/refman/5.7/en/string-type-overview.html
```
在数据类型的选择上,保存字符串数据通常都使用VARCHAR和CHAR两种类型,前者通常称为变长字符串,而后者通常称为定长字符串;对于InnoDB存储引擎,行存储格式没有区分固定长度和可变长度列,因此VARCHAR类型好CHAR类型没有本质区别,后者不一定比前者性能更好。如果要保存的很大字符串,可以使用TEXT类型;如果要保存很大的字节串,可以使用BLOB(二进制大对象)类型。在MySQL中,TEXT和BLOB又分别包括TEXT、MEDIUMTEXT、LONGTEXT和BLOB、MEDIUMBLOB、LONGBLOB三种不同的类型,它们主要的区别在于存储数据的最大大小不同。保存浮点数可以用FLOAT或DOUBLE类型,而保存定点数应该使用DECIMAL类型。如果要保存时间日期,DATETIME类型优于TIMESTAMP类型,因为前者能表示的时间日期范围更大。
#### DML(数据操作语言)
如果要设置MySQL服务启动时默认使用的字符集,可以修改MySQL的配置并添加以下内容 ```SQL
use school;
-- 插入学院数据
insert into `tb_college`
(`col_name`, `col_intro`)
values
('计算机学院', '计算机学院1958年设立计算机专业,1981年建立计算机科学系,1998年设立计算机学院,2005年5月,为了进一步整合教学和科研资源,学校决定,计算机学院和软件学院行政班子合并统一运作、实行教学和学生管理独立运行的模式。 学院下设三个系:计算机科学与技术系、物联网工程系、计算金融系;两个研究所:图象图形研究所、网络空间安全研究院(2015年成立);三个教学实验中心:计算机基础教学实验中心、IBM技术中心和计算机专业实验中心。'),
('外国语学院', '外国语学院设有7个教学单位,6个文理兼收的本科专业;拥有1个一级学科博士授予点,3个二级学科博士授予点,5个一级学科硕士学位授权点,5个二级学科硕士学位授权点,5个硕士专业授权领域,同时还有2个硕士专业学位(MTI)专业;有教职员工210余人,其中教授、副教授80余人,教师中获得中国国内外名校博士学位和正在职攻读博士学位的教师比例占专任教师的60%以上。'),
('经济管理学院', '经济学院前身是创办于1905年的经济科;已故经济学家彭迪先、张与九、蒋学模、胡寄窗、陶大镛、胡代光,以及当代学者刘诗白等曾先后在此任教或学习。');
-- 插入学生数据
insert into `tb_student`
(`stu_id`, `stu_name`, `stu_sex`, `stu_birth`, `stu_addr`, `col_id`)
values
(1001, '杨过', 1, '1990-3-4', '湖南长沙', 1),
(1002, '任我行', 1, '1992-2-2', '湖南长沙', 1),
(1033, '王语嫣', 0, '1989-12-3', '四川成都', 1),
(1572, '岳不群', 1, '1993-7-19', '陕西咸阳', 1),
(1378, '纪嫣然', 0, '1995-8-12', '四川绵阳', 1),
(1954, '林平之', 1, '1994-9-20', '福建莆田', 1),
(2035, '东方不败', 1, '1988-6-30', null, 2),
(3011, '林震南', 1, '1985-12-12', '福建莆田', 3),
(3755, '项少龙', 1, '1993-1-25', null, 3),
(3923, '杨不悔', 0, '1985-4-17', '四川成都', 3);
-- 插入老师数据
insert into `tb_teacher`
(`tea_id`, `tea_name`, `tea_title`, `col_id`)
values
(1122, '张三丰', '教授', 1),
(1133, '宋远桥', '副教授', 1),
(1144, '杨逍', '副教授', 1),
(2255, '范遥', '副教授', 2),
(3366, '韦一笑', default, 3);
-- 插入课程数据
insert into `tb_course`
(`cou_id`, `cou_name`, `cou_credit`, `tea_id`)
values
(1111, 'Python程序设计', 3, 1122),
(2222, 'Web前端开发', 2, 1122),
(3333, '操作系统', 4, 1122),
(4444, '计算机网络', 2, 1133),
(5555, '编译原理', 4, 1144),
(6666, '算法和数据结构', 3, 1144),
(7777, '经贸法语', 3, 2255),
(8888, '成本会计', 2, 3366),
(9999, '审计学', 3, 3366);
-- 插入选课数据
insert into `tb_record`
(`sid`, `cid`, `sel_date`, `score`)
values
(1001, 1111, '2017-09-01', 95),
(1001, 2222, '2017-09-01', 87.5),
(1001, 3333, '2017-09-01', 100),
(1001, 4444, '2018-09-03', null),
(1001, 6666, '2017-09-02', 100),
(1002, 1111, '2017-09-03', 65),
(1002, 5555, '2017-09-01', 42),
(1033, 1111, '2017-09-03', 92.5),
(1033, 4444, '2017-09-01', 78),
(1033, 5555, '2017-09-01', 82.5),
(1572, 1111, '2017-09-02', 78),
(1378, 1111, '2017-09-05', 82),
(1378, 7777, '2017-09-02', 65.5),
(2035, 7777, '2018-09-03', 88),
(2035, 9999, '2019-09-02', null),
(3755, 1111, '2019-09-02', null),
(3755, 8888, '2019-09-02', null),
(3755, 9999, '2017-09-01', 92);
```
```INI #### DQL(数据查询语言)
[mysqld]
character-set-server=utf8
```
- 在创建表的时候,我们可以在右圆括号的后面通过`engine=XXX`来指定表的存储引擎,MySQL支持多种存储引擎,可以通过`show engines`命令进行查看。MySQL 5.5以后的版本默认使用的存储引擎是InnoDB,它正好也就是我们推荐大家使用的存储引擎(因为InnoDB更适合互联网应用对高并发、性能以及事务支持等方面的需求)。 ```SQL
-- 查询所有学生的所有信息
select * from tb_student;
select stu_id, stu_name, stu_sex, stu_birth, stu_addr, col_id from tb_student;
-- 查询所有课程名称及学分(投影和别名)
select cou_name as 课程名称, cou_credit as 学分 from tb_course;
-- 查询所有女学生的姓名和出生日期(筛选)
select stu_name, stu_birth from tb_student where stu_sex=0;
-- 查询所有80后学生的姓名、性别和出生日期(筛选)
select stu_name, stu_sex, stu_birth from tb_student
where stu_birth>='1980-1-1' and stu_birth<='1989-12-31';
select stu_name, stu_sex, stu_birth from tb_student
where stu_birth between '1980-1-1' and '1989-12-31';
```SQL -- 补充1:在查询时可以对列的值进行处理
show engines\G select
``` stu_name as 姓名,
case stu_sex when 1 then '男' else '女' end as 性别,
stu_birth as 生日
from tb_student
where stu_birth between '1980-1-1' and '1989-12-31';
``` -- 补充2:MySQL方言(使用数据库特有的函数)
*************************** 1. row *************************** -- 例如:Oracle中做同样事情的函数叫做decode
Engine: InnoDB select
Support: DEFAULT stu_name as 姓名,
Comment: Supports transactions, row-level locking, and foreign keys if(stu_sex, '男', '女') as 性别,
Transactions: YES stu_birth as 生日
XA: YES from tb_student
Savepoints: YES where stu_birth between '1980-1-1' and '1989-12-31';
*************************** 2. row ***************************
Engine: MRG_MYISAM
Support: YES
Comment: Collection of identical MyISAM tables
Transactions: NO
XA: NO
Savepoints: NO
*************************** 3. row ***************************
Engine: MEMORY
Support: YES
Comment: Hash based, stored in memory, useful for temporary tables
Transactions: NO
XA: NO
Savepoints: NO
*************************** 4. row ***************************
Engine: BLACKHOLE
Support: YES
Comment: /dev/null storage engine (anything you write to it disappears)
Transactions: NO
XA: NO
Savepoints: NO
*************************** 5. row ***************************
Engine: MyISAM
Support: YES
Comment: MyISAM storage engine
Transactions: NO
XA: NO
Savepoints: NO
*************************** 6. row ***************************
Engine: CSV
Support: YES
Comment: CSV storage engine
Transactions: NO
XA: NO
Savepoints: NO
*************************** 7. row ***************************
Engine: ARCHIVE
Support: YES
Comment: Archive storage engine
Transactions: NO
XA: NO
Savepoints: NO
*************************** 8. row ***************************
Engine: PERFORMANCE_SCHEMA
Support: YES
Comment: Performance Schema
Transactions: NO
XA: NO
Savepoints: NO
*************************** 9. row ***************************
Engine: FEDERATED
Support: NO
Comment: Federated MySQL storage engine
Transactions: NULL
XA: NULL
Savepoints: NULL
9 rows in set (0.00 sec)
```
下面的表格对MySQL几种常用的数据引擎进行了简单的对比。 -- 查询所有80后女学生的姓名和出生日期
select stu_name, stu_birth from tb_student
| 特性 | InnoDB | MRG_MYISAM | MEMORY | MyISAM | where stu_birth between '1980-1-1' and '1989-12-31' and stu_sex=0;
| ------------ | ------------ | ---------- | ------ | ------ |
| 存储限制 | 有 | 没有 | 有 | 有 | -- 查询所有的80后学生或女学生的姓名和出生日期
| 事务 | 支持 | | | | select stu_name, stu_birth from tb_student
| 锁机制 | 行锁 | 表锁 | 表锁 | 表锁 | where stu_birth between '1980-1-1' and '1989-12-31' or stu_sex=0;
| B树索引 | 支持 | 支持 | 支持 | 支持 |
| 哈希索引 | | | 支持 | | -- 查询姓“杨”的学生姓名和性别(模糊)
| 全文检索 | 支持(5.6+) | | | 支持 | -- 在SQL中通配符%可以匹配零个或任意多个字符
| 集群索引 | 支持 | | | | select stu_name, stu_sex from tb_student where stu_name like '杨%';
| 数据缓存 | 支持 | | 支持 | |
| 索引缓存 | 支持 | 支持 | 支持 | 支持 |
| 数据可压缩 | | | | 支持 |
| 内存使用 | 高 | 低 | 中 | 低 |
| 存储空间使用 | 高 | 低 | | 低 |
| 批量插入性能 | 低 | 高 | 高 | 高 |
| 是否支持外键 | 支持 | | | |
通过上面的比较我们可以了解到,InnoDB是唯一能够支持外键、事务以及行锁的存储引擎,所以我们之前说它更适合互联网应用,而且它也是较新的MySQL版本中默认使用的存储引擎。
- 在定义表结构为每个字段选择数据类型时,如果不清楚哪个数据类型更合适,可以通过MySQL的帮助系统来了解每种数据类型的特性、数据的长度和精度等相关信息。
```SQL -- 查询姓“杨”名字两个字的学生姓名和性别(模糊)
? data types -- 在SQL中通配符_可以刚刚好匹配一个字符
``` select stu_name, stu_sex from tb_student where stu_name like '杨_';
-- 查询姓“杨”名字三个字的学生姓名和性别(模糊)
select stu_name, stu_sex from tb_student where stu_name like '杨__';
-- 查询名字中有“不”字或“嫣”字的学生的姓名(模糊)
-- 提示:前面带%的模糊查询性能基本上都是非常糟糕的
select stu_name from tb_student
where stu_name like '%不%' or stu_name like '%嫣%';
update tb_student set stu_name='岳不嫣' where stu_id=1572;
-- 并集运算
select stu_name from tb_student where stu_name like '%不%'
union
select stu_name from tb_student where stu_name like '%嫣%';
select stu_name from tb_student where stu_name like '%不%'
union all
select stu_name from tb_student where stu_name like '%嫣%';
-- 正则表达式模糊查询
select stu_name, stu_sex from tb_student where stu_name regexp '^杨.{2}$';
-- 查询没有录入家庭住址的学生姓名(空值)
-- null作任何运算结果也是产生null,null相当于是条件不成立
select stu_name from tb_student where stu_addr is null;
select stu_name from tb_student where stu_addr<=>null;
-- 查询录入了家庭住址的学生姓名(空值)
select stu_name from tb_student where stu_addr is not null;
-- 查询学生选课的所有日期(去重)
select distinct sel_date from tb_record;
-- 查询学生的家庭住址(去重)
select distinct stu_addr from tb_student where stu_addr is not null;
-- 查询男学生的姓名和生日按年龄从大到小排列(排序)
-- asc - 升序(从小到大),desc - 降序(从大到小)
select stu_name, stu_birth from tb_student
where stu_sex=1 order by stu_birth asc;
select stu_name, stu_birth from tb_student
where stu_sex=1 order by stu_birth desc;
-- 查询年龄最大的学生的出生日期(聚合函数) ---> 找出最小的生日
select min(stu_birth) from tb_student;
select
min(stu_birth) as 生日,
floor(datediff(curdate(), min(stu_birth))/365) as 年龄
from tb_student;
-- 查询年龄最小的学生的出生日期(聚合函数)
select
max(stu_birth) as 生日,
floor(datediff(curdate(), max(stu_birth))/365) as 年龄
from tb_student;
-- 查询所有考试的平均成绩
-- 聚合函数在遇到null值会做忽略的处理
-- 如果做计数操作,建议使用count(*),这样才不会漏掉空值
select avg(score) from tb_record;
select sum(score) / count(score) from tb_record;
select sum(score) / count(*) from tb_record;
-- 查询课程编号为1111的课程的平均成绩(筛选和聚合函数)
select avg(score) from tb_record where cid=1111;
-- 查询学号为1001的学生所有课程的平均分(筛选和聚合函数)
select avg(score) from tb_record where sid=1001;
select count(distinct stu_addr) from tb_student where stu_addr is not null;
-- 查询男女学生的人数(分组和聚合函数)
-- SAC(Split - Aggregate - Combine)
select
if(stu_sex, '男', '女') as 性别,
count(*) as 人数
from tb_student group by stu_sex;
``` -- 统计每个学院男女学生的人数
You asked for help about help category: "Data Types" select
For more information, type 'help <item>', where <item> is one of the following col_id as 学院,
topics: if(stu_sex, '男', '女') as 性别,
AUTO_INCREMENT count(*) as 人数
BIGINT from tb_student group by col_id, stu_sex;
BINARY
BIT -- 查询每个学生的学号和平均成绩(分组和聚合函数)
BLOB select
BLOB DATA TYPE sid as 学号,
BOOLEAN round(avg(score),1) as 平均分
CHAR from tb_record group by sid;
CHAR BYTE
DATE
DATETIME
DEC
DECIMAL
DOUBLE
DOUBLE PRECISION
ENUM
FLOAT
INT
INTEGER
LONGBLOB
LONGTEXT
MEDIUMBLOB
MEDIUMINT
MEDIUMTEXT
SET DATA TYPE
SMALLINT
TEXT
TIME
TIMESTAMP
TINYBLOB
TINYINT
TINYTEXT
VARBINARY
VARCHAR
YEAR DATA TYPE
```
```SQL
? varchar
```
``` -- 查询平均成绩大于等于90分的学生的学号和平均成绩
Name: 'VARCHAR' -- 分组以前的数据筛选使用where子句,分组以后的数据筛选使用having子句
Description: select
[NATIONAL] VARCHAR(M) [CHARACTER SET charset_name] [COLLATE sid as 学号,
collation_name] round(avg(score),1) as 平均分
from tb_record
A variable-length string. M represents the maximum column length in group by sid having 平均分>=90;
characters. The range of M is 0 to 65,535. The effective maximum length
of a VARCHAR is subject to the maximum row size (65,535 bytes, which is -- 查询年龄最大的学生的姓名(子查询)
shared among all columns) and the character set used. For example, utf8 -- 嵌套查询:把一个查询的结果作为另外一个查询的一部分来使用。
characters can require up to three bytes per character, so a VARCHAR select stu_name from tb_student where stu_birth=(
column that uses the utf8 character set can be declared to be a maximum select min(stu_birth) from tb_student
of 21,844 characters. See );
http://dev.mysql.com/doc/refman/5.7/en/column-count-limit.html.
MySQL stores VARCHAR values as a 1-byte or 2-byte length prefix plus
data. The length prefix indicates the number of bytes in the value. A
VARCHAR column uses one length byte if values require no more than 255
bytes, two length bytes if values may require more than 255 bytes.
*Note*:
MySQL follows the standard SQL specification, and does not remove
trailing spaces from VARCHAR values.
VARCHAR is shorthand for CHARACTER VARYING. NATIONAL VARCHAR is the
standard SQL way to define that a VARCHAR column should use some
predefined character set. MySQL uses utf8 as this predefined character
set. http://dev.mysql.com/doc/refman/5.7/en/charset-national.html.
NVARCHAR is shorthand for NATIONAL VARCHAR.
URL: http://dev.mysql.com/doc/refman/5.7/en/string-type-overview.html
```
在数据类型的选择上,保存字符串数据通常都使用VARCHAR和CHAR两种类型,前者通常称为变长字符串,而后者通常称为定长字符串;对于InnoDB存储引擎,行存储格式没有区分固定长度和可变长度列,因此VARCHAR类型好CHAR类型没有本质区别,后者不一定比前者性能更好。如果要保存的很大字符串,可以使用TEXT类型;如果要保存很大的字节串,可以使用BLOB(二进制大对象)类型。在MySQL中,TEXT和BLOB又分别包括TEXT、MEDIUMTEXT、LONGTEXT和BLOB、MEDIUMBLOB、LONGBLOB三种不同的类型,它们主要的区别在于存储数据的最大大小不同。保存浮点数可以用FLOAT或DOUBLE类型,而保存定点数应该使用DECIMAL类型。如果要保存时间日期,DATETIME类型优于TIMESTAMP类型,因为前者能表示的时间日期范围更大。 -- 查询年龄最大的学生姓名和年龄(子查询+运算)
select
stu_name as 姓名,
floor(datediff(curdate(), stu_birth) / 365) as 年龄
from tb_student where stu_birth=(
select min(stu_birth) from tb_student
);
2. DML -- 查询选了两门以上的课程的学生姓名(子查询/分组条件/集合运算)
select stu_name from tb_student where stu_id in (
select sid from tb_record group by sid having count(*)>2
);
```SQL -- 查询课程的名称、学分和授课老师的姓名(连接查询)
-- 插入学院数据 select cou_name, cou_credit, tea_name
insert into tb_college (collname, collintro) values from tb_course, tb_teacher
('计算机学院', '计算机学院1958年设立计算机专业,1981年建立计算机科学系,1998年设立计算机学院,2005年5月,为了进一步整合教学和科研资源,学校决定,计算机学院和软件学院行政班子合并统一运作、实行教学和学生管理独立运行的模式。 学院下设三个系:计算机科学与技术系、物联网工程系、计算金融系;两个研究所:图象图形研究所、网络空间安全研究院(2015年成立);三个教学实验中心:计算机基础教学实验中心、IBM技术中心和计算机专业实验中心。'), where tb_course.tea_id=tb_teacher.tea_id;
('外国语学院', '四川大学外国语学院设有7个教学单位,6个文理兼收的本科专业;拥有1个一级学科博士授予点,3个二级学科博士授予点,5个一级学科硕士学位授权点,5个二级学科硕士学位授权点,5个硕士专业授权领域,同时还有2个硕士专业学位(MTI)专业;有教职员工210余人,其中教授、副教授80余人,教师中获得中国国内外名校博士学位和正在职攻读博士学位的教师比例占专任教师的60%以上。'),
('经济管理学院', '四川大学经济学院前身是创办于1905年的四川大学经济科;已故经济学家彭迪先、张与九、蒋学模、胡寄窗、陶大镛、胡代光,以及当代学者刘诗白等曾先后在此任教或学习;1905年,四川大学设经济科;1924年,四川大学经济系成立;1998年,四川大学经济管理学院变更为四川大学经济学院。'); select cou_name, cou_credit, tea_name from tb_course t1
inner join tb_teacher t2 on t1.tea_id=t2.tea_id;
-- 插入学生数据
insert into tb_student (stuid, stuname, stusex, stubirth, stuaddr, collid) values -- 查询学生姓名、课程名称以及成绩(连接查询)
(1001, '杨逍', 1, '1990-3-4', '四川成都', 1), select stu_name, cou_name, score
(1002, '任我行', 1, '1992-2-2', '湖南长沙', 1), from tb_record, tb_student, tb_course
(1033, '王语嫣', 0, '1989-12-3', '四川成都', 1), where stu_id=sid and cou_id=cid and score is not null;
(1572, '岳不群', 1, '1993-7-19', '陕西咸阳', 1),
(1378, '纪嫣然', 0, '1995-8-12', '四川绵阳', 1), select stu_name, cou_name, score from tb_student
(1954, '林平之', 1, '1994-9-20', '福建莆田', 1), inner join tb_record on stu_id=sid
(2035, '东方不败', 1, '1988-6-30', null, 2), inner join tb_course on cou_id=cid
(3011, '林震南', 1, '1985-12-12', '福建莆田', 3), where score is not null;
(3755, '项少龙', 1, '1993-1-25', null, 3),
(3923, '杨不悔', 0, '1985-4-17', '四川成都', 3), -- 查询选课学生的姓名和平均成绩(子查询和连接查询)
(4040, '隔壁老王', 1, '1989-1-1', '四川成都', 2); select stu_name, avg_score
from tb_student, (select sid, round(avg(score),1) as avg_score
-- 删除学生数据 from tb_record group by sid
delete from tb_student where stuid=4040; ) tb_temp where stu_id=sid;
-- 更新学生数据 -- 查询每个学生的姓名和选课数量(左外连接和子查询)
update tb_student set stuname='杨过', stuaddr='湖南长沙' where stuid=1001; select
stu_name as 姓名,
-- 插入老师数据 ifnull(total, 0) as 选课数量
insert into tb_teacher (teaid, teaname, teatitle, collid) values from tb_student left outer join (
(1122, '张三丰', '教授', 1), select sid, count(*) as total from tb_record group by sid
(1133, '宋远桥', '副教授', 1), ) tb_temp on stu_id=sid;
(1144, '杨逍', '副教授', 1), ```
(2255, '范遥', '副教授', 2),
(3366, '韦一笑', '讲师', 3);
-- 插入课程数据
insert into tb_course (couid, couname, coucredit, teaid) values
(1111, 'Python程序设计', 3, 1122),
(2222, 'Web前端开发', 2, 1122),
(3333, '操作系统', 4, 1122),
(4444, '计算机网络', 2, 1133),
(5555, '编译原理', 4, 1144),
(6666, '算法和数据结构', 3, 1144),
(7777, '经贸法语', 3, 2255),
(8888, '成本会计', 2, 3366),
(9999, '审计学', 3, 3366);
-- 插入选课数据
insert into tb_record (sid, cid, seldate, score) values
(1001, 1111, '2017-09-01', 95),
(1001, 2222, '2017-09-01', 87.5),
(1001, 3333, '2017-09-01', 100),
(1001, 4444, '2018-09-03', null),
(1001, 6666, '2017-09-02', 100),
(1002, 1111, '2017-09-03', 65),
(1002, 5555, '2017-09-01', 42),
(1033, 1111, '2017-09-03', 92.5),
(1033, 4444, '2017-09-01', 78),
(1033, 5555, '2017-09-01', 82.5),
(1572, 1111, '2017-09-02', 78),
(1378, 1111, '2017-09-05', 82),
(1378, 7777, '2017-09-02', 65.5),
(2035, 7777, '2018-09-03', 88),
(2035, 9999, default, null),
(3755, 1111, default, null),
(3755, 8888, default, null),
(3755, 9999, '2017-09-01', 92);
```
```SQL 上面的DML有几个地方需要加以说明:
-- 查询所有学生信息
select * from tb_student; 1. MySQL中支持多种类型的运算符,包括:算术运算符(+、-、*、/、%)、比较运算符(=、<><=><、<=、>、>=、BETWEEN...AND...、IN、IS NULL、IS NOT NULL、LIKE、RLIKE、REGEXP)、逻辑运算符(NOT、AND、OR、XOR)和位运算符(&、|、^、~、>>、<<),我们可以在DML中使用这些运算符处理数据。
-- 查询所有课程名称及学分(投影和别名) 2. 在查询数据时,可以在SELECT语句及其子句(如WHERE子句、ORDER BY子句、HAVING子句等)中使用函数,这些函数包括字符串函数、数值函数、时间日期函数、流程函数等,如下面的表格所示。
select couname, coucredit from tb_course;
select couname as 课程名称, coucredit as 学分 from tb_course; 常用字符串函数。
-- 查询所有学生的姓名和性别(条件运算) | 函数 | 功能 |
select stuname as 姓名, case stusex when 1 then '男' else '女' end as 性别 from tb_student; | ----------------------- | ----------------------------------------------------- |
select stuname as 姓名, if(stusex, '男', '女') as 性别 from tb_student; | CONCAT | 将多个字符串连接成一个字符串 |
| FORMAT | 将数值格式化成字符串并指定保留几位小数 |
-- 查询所有女学生的姓名和出生日期(筛选) | FROM_BASE64 / TO_BASE64 | BASE64解码/编码 |
select stuname, stubirth from tb_student where stusex=0; | BIN / OCT / HEX | 将数值转换成二进制/八进制/十六进制字符串 |
| LOCATE | 在字符串中查找一个子串的位置 |
-- 查询所有80后学生的姓名、性别和出生日期(筛选) | LEFT / RIGHT | 返回一个字符串左边/右边指定长度的字符 |
select stuname, stusex, stubirth from tb_student where stubirth>='1980-1-1' and stubirth<='1989-12-31'; | LENGTH / CHAR_LENGTH | 返回字符串的长度以字节/字符为单位 |
select stuname, stusex, stubirth from tb_student where stubirth between '1980-1-1' and '1989-12-31'; | LOWER / UPPER | 返回字符串的小写/大写形式 |
| LPAD / RPAD | 如果字符串的长度不足,在字符串左边/右边填充指定的字符 |
-- 查询姓"杨"的学生姓名和性别(模糊) | LTRIM / RTRIM | 去掉字符串前面/后面的空格 |
select stuname, stusex from tb_student where stuname like '杨%'; | ORD / CHAR | 返回字符对应的编码/返回编码对应的字符 |
| STRCMP | 比较字符串,返回-1、0、1分别表示小于、等于、大于 |
-- 查询姓"杨"名字两个字的学生姓名和性别(模糊) | SUBSTRING | 返回字符串指定范围的子串 |
select stuname, stusex from tb_student where stuname like '杨_';
常用数值函数。
-- 查询姓"杨"名字三个字的学生姓名和性别(模糊)
select stuname, stusex from tb_student where stuname like '杨__'; | 函数 | 功能 |
| ------------------------------------------ | ---------------------------------- |
-- 查询名字中有"不"字或"嫣"字的学生的姓名(模糊) | ABS | 返回一个数的绝度值 |
select stuname, stusex from tb_student where stuname like '%不%' or stuname like '%嫣%'; | CEILING / FLOOR | 返回一个数上取整/下取整的结果 |
| CONV | 将一个数从一种进制转换成另一种进制 |
-- 查询没有录入家庭住址的学生姓名(空值) | CRC32 | 计算循环冗余校验码 |
select stuname from tb_student where stuaddr is null; | EXP / LOG / LOG2 / LOG10 | 计算指数/对数 |
| POW | 求幂 |
-- 查询录入了家庭住址的学生姓名(空值) | RAND | 返回[0,1)范围的随机数 |
select stuname from tb_student where stuaddr is not null; | ROUND | 返回一个数四舍五入后的结果 |
| SQRT | 返回一个数的平方根 |
-- 查询学生选课的所有日期(去重) | TRUNCATE | 截断一个数到指定的精度 |
select distinct seldate from tb_record; | SIN / COS / TAN / COT / ASIN / ACOS / ATAN | 三角函数 |
-- 查询学生的家庭住址(去重) 常用时间日期函数。
select distinct stuaddr from tb_student where stuaddr is not null;
| 函数 | 功能 |
-- 查询男学生的姓名和生日按年龄从大到小排列(排序) | ----------------------- | ------------------------------------- |
select stuname as 姓名, datediff(curdate(), stubirth) div 365 as 年龄 from tb_student where stusex=1 order by 年龄 desc; | CURDATE / CURTIME / NOW | 获取当前日期/时间/日期和时间 |
| ADDDATE / SUBDATE | 将两个日期表达式相加/相减并返回结果 |
-- 查询年龄最大的学生的出生日期(聚合函数) | DATE / TIME | 从字符串中获取日期/时间 |
select min(stubirth) from tb_student; | YEAR / MONTH / DAY | 从日期中获取年/月/日 |
| HOUR / MINUTE / SECOND | 从时间中获取时/分/秒 |
-- 查询年龄最小的学生的出生日期(聚合函数) | DATEDIFF / TIMEDIFF | 返回两个时间日期表达式相差多少天/小时 |
select max(stubirth) from tb_student; | MAKEDATE / MAKETIME | 制造一个日期/时间 |
-- 查询男女学生的人数(分组和聚合函数) 常用流程函数。
select stusex, count(*) from tb_student group by stusex;
| 函数 | 功能 |
-- 查询课程编号为1111的课程的平均成绩(筛选和聚合函数) | ------ | ------------------------------------------------ |
select avg(score) from tb_record where cid=1111; | IF | 根据条件是否成立返回不同的值 |
| IFNULL | 如果为NULL则返回指定的值否则就返回本身 |
-- 查询学号为1001的学生所有课程的平均分(筛选和聚合函数) | NULLIF | 两个表达式相等就返回NULL否则返回第一个表达式的值 |
select avg(score) from tb_record where sid=1001;
其他常用函数。
-- 查询每个学生的学号和平均成绩(分组和聚合函数)
select sid as 学号, avg(score) as 平均分 from tb_record group by sid; | 函数 | 功能 |
| ---------------------- | ----------------------------- |
-- 查询平均成绩大于等于90分的学生的学号和平均成绩 | MD5 / SHA1 / SHA2 | 返回字符串对应的哈希摘要 |
-- 分组以前的筛选使用where子句 / 分组以后的筛选使用having子句 | CHARSET / COLLATION | 返回字符集/校对规则 |
select sid as 学号, avg(score) as 平均分 from tb_record group by sid having 平均分>=90; | USER / CURRENT_USER | 返回当前用户 |
| DATABASE | 返回当前数据库名 |
-- 查询年龄最大的学生的姓名(子查询/嵌套的查询) | VERSION | 返回当前数据库版本 |
select stuname from tb_student where stubirth=( select min(stubirth) from tb_student ); | FOUND_ROWS / ROW_COUNT | 返回查询到的行数/受影响的行数 |
| LAST_INSERT_ID | 返回最后一个自增主键的值 |
-- 查询年龄最大的学生姓名和年龄(子查询+运算) | UUID / UUID_SHORT | 返回全局唯一标识符 |
select stuname as 姓名, datediff(curdate(), stubirth) div 365 as 年龄 from tb_student where stubirth=( select min(stubirth) from tb_student );
#### DCL(数据控制语言)
-- 查询选了两门以上的课程的学生姓名(子查询/分组条件/集合运算)
select stuname from tb_student where stuid in ( select stuid from tb_record group by stuid having count(stuid)>2 );
-- 查询学生姓名、课程名称以及成绩(连接查询)
select stuname, couname, score from tb_student t1, tb_course t2, tb_record t3 where stuid=sid and couid=cid and score is not null;
-- 查询学生姓名、课程名称以及成绩按成绩从高到低查询第11-15条记录(内连接+分页)
select stuname, couname, score from tb_student inner join tb_record on stuid=sid inner join tb_course on couid=cid where score is not null order by score desc limit 5 offset 10;
select stuname, couname, score from tb_student inner join tb_record on stuid=sid inner join tb_course on couid=cid where score is not null order by score desc limit 10, 5;
-- 查询选课学生的姓名和平均成绩(子查询和连接查询)
select stuname, avgmark from tb_student, ( select sid, avg(score) as avgmark from tb_record group by sid ) temp where stuid=sid;
select stuname, avgmark from tb_student inner join ( select sid, avg(score) as avgmark from tb_record group by sid ) temp on stuid=sid;
-- 查询每个学生的姓名和选课数量(左外连接和子查询)
select stuname, ifnull(total, 0) from tb_student left outer join ( select sid, count(sid) as total from tb_record group by sid ) temp on stuid=sid;
```
上面的DML有几个地方需要加以说明: ```SQL
-- 创建可以远程登录的root账号并为其指定口令
1. MySQL中支持多种类型的运算符,包括:算术运算符(+、-、*、/、%)、比较运算符(=、<><=><、<=、>、>=、BETWEEN...AND...、IN、IS NULL、IS NOT NULL、LIKE、RLIKE、REGEXP)、逻辑运算符(NOT、AND、OR、XOR)和位运算符(&、|、^、~、>>、<<),我们可以在DML中使用这些运算符处理数据。 create user 'root'@'%' identified by '123456';
2. 在查询数据时,可以在SELECT语句及其子句(如WHERE子句、ORDER BY子句、HAVING子句等)中使用函数,这些函数包括字符串函数、数值函数、时间日期函数、流程函数等,如下面的表格所示。 -- 为远程登录的root账号授权操作所有数据库所有对象的所有权限并允许其将权限再次赋予其他用户
grant all privileges on *.* to 'root'@'%' with grant option;
常用字符串函数。
| 函数 | 功能 |
| ----------------------- | ----------------------------------------------------- |
| CONCAT | 将多个字符串连接成一个字符串 |
| FORMAT | 将数值格式化成字符串并指定保留几位小数 |
| FROM_BASE64 / TO_BASE64 | BASE64解码/编码 |
| BIN / OCT / HEX | 将数值转换成二进制/八进制/十六进制字符串 |
| LOCATE | 在字符串中查找一个子串的位置 |
| LEFT / RIGHT | 返回一个字符串左边/右边指定长度的字符 |
| LENGTH / CHAR_LENGTH | 返回字符串的长度以字节/字符为单位 |
| LOWER / UPPER | 返回字符串的小写/大写形式 |
| LPAD / RPAD | 如果字符串的长度不足,在字符串左边/右边填充指定的字符 |
| LTRIM / RTRIM | 去掉字符串前面/后面的空格 |
| ORD / CHAR | 返回字符对应的编码/返回编码对应的字符 |
| STRCMP | 比较字符串,返回-1、0、1分别表示小于、等于、大于 |
| SUBSTRING | 返回字符串指定范围的子串 |
常用数值函数。
| 函数 | 功能 |
| ------------------------------------------ | ---------------------------------- |
| ABS | 返回一个数的绝度值 |
| CEILING / FLOOR | 返回一个数上取整/下取整的结果 |
| CONV | 将一个数从一种进制转换成另一种进制 |
| CRC32 | 计算循环冗余校验码 |
| EXP / LOG / LOG2 / LOG10 | 计算指数/对数 |
| POW | 求幂 |
| RAND | 返回[0,1)范围的随机数 |
| ROUND | 返回一个数四舍五入后的结果 |
| SQRT | 返回一个数的平方根 |
| TRUNCATE | 截断一个数到指定的精度 |
| SIN / COS / TAN / COT / ASIN / ACOS / ATAN | 三角函数 |
常用时间日期函数。
| 函数 | 功能 |
| ----------------------- | ------------------------------------- |
| CURDATE / CURTIME / NOW | 获取当前日期/时间/日期和时间 |
| ADDDATE / SUBDATE | 将两个日期表达式相加/相减并返回结果 |
| DATE / TIME | 从字符串中获取日期/时间 |
| YEAR / MONTH / DAY | 从日期中获取年/月/日 |
| HOUR / MINUTE / SECOND | 从时间中获取时/分/秒 |
| DATEDIFF / TIMEDIFF | 返回两个时间日期表达式相差多少天/小时 |
| MAKEDATE / MAKETIME | 制造一个日期/时间 |
常用流程函数。
| 函数 | 功能 |
| ------ | ------------------------------------------------ |
| IF | 根据条件是否成立返回不同的值 |
| IFNULL | 如果为NULL则返回指定的值否则就返回本身 |
| NULLIF | 两个表达式相等就返回NULL否则返回第一个表达式的值 |
其他常用函数。
| 函数 | 功能 |
| ---------------------- | ----------------------------- |
| MD5 / SHA1 / SHA2 | 返回字符串对应的哈希摘要 |
| CHARSET / COLLATION | 返回字符集/校对规则 |
| USER / CURRENT_USER | 返回当前用户 |
| DATABASE | 返回当前数据库名 |
| VERSION | 返回当前数据库版本 |
| FOUND_ROWS / ROW_COUNT | 返回查询到的行数/受影响的行数 |
| LAST_INSERT_ID | 返回最后一个自增主键的值 |
| UUID / UUID_SHORT | 返回全局唯一标识符 |
3. DCL
```SQL
-- 创建可以远程登录的root账号并为其指定口令
create user 'root'@'%' identified by '123456';
-- 为远程登录的root账号授权操作所有数据库所有对象的所有权限并允许其将权限再次赋予其他用户
grant all privileges on *.* to 'root'@'%' with grant option;
-- 创建名为hellokitty的用户并为其指定口令
create user 'hellokitty'@'%' identified by '123123';
-- 将对school数据库所有对象的所有操作权限授予hellokitty
grant all privileges on school.* to 'hellokitty'@'%';
-- 召回hellokitty对school数据库所有对象的insert/delete/update权限
revoke insert, delete, update on school.* from 'hellokitty'@'%';
```
> 说明:创建一个可以允许任意主机登录并且具有超级管理员权限的用户在现实中并不是一个明智的决定,因为一旦该账号的口令泄露或者被破解,数据库将会面临灾难级的风险。 -- 创建名为hellokitty的用户并为其指定口令
create user 'hellokitty'@'%' identified by '123123';
-- 将对school数据库所有对象的所有操作权限授予hellokitty
grant all privileges on school.* to 'hellokitty'@'%';
-- 召回hellokitty对school数据库所有对象的insert/delete/update权限
revoke insert, delete, update on school.* from 'hellokitty'@'%';
```
#### 索引 > 说明:创建一个可以允许任意主机登录并且具有超级管理员权限的用户在现实中并不是一个明智的决定,因为一旦该账号的口令泄露或者被破解,数据库将会面临灾难级的风险。
### 索引
索引是关系型数据库中用来提升查询性能最为重要的手段。关系型数据库中的索引就像一本书的目录,我们可以想象一下,如果要从一本书中找出某个知识点,但是这本书没有目录,这将是意见多么可怕的事情(我们估计得一篇一篇的翻下去,才能确定这个知识点到底在什么位置)。创建索引虽然会带来存储空间上的开销,就像一本书的目录会占用一部分的篇幅一样,但是在牺牲空间后换来的查询时间的减少也是非常显著的。 索引是关系型数据库中用来提升查询性能最为重要的手段。关系型数据库中的索引就像一本书的目录,我们可以想象一下,如果要从一本书中找出某个知识点,但是这本书没有目录,这将是意见多么可怕的事情(我们估计得一篇一篇的翻下去,才能确定这个知识点到底在什么位置)。创建索引虽然会带来存储空间上的开销,就像一本书的目录会占用一部分的篇幅一样,但是在牺牲空间后换来的查询时间的减少也是非常显著的。
...@@ -836,10 +954,25 @@ possible_keys: NULL ...@@ -836,10 +954,25 @@ possible_keys: NULL
在上面的SQL执行计划中,有几项值得我们关注: 在上面的SQL执行计划中,有几项值得我们关注:
1. `type`:MySQL在表中找到满足条件的行的方式,也称为访问类型,包括:ALL(全表扫描)、index(索引全扫描)、range(索引范围扫描)、ref(非唯一索引扫描)、eq_ref(唯一索引扫描)、const/system、NULL。在所有的访问类型中,很显然ALL是性能最差的,它代表了全表扫描是指要扫描表中的每一行才能找到匹配的行。 1. `select_type`:查询的类型。
2. possible_keys:MySQL可以选择的索引,但是**有可能不会使用** - SIMPLE:简单SELECT,不需要使用UNION操作或子查询。
3. key:MySQL真正使用的索引。 - PRIMARY:如果查询包含子查询,最外层的SELECT被标记为PRIMARY。
4. rows:执行查询需要扫描的行数,这是一个**预估值** - UNION:UNION操作中第二个或后面的SELECT语句。
- SUBQUERY:子查询中的第一个SELECT。
- DERIVED:派生表的SELECT子查询。
2. `table`:查询对应的表。
3. `type`:MySQL在表中找到满足条件的行的方式,也称为访问类型,包括:ALL(全表扫描)、index(索引全扫描,只遍历索引树)、range(索引范围扫描)、ref(非唯一索引扫描)、eq_ref(唯一索引扫描)、const/system(常量级查询)、NULL(不需要访问表或索引)。在所有的访问类型中,很显然ALL是性能最差的,它代表的全表扫描是指要扫描表中的每一行才能找到匹配的行。
4. `possible_keys`:MySQL可以选择的索引,但是**有可能不会使用**
5. `key`:MySQL真正使用的索引,如果为NULL就表示没有使用索引。
6. `key_len`:使用的索引的长度,在不影响查询的情况下肯定是长度越短越好。
7. `rows`:执行查询需要扫描的行数,这是一个**预估值**
8. `extra`:关于查询额外的信息。
- `Using filesort`:MySQL无法利用索引完成排序操作。
- `Using index`:只使用索引的信息而不需要进一步查表来获取更多的信息。
- `Using temporary`:MySQL需要使用临时表来存储结果集,常用于分组和排序。
- `Impossible where``where`子句会导致没有符合条件的行。
- `Distinct`:MySQL发现第一个匹配行后,停止为当前的行组合搜索更多的行。
- `Using where`:查询的列未被索引覆盖,筛选条件并不是索引的前导列。
从上面的执行计划可以看出,当我们通过学生名字查询学生时实际上是进行了全表扫描,不言而喻这个查询性能肯定是非常糟糕的,尤其是在表中的行很多的时候。如果我们需要经常通过学生姓名来查询学生,那么就应该在学生姓名对应的列上创建索引,通过索引来加速查询。 从上面的执行计划可以看出,当我们通过学生名字查询学生时实际上是进行了全表扫描,不言而喻这个查询性能肯定是非常糟糕的,尤其是在表中的行很多的时候。如果我们需要经常通过学生姓名来查询学生,那么就应该在学生姓名对应的列上创建索引,通过索引来加速查询。
...@@ -924,7 +1057,7 @@ drop index idx_student_name on tb_student; ...@@ -924,7 +1057,7 @@ drop index idx_student_name on tb_student;
最后,还有一点需要说明,InnoDB使用的B-tree索引,数值类型的列除了等值判断时索引会生效之外,使用>、<>=、<=、BETWEEN...AND... 、<>时,索引仍然生效;对于字符串类型的列,如果使用不以通配符开头的模糊查询,索引也是起作用的,但是其他的情况会导致索引失效,这就意味着很有可能会做全表查询。 最后,还有一点需要说明,InnoDB使用的B-tree索引,数值类型的列除了等值判断时索引会生效之外,使用>、<>=、<=、BETWEEN...AND... 、<>时,索引仍然生效;对于字符串类型的列,如果使用不以通配符开头的模糊查询,索引也是起作用的,但是其他的情况会导致索引失效,这就意味着很有可能会做全表查询。
#### 视图 ### 视图
视图是关系型数据库中将一组查询指令构成的结果集组合成可查询的数据表的对象。简单的说,视图就是虚拟的表,但与数据表不同的是,数据表是一种实体结构,而视图是一种虚拟结构,你也可以将视图理解为保存在数据库中被赋予名字的SQL语句。 视图是关系型数据库中将一组查询指令构成的结果集组合成可查询的数据表的对象。简单的说,视图就是虚拟的表,但与数据表不同的是,数据表是一种实体结构,而视图是一种虚拟结构,你也可以将视图理解为保存在数据库中被赋予名字的SQL语句。
...@@ -993,18 +1126,18 @@ drop view vw_student_score; ...@@ -993,18 +1126,18 @@ drop view vw_student_score;
2. 创建视图时可以使用`order by`子句,但如果从视图中检索数据时也使用了`order by`,那么该视图中原先的`order by`会被覆盖。 2. 创建视图时可以使用`order by`子句,但如果从视图中检索数据时也使用了`order by`,那么该视图中原先的`order by`会被覆盖。
3. 视图无法使用索引,也不会激发触发器(实际开发中因为性能等各方面的考虑,通常不建议使用触发器,所以我们也不对这个概念进行介绍)的执行。 3. 视图无法使用索引,也不会激发触发器(实际开发中因为性能等各方面的考虑,通常不建议使用触发器,所以我们也不对这个概念进行介绍)的执行。
#### 存储过程 ### 过程
存储过程是事先编译好存储在数据库中的一组SQL的集合,调用存储过程可以简化应用程序开发人员的工作,减少与数据库服务器之间的通信,对于提升数据操作的性能也是有帮助的。其实迄今为止,我们使用的SQL语句都是针对一个或多个表的单条语句,但在实际开发中经常会遇到某个操作需要多条SQL语句才能完成的情况。例如,电商网站在受理用户订单时,需要做以下一系列的处理。 过程(又称存储过程)是事先编译好存储在数据库中的一组SQL的集合,调用过程可以简化应用程序开发人员的工作,减少与数据库服务器之间的通信,对于提升数据操作的性能也是有帮助的。其实迄今为止,我们使用的SQL语句都是针对一个或多个表的单条语句,但在实际开发中经常会遇到某个操作需要多条SQL语句才能完成的情况。例如,电商网站在受理用户订单时,需要做以下一系列的处理。
1. 通过查询来核对库存中是否有对应的物品以及库存是否充足。 1. 通过查询来核对库存中是否有对应的物品以及库存是否充足。
2. 如果库存有物品,需要锁定库存以确保这些物品不再卖给别人, 并且要减少可用的物品数量以反映正确的库存量。 2. 如果库存有物品,需要锁定库存以确保这些物品不再卖给别人, 并且要减少可用的物品数量以反映正确的库存量。
3. 如果库存不足,可能需要进一步与供应商进行交互或者至少产生一条系统提示消息。 3. 如果库存不足,可能需要进一步与供应商进行交互或者至少产生一条系统提示消息。
4. 不管受理订单是否成功,都需要产生流水记录,而且需要给对应的用户产生一条通知信息。 4. 不管受理订单是否成功,都需要产生流水记录,而且需要给对应的用户产生一条通知信息。
我们可以通过存储过程将复杂的操作封装起来,这样不仅有助于保证数据的一致性,而且将来如果业务发生了变动,只需要调整和修改存储过程即可。对于调用存储过程的用户来说,存储过程并没有暴露数据表的细节,而且执行存储过程比一条条的执行一组SQL要快得多。 我们可以通过过程将复杂的操作封装起来,这样不仅有助于保证数据的一致性,而且将来如果业务发生了变动,只需要调整和修改过程即可。对于调用过程的用户来说,过程并没有暴露数据表的细节,而且执行过程比一条条的执行一组SQL要快得多。
下面的存储过程实现了查询某门课程的最高分、最低分和平均分。 下面的过程实现了查询某门课程的最高分、最低分和平均分。
```SQL ```SQL
drop procedure if exists sp_score_by_cid; drop procedure if exists sp_score_by_cid;
...@@ -1032,11 +1165,11 @@ call sp_score_by_cid(1111, @a, @b, @c); ...@@ -1032,11 +1165,11 @@ call sp_score_by_cid(1111, @a, @b, @c);
select @a, @b, @c; select @a, @b, @c;
``` ```
> 说明:在定义存储过程时,因为可能需要书写多条SQL,而分隔这些SQL需要使用分号作为分隔符,如果这个时候,仍然用分号表示整段代码结束,那么定义存储过程的SQL就会出现错误,所以上面我们用`delimiter $$`将整段代码结束的标记定义为`$$`,那么代码中的分号将不再表示整段代码的结束,需要马上执行,整段代码在遇到`end $$`时才输入完成并执行。在定义完存储过程后,通过`delimiter ;`将结束符重新改回成分号 > **说明**:在定义过程时,因为可能需要书写多条SQL,而分隔这些SQL需要使用分号作为分隔符,如果这个时候,仍然用分号表示整段代码结束,那么定义过程的SQL就会出现错误,所以上面我们用`delimiter $$`将整段代码结束的标记定义为`$$`,那么代码中的分号将不再表示整段代码的结束,整段代码只会在遇到`end $$`时才会执行。在定义完过程后,通过`delimiter ;`将结束符重新改回成分号(恢复现场)
上面定义的存储过程有四个参数,其中第一个参数是输入参数,代表课程的编号,后面的参数都是输出参数,因为存储过程不能定义返回值,只能通过输出参数将执行结果带出,定义输出参数的关键字是`out`,默认情况下参数都是输入参数。 上面定义的过程有四个参数,其中第一个参数是输入参数,代表课程的编号,后面的参数都是输出参数,因为过程不能定义返回值,只能通过输出参数将执行结果带出,定义输出参数的关键字是`out`,默认情况下参数都是输入参数。
调用存储过程。 调用过程。
```SQL ```SQL
call sp_score_by_cid(1111, @a, @b, @c); call sp_score_by_cid(1111, @a, @b, @c);
...@@ -1048,17 +1181,36 @@ call sp_score_by_cid(1111, @a, @b, @c); ...@@ -1048,17 +1181,36 @@ call sp_score_by_cid(1111, @a, @b, @c);
select @a as 最高分, @b as 最低分, @c as 平均分; select @a as 最高分, @b as 最低分, @c as 平均分;
``` ```
删除存储过程。 删除过程。
```SQL ```SQL
drop procedure sp_score_by_cid; drop procedure sp_score_by_cid;
``` ```
在存储过程中,我们可以定义变量、条件,可以使用分支和循环语句,可以通过游标操作查询结果,还可以使用事件调度器,这些内容我们暂时不在此处进行介绍。虽然我们说了很多存储过程的好处,但是在实际开发中,如果过度的使用存储过程,将大量复杂的运算放到存储过程中,也会导致占用数据库服务器的CPU资源,造成数据库服务器承受巨大的压力。为此,我们一般会将复杂的运算和处理交给应用服务器,因为很容易部署多台应用服务器来分摊这些压力。 在过程中,我们可以定义变量、条件,可以使用分支和循环语句,可以通过游标操作查询结果,还可以使用事件调度器,这些内容我们暂时不在此处进行介绍。虽然我们说了很多过程的好处,但是在实际开发中,如果过度的使用过程并将大量复杂的运算放到过程中,必然会导致占用数据库服务器的CPU资源,造成数据库服务器承受巨大的压力。为此,我们一般会将复杂的运算和处理交给应用服务器,因为很容易部署多台应用服务器来分摊这些压力。
### MySQL8窗口函数
MySQL从8.0开始支持窗口函数,大多数商业数据库和一些开源数据库早已提供了对窗口函数的支持,有的也将其称之为OLAP(联机分析和处理)函数,听名字就知道跟统计和分析相关。为了帮助大家理解窗口函数,我们先说说窗口的概念。
窗口可以理解为记录的集合,窗口函数也就是在满足某种条件的记录集合上执行的特殊函数,对于每条记录都要在此窗口内执行函数。窗口函数和我们上面讲到的聚合函数比较容易混淆,二者的区别主要在于聚合函数是将多条记录聚合为一条记录,窗口函数是每条记录都会执行,执行后记录条数不会变。窗口函数不仅仅是几个函数,它是一套完整的语法,函数只是该语法的一部分,基本语法如下所示:
```SQL
<窗口函数> over (partition by <用于分组的列名> order by <用户排序的列名>)
```
### 几个重要的概念 上面语法中,窗口函数的位置可以放以下两种函数:
#### 范式理论 - 设计二维表的指导思想 1. 专用窗口函数,包括:`rank``dense_rank``row_number`等。
2. 聚合函数,包括:`sum``avg``max``min``count`等。
> **参考链接**:<https://zhuanlan.zhihu.com/p/92654574>。
### 其他内容
#### 范式理论
范式理论是设计关系型数据库中二维表的指导思想。
1. 第一范式:数据表的每个列的值域都是由原子值组成的,不能够再分割。 1. 第一范式:数据表的每个列的值域都是由原子值组成的,不能够再分割。
2. 第二范式:数据表里的所有数据都要和该数据表的键(主键与候选键)有完全依赖关系。 2. 第二范式:数据表里的所有数据都要和该数据表的键(主键与候选键)有完全依赖关系。
...@@ -1119,9 +1271,7 @@ drop procedure sp_score_by_cid; ...@@ -1119,9 +1271,7 @@ drop procedure sp_score_by_cid;
rollback rollback
``` ```
### 其他内容 大家应该能够想到,关于MySQL的知识肯定远远不止上面列出的这些,比如MySQL的性能优化、管理和维护MySQL的相关工具、MySQL数据的备份和恢复、监控MySQL、部署高可用架构等问题我们在这里都没有进行讨论。当然,这些内容也都是跟项目开发密切相关的,我们就留到有需要的时候再进行讲解。
大家应该能够想到,关于MySQL的知识肯定远远不止上面列出的这些,比如MySQL的性能优化、管理和维护MySQL的相关工具、MySQL数据的备份和恢复、监控MySQL、部署高可用架构等问题我们在这里都没有进行讨论。当然,这些内容也都是跟项目开发密切相关的,我们就留到后续的章节中再续点进行讲解。
### Python数据库编程 ### Python数据库编程
...@@ -1354,3 +1504,4 @@ insert into tb_emp values ...@@ -1354,3 +1504,4 @@ insert into tb_emp values
if __name__ == '__main__': if __name__ == '__main__':
main() main()
``` ```
...@@ -25,14 +25,13 @@ job varchar(20) not null comment '员工职位', ...@@ -25,14 +25,13 @@ job varchar(20) not null comment '员工职位',
mgr int comment '主管编号', mgr int comment '主管编号',
sal int not null comment '员工月薪', sal int not null comment '员工月薪',
comm int comment '每月补贴', comm int comment '每月补贴',
dno int comment '所在部门编号', dno int comment '所在部门编号'
primary key (eno),
foreign key (dno) references tb_dept(dno),
foreign key (mgr) references tb_emp(eno)
); );
alter table tb_emp add constraint pk_emp_eno primary key (eno);
alter table tb_emp add constraint uk_emp_ename unique (ename);
-- alter table tb_emp add constraint fk_emp_mgr foreign key (mgr) references tb_emp (eno); -- alter table tb_emp add constraint fk_emp_mgr foreign key (mgr) references tb_emp (eno);
alter table tb_emp add constraint fk_emp_dno foreign key (dno) references tb_dept (dno);
insert into tb_emp values insert into tb_emp values
(7800, '张三丰', '总裁', null, 9000, 1200, 20), (7800, '张三丰', '总裁', null, 9000, 1200, 20),
...@@ -61,11 +60,11 @@ insert into tb_emp values ...@@ -61,11 +60,11 @@ insert into tb_emp values
-- 查询月薪最高的员工(Boss除外)的姓名和月薪 -- 查询月薪最高的员工(Boss除外)的姓名和月薪
-- 查询薪水超过平均薪水的员工的姓名和月薪 -- 查询月薪超过平均月薪的员工的姓名和月薪
-- 查询薪水超过其所在部门平均薪水的员工的姓名、部门编号和月薪 -- 查询月薪超过其所在部门平均月薪的员工的姓名、部门编号和月薪
-- 查询部门中薪水最高的人姓名、月薪和所在部门名称 -- 查询部门中月薪最高的人姓名、月薪和所在部门名称
-- 查询主管的姓名和职位 -- 查询主管的姓名和职位
......
...@@ -14,7 +14,7 @@ create table `tb_college` ...@@ -14,7 +14,7 @@ create table `tb_college`
`col_name` varchar(50) not null comment '名称', `col_name` varchar(50) not null comment '名称',
`col_intro` varchar(5000) default '' comment '介绍', `col_intro` varchar(5000) default '' comment '介绍',
primary key (`col_id`) primary key (`col_id`)
) engine=innodb; ) engine=innodb comment '学院表';
-- 创建学生表 -- 创建学生表
create table `tb_student` create table `tb_student`
...@@ -27,7 +27,7 @@ create table `tb_student` ...@@ -27,7 +27,7 @@ create table `tb_student`
`col_id` int unsigned not null comment '所属学院', `col_id` int unsigned not null comment '所属学院',
primary key (`stu_id`), primary key (`stu_id`),
foreign key (`col_id`) references `tb_college` (`col_id`) foreign key (`col_id`) references `tb_college` (`col_id`)
) engine=innodb; ) engine=innodb comment '学生表';
-- 创建教师表 -- 创建教师表
create table `tb_teacher` create table `tb_teacher`
...@@ -38,7 +38,7 @@ create table `tb_teacher` ...@@ -38,7 +38,7 @@ create table `tb_teacher`
`col_id` int unsigned not null comment '所属学院', `col_id` int unsigned not null comment '所属学院',
primary key (`tea_id`), primary key (`tea_id`),
foreign key (`col_id`) references `tb_college` (`col_id`) foreign key (`col_id`) references `tb_college` (`col_id`)
); ) engine=innodb comment '老师表';
-- 创建课程表 -- 创建课程表
create table `tb_course` create table `tb_course`
...@@ -49,7 +49,7 @@ create table `tb_course` ...@@ -49,7 +49,7 @@ create table `tb_course`
`tea_id` int unsigned not null comment '授课老师', `tea_id` int unsigned not null comment '授课老师',
primary key (`cou_id`), primary key (`cou_id`),
foreign key (`tea_id`) references `tb_teacher` (`tea_id`) foreign key (`tea_id`) references `tb_teacher` (`tea_id`)
); ) engine=innodb comment '课程表';
-- 创建选课记录表 -- 创建选课记录表
create table `tb_record` create table `tb_record`
...@@ -63,7 +63,7 @@ primary key (`rec_id`), ...@@ -63,7 +63,7 @@ primary key (`rec_id`),
foreign key (`sid`) references `tb_student` (`stu_id`), foreign key (`sid`) references `tb_student` (`stu_id`),
foreign key (`cid`) references `tb_course` (`cou_id`), foreign key (`cid`) references `tb_course` (`cou_id`),
unique (`sid`, `cid`) unique (`sid`, `cid`)
); ) engine=innodb comment '选课记录表';
-- 插入学院数据 -- 插入学院数据
insert into `tb_college` insert into `tb_college`
......
drop database if exists hrs;
create database hrs default charset utf8mb4;
use hrs;
create table tb_dept
(
dno int not null comment '编号',
dname varchar(10) not null comment '名称',
dloc varchar(20) not null comment '所在地',
primary key (dno)
);
insert into tb_dept values
(10, '会计部', '北京'),
(20, '研发部', '成都'),
(30, '销售部', '重庆'),
(40, '运维部', '深圳');
create table tb_emp
(
eno int not null comment '员工编号',
ename varchar(20) not null comment '员工姓名',
job varchar(20) not null comment '员工职位',
mgr int comment '主管编号',
sal int not null comment '员工月薪',
comm int comment '每月补贴',
dno int comment '所在部门编号',
primary key (eno),
foreign key (dno) references tb_dept (dno)
);
-- alter table tb_emp add constraint pk_emp_eno primary key (eno);
-- alter table tb_emp add constraint uk_emp_ename unique (ename);
-- alter table tb_emp add constraint fk_emp_mgr foreign key (mgr) references tb_emp (eno);
-- alter table tb_emp add constraint fk_emp_dno foreign key (dno) references tb_dept (dno);
insert into tb_emp values
(7800, '张三丰', '总裁', null, 9000, 1200, 20),
(2056, '乔峰', '分析师', 7800, 5000, 1500, 20),
(3088, '李莫愁', '设计师', 2056, 3500, 800, 20),
(3211, '张无忌', '程序员', 2056, 3200, null, 20),
(3233, '丘处机', '程序员', 2056, 3400, null, 20),
(3251, '张翠山', '程序员', 2056, 4000, null, 20),
(5566, '宋远桥', '会计师', 7800, 4000, 1000, 10),
(5234, '郭靖', '出纳', 5566, 2000, null, 10),
(3344, '黄蓉', '销售主管', 7800, 3000, 800, 30),
(1359, '胡一刀', '销售员', 3344, 1800, 200, 30),
(4466, '苗人凤', '销售员', 3344, 2500, null, 30),
(3244, '欧阳锋', '程序员', 3088, 3200, null, 20),
(3577, '杨过', '会计', 5566, 2200, null, 10),
(3588, '朱九真', '会计', 5566, 2500, null, 10);
-- 查询月薪最高的员工姓名和月薪
select ename, sal from tb_emp where sal=(select max(sal) from tb_emp);
select ename, sal from tb_emp where sal>=all(select sal from tb_emp);
-- 查询员工的姓名和年薪((月薪+补贴)*13)
select ename, (sal+ifnull(comm,0))*13 as ann_sal from tb_emp order by ann_sal desc;
-- 查询有员工的部门的编号和人数
select dno, count(*) as total from tb_emp group by dno;
-- 查询所有部门的名称和人数
select dname, ifnull(total,0) as total from tb_dept left join
(select dno, count(*) as total from tb_emp group by dno) tb_temp
on tb_dept.dno=tb_temp.dno;
-- 查询月薪最高的员工(Boss除外)的姓名和月薪
select ename, sal from tb_emp where sal=(
select max(sal) from tb_emp where mgr is not null
);
-- 查询月薪排第2名的员工的姓名和月薪
select ename, sal from tb_emp where sal=(
select distinct sal from tb_emp order by sal desc limit 1,1
);
select ename, sal from tb_emp where sal=(
select max(sal) from tb_emp where sal<(select max(sal) from tb_emp)
);
-- 查询月薪超过平均月薪的员工的姓名和月薪
select ename, sal from tb_emp where sal>(select avg(sal) from tb_emp);
-- 查询月薪超过其所在部门平均月薪的员工的姓名、部门编号和月薪
select ename, t1.dno, sal from tb_emp t1 inner join
(select dno, avg(sal) as avg_sal from tb_emp group by dno) t2
on t1.dno=t2.dno and sal>avg_sal;
-- 查询部门中月薪最高的人姓名、月薪和所在部门名称
select ename, sal, dname
from tb_emp t1, tb_dept t2, (
select dno, max(sal) as max_sal from tb_emp group by dno
) t3 where t1.dno=t2.dno and t1.dno=t3.dno and sal=max_sal;
-- 查询主管的姓名和职位
-- 提示:尽量少用in/not in运算,尽量少用distinct操作
-- 可以使用存在性判断(exists/not exists)替代集合运算和去重操作
select ename, job from tb_emp where eno in (
select distinct mgr from tb_emp where mgr is not null
);
select ename, job from tb_emp where eno=any(
select distinct mgr from tb_emp where mgr is not null
);
select ename, job from tb_emp t1 where exists (
select 'x' from tb_emp t2 where t1.eno=t2.mgr
);
-- MySQL8有窗口函数:row_number() / rank() / dense_rank()
-- 查询月薪排名4~6名的员工的排名、姓名和月薪
select ename, sal from tb_emp order by sal desc limit 3,3;
select row_num, ename, sal from
(select @a:=@a+1 as row_num, ename, sal
from tb_emp, (select @a:=0) t1 order by sal desc) t2
where row_num between 4 and 6;
-- 窗口函数不适合业务数据库,只适合做离线数据分析
select
ename, sal,
row_number() over (order by sal desc) as row_num,
rank() over (order by sal desc) as ranking,
dense_rank() over (order by sal desc) as dense_ranking
from tb_emp limit 3 offset 3;
select ename, sal, ranking from (
select ename, sal, dense_rank() over (order by sal desc) as ranking from tb_emp
) tb_temp where ranking between 4 and 6;
-- 窗口函数主要用于解决TopN查询问题
-- 查询每个部门月薪排前2名的员工姓名、月薪和部门编号
select ename, sal, dno from (
select ename, sal, dno, rank() over (partition by dno order by sal desc) as ranking
from tb_emp
) tb_temp where ranking<=2;
select ename, sal, dno from tb_emp t1
where (select count(*) from tb_emp t2 where t1.dno=t2.dno and t2.sal>t1.sal)<2
order by dno asc, sal desc;
因为 它太大了无法显示 source diff 。你可以改为 查看blob
drop database if exists shop;
create database shop default charset utf8;
use shop;
drop table if exists tb_goods;
create table tb_goods
(
gid int not null auto_increment,
gname varchar(50) not null,
gprice decimal(10,2) not null,
gimage varchar(255),
primary key (gid)
);
insert into tb_goods values
(default, '乐事(Lay’s)无限薯片', 8.2, 'images/lay.jpg'),
(default, '旺旺 仙贝 加量装 540g', 18.5, 'images/wang.jpg'),
(default, '多儿比(Dolbee)黄桃水果罐头', 6.8, 'images/dolbee.jpg'),
(default, '王致和 精制料酒 500ml', 7.9, 'images/wine.jpg'),
(default, '陈克明 面条 鸡蛋龙须挂面', 1.0, 'images/noodle.jpg'),
(default, '鲁花 菜籽油 4L', 69.9, 'images/oil.jpg');
\ No newline at end of file
CREATE DATABASE IF NOT EXISTS `stock`;
USE `stock`;
DROP TABLE IF EXISTS `tb_baba_stock`;
CREATE TABLE `tb_baba_stock` (
`stock_id` bigint unsigned NOT NULL AUTO_INCREMENT COMMENT '编号',
`trade_date` date NOT NULL COMMENT '交易日',
`high_price` decimal(16,6) NOT NULL COMMENT '最高价',
`low_price` decimal(16,6) NOT NULL COMMENT '最低价',
`open_price` decimal(16,6) NOT NULL COMMENT '开盘价',
`close_price` decimal(16,6) NOT NULL COMMENT '收盘价',
`trade_volume` bigint unsigned NOT NULL COMMENT '交易量',
PRIMARY KEY (`stock_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;
LOCK TABLES `tb_baba_stock` WRITE;
INSERT INTO `tb_baba_stock` VALUES (1,'2019-12-31',213.639999,210.729996,212.000000,212.100006,6773600),(2,'2020-01-02',219.979996,216.539993,216.600006,219.770004,15873500),(3,'2020-01-03',218.203003,216.009995,216.350006,217.000000,8604500),(4,'2020-01-06',217.160004,214.089996,214.889999,216.639999,11885500),(5,'2020-01-07',218.940002,216.690002,217.639999,217.630005,9388000),(6,'2020-01-08',220.649994,216.320007,216.600006,218.000000,11959100),(7,'2020-01-09',223.080002,220.820007,221.500000,221.779999,13122500),(8,'2020-01-10',225.960007,222.061005,223.899994,223.830002,12296000),(9,'2020-01-13',231.139999,227.039993,228.809998,230.479996,17544800),(10,'2020-01-14',230.175003,224.880005,230.050003,226.490005,17266900),(11,'2020-01-15',227.820007,224.389999,226.649994,225.059998,10743400),(12,'2020-01-16',226.330002,222.729996,226.300003,223.940002,13700500),(13,'2020-01-17',228.000000,225.350006,225.899994,227.429993,12956200),(14,'2020-01-21',222.600006,220.729996,222.449997,222.259995,15831100),(15,'2020-01-22',225.580002,222.000000,224.690002,222.369995,10059600),(16,'2020-01-23',220.130005,216.770004,217.929993,219.130005,18519900),(17,'2020-01-24',219.830002,211.324997,218.490005,213.750000,18143900),(18,'2020-01-27',208.020004,199.500000,201.220001,205.470001,24574700),(19,'2020-01-28',210.910004,207.169998,209.740005,210.229996,16196700),(20,'2020-01-29',213.979996,209.520004,212.559998,212.020004,12871900),(21,'2020-01-30',209.860001,205.029999,207.880005,208.580002,14376000),(22,'2020-01-31',207.929993,204.727997,206.500000,206.589996,18181400),(23,'2020-02-03',215.020004,208.669998,208.669998,213.100006,14118800),(24,'2020-02-04',224.380005,220.490005,221.350006,222.880005,16695100),(25,'2020-02-05',226.699997,217.539993,226.520004,220.220001,15766100),(26,'2020-02-06',223.649994,219.779999,223.130005,220.899994,10790800),(27,'2020-02-07',217.839996,214.880005,217.460007,216.529999,13790300),(28,'2020-02-10',215.770004,212.199997,213.500000,215.770004,17420300),(29,'2020-02-11',220.009995,215.289993,219.910004,217.210007,16073500),(30,'2020-02-12',225.520004,220.210007,221.130005,224.309998,18671900),(31,'2020-02-13',225.000000,218.990005,220.000000,220.360001,28069700),(32,'2020-02-14',221.639999,218.229996,221.100006,219.630005,10690000),(33,'2020-02-18',220.850006,217.509995,218.550003,220.520004,12987000),(34,'2020-02-19',223.559998,220.750000,221.520004,222.139999,10798100),(35,'2020-02-20',222.500000,214.220001,222.500000,218.039993,14950100),(36,'2020-02-21',217.600006,211.559998,217.539993,212.589996,17681200),(37,'2020-02-24',207.279999,202.509995,203.550003,206.160004,19380200),(38,'2020-02-25',209.949997,204.100006,208.509995,205.610001,18132400),(39,'2020-02-26',213.080002,206.789993,206.800003,208.740005,19482100),(40,'2020-02-27',209.970001,201.860001,205.009995,205.029999,22741200),(41,'2020-02-28',208.919998,198.561005,198.979996,208.000000,31251100),(42,'2020-03-02',211.110001,203.755997,208.589996,210.979996,21542200),(43,'2020-03-03',211.389999,202.240005,211.080002,207.410004,20813800),(44,'2020-03-04',212.699997,208.850006,209.490005,211.960007,12474400),(45,'2020-03-05',215.149994,209.139999,210.000000,211.460007,13462900),(46,'2020-03-06',207.000000,201.100006,206.699997,204.639999,21700500),(47,'2020-03-09',199.889999,193.929993,195.619995,197.660004,25502600),(48,'2020-03-10',207.449997,200.800003,205.529999,206.389999,19022600),(49,'2020-03-11',203.100006,196.110001,201.649994,198.910004,18908200),(50,'2020-03-12',190.487000,183.929993,186.500000,185.100006,30247100),(51,'2020-03-13',195.990005,187.809998,194.899994,194.000000,23650500),(52,'2020-03-16',188.000000,174.500000,176.149994,178.850006,26628500),(53,'2020-03-17',189.389999,179.690002,181.259995,184.809998,19276500),(54,'2020-03-18',182.410004,170.000000,176.000000,180.000000,22054200),(55,'2020-03-19',187.250000,177.389999,179.259995,180.880005,20905700),(56,'2020-03-20',188.300003,180.000000,187.740005,181.300003,21006100),(57,'2020-03-23',178.500000,169.949997,175.270004,176.339996,22554700),(58,'2020-03-24',188.800003,181.179993,183.089996,185.750000,20801500),(59,'2020-03-25',195.190002,184.514999,185.820007,188.559998,19605200),(60,'2020-03-26',196.320007,187.600006,188.639999,195.320007,15416800),(61,'2020-03-27',192.740005,188.000000,189.970001,188.589996,13376400),(62,'2020-03-30',191.479996,187.009995,187.479996,191.270004,12254400),(63,'2020-03-31',196.789993,190.600006,192.000000,194.479996,19084800),(64,'2020-04-01',192.869995,185.039993,189.500000,187.559998,17948600),(65,'2020-04-02',191.300003,185.692001,186.080002,188.899994,13412100),(66,'2020-04-03',190.550003,185.410004,190.119995,187.110001,9483100),(67,'2020-04-06',196.880005,192.699997,194.740005,196.449997,13248700),(68,'2020-04-07',201.449997,197.050003,200.050003,198.000000,14934500),(69,'2020-04-08',198.860001,193.884003,198.339996,195.979996,13608000),(70,'2020-04-09',200.350006,193.399994,198.649994,196.369995,17821300),(71,'2020-04-13',200.324997,195.529999,197.399994,199.440002,16117900),(72,'2020-04-14',207.970001,204.250000,204.949997,204.779999,16757100),(73,'2020-04-15',209.149994,201.309998,204.770004,208.169998,10768100),(74,'2020-04-16',213.250000,209.119995,210.529999,212.660004,16353800),(75,'2020-04-17',214.979996,208.850998,214.979996,209.500000,13558500),(76,'2020-04-20',216.100006,209.360001,209.869995,212.130005,19295400),(77,'2020-04-21',212.130005,205.029999,209.899994,207.339996,14107600),(78,'2020-04-22',212.000000,209.210007,212.000000,209.960007,13471100),(79,'2020-04-23',210.559998,203.460007,210.240005,205.240005,20424000),(80,'2020-04-24',206.500000,202.820007,205.889999,204.360001,14673900),(81,'2020-04-27',207.779999,202.029999,207.550003,203.690002,17286800),(82,'2020-04-28',205.190002,199.406998,204.809998,201.149994,17203800),(83,'2020-04-29',207.080002,202.509995,202.929993,206.699997,19117800),(84,'2020-04-30',206.699997,199.289993,206.250000,202.669998,20107400),(85,'2020-05-01',197.380005,192.860001,195.750000,194.479996,22276200),(86,'2020-05-04',195.000000,189.529999,194.759995,191.149994,25709400),(87,'2020-05-05',198.270004,194.199997,196.380005,195.020004,22957200),(88,'2020-05-06',198.910004,194.929993,197.669998,195.169998,18598900),(89,'2020-05-07',198.089996,194.779999,198.000000,196.490005,16164600),(90,'2020-05-08',203.020004,198.679993,199.800003,201.190002,23819700),(91,'2020-05-11',206.639999,202.380005,202.779999,205.399994,17920700),(92,'2020-05-12',208.050003,200.020004,206.949997,200.309998,17826800),(93,'2020-05-13',204.679993,197.979996,203.619995,199.460007,22429700),(94,'2020-05-14',201.770004,194.029999,195.500000,201.300003,20025900),(95,'2020-05-15',204.490005,200.100006,200.699997,203.679993,17209500),(96,'2020-05-18',215.470001,210.369995,212.500000,215.279999,23556600),(97,'2020-05-19',220.589996,215.190002,216.729996,217.199997,21438100),(98,'2020-05-20',221.156998,210.580002,220.000000,216.789993,38324100),(99,'2020-05-21',214.580002,209.529999,211.289993,212.160004,29850700),(100,'2020-05-22',204.880005,198.990005,203.229996,199.699997,51979300),(101,'2020-05-26',206.800003,201.000000,205.940002,201.720001,28683200),(102,'2020-05-27',202.990005,196.750000,202.990005,201.179993,23605400),(103,'2020-05-28',202.369995,197.619995,199.000000,199.490005,18763200),(104,'2020-05-29',207.880005,196.699997,200.000000,207.389999,43179500),(105,'2020-06-01',207.199997,203.940002,205.899994,206.570007,16169700),(106,'2020-06-02',214.570007,207.169998,207.210007,214.330002,22485800),(107,'2020-06-03',218.970001,213.750000,215.600006,218.610001,19999500),(108,'2020-06-04',220.000000,216.320007,217.279999,218.039993,14962400),(109,'2020-06-05',220.589996,218.699997,220.000000,219.550003,11983200),(110,'2020-06-08',220.399994,215.330002,219.600006,219.000000,12731200),(111,'2020-06-09',220.720001,216.199997,216.309998,220.720001,14140100),(112,'2020-06-10',225.000000,220.600006,222.000000,223.679993,13372400),(113,'2020-06-11',219.949997,213.559998,218.000000,215.240005,15560300),(114,'2020-06-12',219.500000,213.880005,218.500000,217.639999,12716500),(115,'2020-06-15',217.720001,212.750000,214.110001,217.029999,17419900),(116,'2020-06-16',224.839996,220.100006,221.000000,222.619995,17212400),(117,'2020-06-17',225.000000,222.500000,224.399994,224.250000,12486700),(118,'2020-06-18',226.029999,222.919998,223.740005,223.539993,10358800),(119,'2020-06-19',226.500000,220.089996,226.380005,220.639999,19545200),(120,'2020-06-22',222.080002,219.445007,220.919998,221.410004,13303600),(121,'2020-06-23',230.225006,224.529999,225.119995,228.750000,18263400),(122,'2020-06-24',231.029999,224.251999,228.300003,226.220001,12159500),(123,'2020-06-25',224.690002,220.869995,224.589996,222.160004,14953100),(124,'2020-06-26',222.259995,213.500000,222.210007,215.710007,19340600),(125,'2020-06-29',216.500000,211.820007,215.029999,215.020004,12333000),(126,'2020-06-30',216.429993,212.889999,215.740005,215.699997,12933800),(127,'2020-07-01',216.550003,214.740005,215.809998,215.949997,11788100),(128,'2020-07-02',225.024994,220.059998,221.850006,223.600006,18128700),(129,'2020-07-06',240.479996,232.820007,233.309998,240.000000,33702900),(130,'2020-07-07',241.300003,236.130005,241.009995,236.509995,16491600),(131,'2020-07-08',258.489990,244.020004,244.860001,257.679993,39922700),(132,'2020-07-09',268.000000,255.910004,265.549988,261.579987,36803900),(133,'2020-07-10',261.899994,255.710007,260.209991,261.010010,20335000),(134,'2020-07-13',265.660004,250.679993,261.450012,251.669998,21568700),(135,'2020-07-14',249.750000,241.229996,246.570007,248.580002,19782600),(136,'2020-07-15',252.500000,246.539993,251.479996,249.210007,12614700),(137,'2020-07-16',245.050003,240.740005,241.770004,242.500000,18032100),(138,'2020-07-17',247.929993,244.479996,246.550003,247.139999,18742400),(139,'2020-07-20',257.670013,252.429993,256.450012,254.809998,19015000),(140,'2020-07-21',261.920013,256.519989,261.209991,257.899994,17120700),(141,'2020-07-22',256.269989,249.600006,255.759995,251.699997,19682200),(142,'2020-07-23',257.660004,248.690002,252.100006,251.880005,25712000),(143,'2020-07-24',249.479996,241.889999,244.960007,249.000000,17221500),(144,'2020-07-27',252.869995,245.809998,247.110001,250.860001,18966900),(145,'2020-07-28',251.649994,248.529999,251.149994,249.050003,9878700),(146,'2020-07-29',254.300003,250.100006,250.339996,252.449997,11493600),(147,'2020-07-30',253.860001,249.619995,251.699997,252.740005,7032900),(148,'2020-07-31',254.399994,248.100006,254.199997,251.020004,12304100),(149,'2020-08-03',260.649994,254.000000,254.020004,257.940002,11530300),(150,'2020-08-04',262.559998,258.820007,260.079987,262.200012,10994500),(151,'2020-08-05',265.976013,261.755005,263.739990,264.910004,10673800),(152,'2020-08-06',265.700012,259.200012,263.420013,265.679993,10359500),(153,'2020-08-07',257.760010,247.570007,257.410004,252.100006,22529600),(154,'2020-08-10',251.750000,246.100006,249.339996,248.130005,13621700),(155,'2020-08-11',252.880005,247.830002,251.289993,248.419998,10681800),(156,'2020-08-12',256.079987,248.679993,249.250000,255.190002,11112300),(157,'2020-08-13',256.970001,252.880005,256.390015,253.720001,8794500),(158,'2020-08-14',255.770004,251.639999,255.490005,253.970001,7876400),(159,'2020-08-17',257.375000,250.085007,253.000000,256.959991,9760000),(160,'2020-08-18',261.420013,256.059998,258.709991,259.200012,13267800),(161,'2020-08-19',261.290009,257.380005,260.890015,260.589996,14096500),(162,'2020-08-20',258.880005,254.179993,256.890015,257.970001,21460800),(163,'2020-08-21',267.429993,258.309998,259.029999,265.799988,25648200),(164,'2020-08-24',276.970001,271.619995,273.239990,276.019989,22475800),(165,'2020-08-25',289.119995,276.040009,278.059998,286.000000,27535500),(166,'2020-08-26',292.480011,284.100006,289.260010,291.959991,19530300),(167,'2020-08-27',290.250000,282.100006,290.170013,284.170013,14805800),(168,'2020-08-28',289.500000,283.570007,285.089996,289.000000,9681500),(169,'2020-08-31',289.190002,283.609985,288.619995,287.029999,13253800),(170,'2020-09-01',298.000000,288.869995,289.200012,298.000000,13797100),(171,'2020-09-02',299.000000,289.790009,299.000000,296.070007,12638600),(172,'2020-09-03',290.733002,278.160004,289.000000,282.500000,16766200),(173,'2020-09-04',283.779999,267.390015,279.600006,281.390015,15885800),(174,'2020-09-08',273.970001,266.589996,270.230011,270.019989,12734000),(175,'2020-09-09',275.640015,270.880005,274.450012,273.149994,9465700),(176,'2020-09-10',277.100006,267.399994,274.899994,267.549988,10676800),(177,'2020-09-11',274.529999,268.119995,272.630005,271.609985,9412800),(178,'2020-09-14',276.290009,271.760010,275.359985,274.100006,7883300),(179,'2020-09-15',279.100006,274.799988,278.000000,277.959991,8291400),(180,'2020-09-16',283.605011,278.000000,281.029999,278.140015,9583500),(181,'2020-09-17',275.899994,272.321014,273.109985,275.720001,8016900),(182,'2020-09-18',277.269989,270.549988,275.980011,272.410004,11753500),(183,'2020-09-21',274.220001,266.399994,269.100006,273.820007,9076400),(184,'2020-09-22',276.320007,270.049988,276.019989,275.290009,9673300),(185,'2020-09-23',277.829987,271.500000,275.399994,272.950012,7353200),(186,'2020-09-24',271.250000,267.334015,267.929993,269.730011,9562100),(187,'2020-09-25',271.809998,264.559998,267.570007,271.089996,11466600),(188,'2020-09-28',278.839996,274.199005,275.529999,276.010010,8761700),(189,'2020-09-29',279.299988,274.899994,275.429993,276.929993,7673300),(190,'2020-09-30',295.000000,283.709991,284.010010,293.980011,24777700),(191,'2020-10-01',295.589996,288.250000,295.260010,290.049988,16304000),(192,'2020-10-02',291.979004,286.510010,286.619995,288.170013,11482800),(193,'2020-10-05',290.000000,284.880005,289.059998,288.269989,17876400),(194,'2020-10-06',296.839996,286.910004,287.410004,292.390015,15860400),(195,'2020-10-07',299.510010,292.869995,297.989990,296.500000,16669300),(196,'2020-10-08',302.299988,295.441010,298.109985,300.540009,15105800),(197,'2020-10-09',302.609985,297.739990,298.549988,299.739990,11442200),(198,'2020-10-12',309.640015,301.285004,303.950012,306.339996,14780100),(199,'2020-10-13',310.010010,303.029999,306.359985,308.779999,10898500),(200,'2020-10-14',309.959991,300.799988,309.000000,301.040009,15157800),(201,'2020-10-15',299.863007,292.609985,293.799988,299.459991,9709900),(202,'2020-10-16',310.000000,302.950012,303.989990,307.309998,12338000),(203,'2020-10-19',313.809998,303.410004,309.890015,305.290009,14107300),(204,'2020-10-20',311.799988,307.059998,307.600006,309.809998,8806100),(205,'2020-10-21',314.000000,307.700012,311.750000,307.970001,11139700),(206,'2020-10-22',311.850006,304.209991,311.459991,306.279999,8008400),(207,'2020-10-23',310.329987,304.059998,307.269989,309.920013,6231400),(208,'2020-10-26',315.459991,303.200012,309.920013,306.869995,9350100),(209,'2020-10-27',319.320007,305.609985,307.750000,317.140015,13175900),(210,'2020-10-28',313.500000,306.000000,313.500000,307.940002,13644500),(211,'2020-10-29',315.579987,308.910004,309.440002,312.559998,11174500),(212,'2020-10-30',310.829987,300.190002,308.549988,304.690002,14918500),(213,'2020-11-02',311.440002,305.390015,310.950012,310.839996,11857600),(214,'2020-11-03',294.279999,280.779999,286.200012,285.570007,58132500),(215,'2020-11-04',299.170013,285.299988,287.790009,295.709991,28791200),(216,'2020-11-05',291.250000,279.600006,289.089996,287.750000,50065200),(217,'2020-11-06',300.890015,289.786011,291.489990,299.950012,25259600),(218,'2020-11-09',304.000000,290.500000,303.769989,290.529999,22559900),(219,'2020-11-10',280.000000,264.329987,279.970001,266.540009,61064000),(220,'2020-11-11',271.920013,261.204987,261.920013,265.649994,41699000),(221,'2020-11-12',271.200012,263.040009,271.040009,264.309998,27119100),(222,'2020-11-13',265.440002,257.170013,264.720001,260.839996,33942800),(223,'2020-11-16',262.570007,257.029999,260.420013,258.309998,20864200),(224,'2020-11-17',260.279999,256.540009,260.279999,256.799988,19739500),(225,'2020-11-18',258.309998,252.550003,257.760010,255.830002,28307100),(226,'2020-11-19',261.399994,253.559998,255.000000,259.890015,20752800),(227,'2020-11-20',272.369995,261.899994,263.970001,270.739990,34178400),(228,'2020-11-23',275.730011,266.411011,274.750000,270.109985,25317100),(229,'2020-11-24',280.609985,272.799988,276.234985,279.959991,20660500),(230,'2020-11-25',279.329987,274.049988,275.700012,277.720001,15229300),(231,'2020-11-27',278.920013,275.665985,278.799988,276.480011,9583200),(232,'2020-11-30',268.970001,262.519989,268.970001,263.359985,30476100),(233,'2020-12-01',265.670013,261.570007,265.470001,264.010010,14573100),(234,'2020-12-02',263.100006,260.109985,262.000000,261.320007,13919700),(235,'2020-12-03',268.600006,263.140015,263.779999,266.910004,15520500),(236,'2020-12-04',271.299988,266.269989,271.019989,267.250000,15527600),(237,'2020-12-07',265.970001,262.600006,265.700012,264.000000,11388700),(238,'2020-12-08',268.399994,263.869995,265.200012,266.089996,9447700),(239,'2020-12-09',267.910004,263.100006,267.559998,263.799988,9060700),(240,'2020-12-10',266.089996,261.200012,261.989990,264.869995,10290300),(241,'2020-12-11',265.320007,262.500000,264.290009,264.540009,7771300),(242,'2020-12-14',260.855011,256.029999,260.320007,256.029999,18369900),(243,'2020-12-15',255.679993,252.300003,255.339996,255.110001,16595600),(244,'2020-12-16',263.179993,257.040009,257.739990,261.890015,15804800),(245,'2020-12-17',264.850006,260.200012,264.700012,264.429993,14306600),(246,'2020-12-18',264.899994,259.200012,263.899994,260.000000,15981800),(247,'2020-12-21',260.459991,254.500000,255.169998,260.429993,10901800),(248,'2020-12-22',258.339996,255.410004,257.869995,255.830002,11468400),(249,'2020-12-23',257.350006,252.529999,255.500000,256.179993,10729200),(250,'2020-12-24',229.899994,211.229996,228.235001,222.000000,141830000),(251,'2020-12-28',224.990005,215.320007,216.880005,222.360001,73512100),(252,'2020-12-29',239.190002,229.600006,231.759995,236.259995,69715900),(253,'2020-12-30',243.389999,234.645004,243.348007,238.389999,44812300),(254,'2020-12-31',238.919998,231.026993,237.460007,232.729996,23451800);
UNLOCK TABLES;
...@@ -259,7 +259,7 @@ Notebook是基于网页的用于交互计算的应用程序,可以用于代码 ...@@ -259,7 +259,7 @@ Notebook是基于网页的用于交互计算的应用程序,可以用于代码
在实际工作中,我们经常通过四分位数再配合[箱线图](https://zhuanlan.zhihu.com/p/110580568)来发现异常值。例如,小于$Q_1 - 1.5 \times IQR$的值或大于$Q3 + 1.5 \times IQR$的值可以视为普通异常值,而小于$Q_1 - 3 \times IQR$的值或大于$Q3 + 3 \times IQR$的值通常视为极度异常值。这种检测异常值的方法跟[“3西格玛法则”](https://zh.wikipedia.org/wiki/68%E2%80%9395%E2%80%9399.7%E5%8E%9F%E5%89%87)的道理是一致的,如下图所示。 在实际工作中,我们经常通过四分位数再配合[箱线图](https://zhuanlan.zhihu.com/p/110580568)来发现异常值。例如,小于$Q_1 - 1.5 \times IQR$的值或大于$Q3 + 1.5 \times IQR$的值可以视为普通异常值,而小于$Q_1 - 3 \times IQR$的值或大于$Q3 + 3 \times IQR$的值通常视为极度异常值。这种检测异常值的方法跟[“3西格玛法则”](https://zh.wikipedia.org/wiki/68%E2%80%9395%E2%80%9399.7%E5%8E%9F%E5%89%87)的道理是一致的,如下图所示。
![](res/quartile_and_3sigma.png) ![](res/3sigma.png)
2. 离散趋势 2. 离散趋势
......
## 概率基础
### 数据的集中趋势
我们经常会使用以下几个指标来描述一组数据的集中趋势:
1. 均值 - 均值代表某个数据集的整体水平,我们经常提到的客单价、平均访问时长、平均配送时长等指标都是均值。均值的缺点是容易受极值的影响,虽然可以使用加权平均值来消除极值的影响,但是可能事先并不清楚数据的权重;对于正数可以用几何平均值来替代算术平均值。
- 算术平均值:$$\bar{x}=\frac{\sum_{i=1}^{n}x_{i}}{n}=\frac{x_{1}+x_{2}+\cdots +x_{n}}{n}$$。
- 几何平均值:$$\left(\prod_{i=1}^{n}x_{i}\right)^{\frac{1}{n}}={\sqrt[{n}]{x_{1}x_{2} \cdots x_{n}}}$$。
2. 中位数 - 将数据按照升序或降序排列后位于中间的数,它描述了数据的中等水平。
3. 众数 - 数据集合中出现频次最多的数据,它代表了数据的一般水平。数据的趋势越集中,众数的代表性就越好。众数不受极值的影响,但是无法保证唯一性和存在性。
例子:有A和B两组数据。
```
A组:5, 6, 6, 6, 6, 8, 10
B组:3, 5, 5, 6, 6, 9, 12
```
A组:
均值:6.74,中位数:6,众数:6。
B组:
均值:6.57,中位数:6,众数:5, 6。
对A组的数据进行一些调整。
```
A组:5, 6, 6, 6, 6, 8, 10, 20
B组:3, 5, 5, 6, 6, 9, 12
```
A组的均值会大幅度提升,但中位数和众数却没有变化。
> **思考**:怎样判断上面的20到底是不是一个异常值?
| | 优点 | 缺点 |
| ------ | -------------------------------- | ------------------------------------ |
| 均值 | 充分利用了所有数据,适应性强 | 容易收到极端值(异常值)的影响 |
| 中位数 | 能够避免被极端值(异常值)的影响 | 不敏感 |
| 众数 | 能够很好的反映数据的集中趋势 | 有可能不存在(数据没有明显集中趋势) |
> **练习1**:在“概率基础练习.xlsx”文件的表单“练习1”中,有一组用户订单支付金额的数据,计算订单的均值、中位数、众数。
>
> **练习2:**在“概率基础练习.xlsx”文件的表单“练习2”中,有一组商品销售量的数据,现计划设定一个阈值,对阈值以下的商品对应的分销商进行优化,应该选择什么作为阈值比较合适?
### 数据的离散趋势
如果说数据的集中趋势,说明了数据最主要的特征是什么;那么数据的离散趋势,则体现了这个特征的稳定性。例如A地区冬季平均气温`0`摄氏度,最低气温`-10`摄氏度;B地区冬季平均气温`-2`摄氏度,最低气温`-4`摄氏度;如果你是一个特别怕冷的人,在选择A和B两个区域作为工作和生活的城市时,你会做出怎样的选择?
1. 极值:就是最大值(maximum)、最小值(minimum),代表着数据集的上限和下限。
2. 极差:又称“全距”,是一组数据中的最大观测值和最小观测值之差,记作$R$。一般情况下,极差越大,离散程度越大,数据受极值的影响越严重。
3. 方差:将每个值与均值的偏差进行平方,然后除以总数据量得到的值。简单来说就是表示数据与期望值的偏离程度。方差越大,就意味着数据越不稳定、波动越剧烈,因此代表着数据整体比较分散,呈现出离散的趋势;而方差越小,意味着数据越稳定、波动越平滑,因此代表着数据整体比较集中。
- 总体方差:$$ \sigma^2 = \frac {\sum_{i=1}^{N}(X_i - \mu)^2} {N} $$。
- 样本方差:$$ S^2 = \frac {\sum_{i=1}^{N}(X_i - \bar{X})^2} {N-1} $$。
4. 标准差:将方差进行平方根运算后的结果,与方差一样都是表示数据与期望值的偏离程度。
- 总体标准差:$$ \sigma = \sqrt{\frac{\sum_{i=1}^{N}(X_i - \mu)^2}{N}} $$。
- 样本标准差:$$ S = \sqrt{\frac{\sum_{i=1}^{N}(X_i - \bar{X})^2}{N-1}} $$。
> **练习3**:复制“概率基础练习.xlsx”文件的表单“练习1”,将复制的表单命名为“练习3”,计算订单支付金额的最大值、最小值、极差、方差和标准差。
### 数据的频数分析
频数分析是指用一定的方式将数据分组,然后统计每个分组中样本的数量,再辅以图表(如直方图)就可以更直观的展示数据分布趋势的一种方法。
频数分析的意义:
1. 大问题变小问题,迅速聚焦到需要关注的群体。
2. 找到合理的分类机制,有利于长期的数据分析(维度拆解)。
例如:一个班有40个学生,考试成绩如下所示:
```
73, 87, 88, 65, 73, 76, 80, 95, 83, 69, 55, 67, 70, 94, 86, 81, 87, 95, 84, 92, 92, 76, 69, 97, 72, 90, 72, 85, 80, 83, 97, 95, 62, 92, 67, 73, 91, 95, 86, 77
```
用上面学过的知识,先解读学生考试成绩的数据。
均值:81.275,中位数:83,众数:95。
最高分:97,最低分:55,极差:42,方差:118.15,标准差:10.87。
但是,仅仅依靠上面的数据是很难对一个数据集做出全面的解读,我们可以把学生按照考试成绩进行分组,如下所示,大家可以自行尝试在Excel或用Python来完成这个操作。
| 分数段 | 学生人数 |
| -------- | -------- |
| <60 | 1 |
| [60, 65) | 1 |
| [65, 69) | 5 |
| [70, 75) | 6 |
| [75, 80) | 3 |
| [80, 85) | 6 |
| [85, 90) | 6 |
| [90, 95) | 6 |
| >=95 | 6 |
> **练习4**:在“概率基础练习.xlsx”文件的表单“练习4”中,有某App首页版本迭代上线后的A/B测试数据,数据代表了参与测试的用户7日的活跃天数,请分析A组和B组的数据并判定哪组表现更优。
>
> **练习5**:在“概率基础练习.xlsx”文件的表单“练习5”中,有某App某个功能迭代上线后的A/B测试数据,数据代表了参与测试的用户30日的产品使用时长,请分析A组和B组的数据并判定哪组表现更优。
### 数据的概率分布
#### 基本概念
1. 随机试验:在相同条件下对某种随机现象进行观测的试验。随机试验满足三个特点:
- 可以在相同条件下重复的进行。
- 每次试验的结果不止一个,事先可以明确指出全部可能的结果。
- 重复试验的结果以随机的方式出现(事先不确定会出现哪个结果)。
2. 随机变量:如果$X$指定给概率空间$S$中每一个事件$e$有一个实数$X(e)$,同时针对每一个实数$r$都有一个事件集合$A_r$与其相对应,其中$A_r=\{e: X(e) \le r\}$,那么$X$被称作随机变量。从这个定义看出,$X$的本质是一个实值函数,以给定事件为自变量的实值函数,因为函数在给定自变量时会产生因变量,所以将$X$称为随机变量。
- 离散型随机变量:数据可以一一列出。
- 连续型随机变量:数据不可以一一列出。
如果离散型随机变量的取值非常庞大时,可以近似看做连续型随机变量。
3. 概率质量函数/概率密度函数:概率质量函数是描述离散型随机变量为特定取值的概率的函数,通常缩写为**PMF**。概率密度函数是描述连续型随机变量在某个确定的取值点可能性的函数,通常缩写为**PDF**。二者的区别在于,概率密度函数本身不是概率,只有对概率密度函数在某区间内进行积分后才是概率。
#### 离散型分布
1. 伯努利分布(*Bernoulli distribution*):又名**两点分布**或者**0-1分布**,是一个离散型概率分布。若伯努利试验成功,则随机变量取值为1。若伯努利试验失败,则随机变量取值为0。记其成功概率为$p (0 \le p \le 1)$,失败概率为$q=1-p$,则概率质量函数为:
$$ {\displaystyle f_{X}(x)=p^{x}(1-p)^{1-x}=\left\{{\begin{matrix}p&{\mbox{if }}x=1,\\q\ &{\mbox{if }}x=0.\\\end{matrix}}\right.} $$
2. 二项分布(*Binomial distribution*):$n$个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为$p$。一般地,如果随机变量$X$服从参数为$n$和$p$的二项分布,记为$X\sim B(n,p)$。$n$次试验中正好得到$k$次成功的概率由概率质量函数给出,$\displaystyle f(k,n,p)=\Pr(X=k)={n \choose k}p^{k}(1-p)^{n-k}$,对于$k= 0, 1, 2, ..., n$,其中${n \choose k}={\frac {n!}{k!(n-k)!}}$。
3. 泊松分布(*Poisson distribution*):适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数等等。泊松分布的概率质量函数为:$P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}$,泊松分布的参数$\lambda$是单位时间(或单位面积)内随机事件的平均发生率。
> **说明**:泊松分布是在没有计算机的年代,由于二项分布的运算量太大运算比较困难,为了减少运算量,数学家为二项分布提供的一种近似。
#### 连续型分布
1. 均匀分布(*Uniform distribution*):如果连续型随机变量$X$具有概率密度函数$f(x)=\begin{cases}{\frac{1}{b-a}} \quad &{a \leq x \leq b} \\ {0} \quad &{\mbox{other}}\end{cases}$,则称$X$服从$[a,b]$上的均匀分布,记作$X\sim U[a,b]$。
2. 指数分布(*Exponential distribution*):如果连续型随机变量$X$具有概率密度函数$f(x)=\begin{cases} \lambda e^{- \lambda x} \quad &{x \ge 0} \\ {0} \quad &{x \lt 0} \end{cases}$,则称$X$服从参数为$\lambda$的指数分布,记为$X \sim Exp(\lambda)$。指数分布可以用来表示独立随机事件发生的时间间隔,比如旅客进入机场的时间间隔、客服中心接入电话的时间间隔、知乎上出现新问题的时间间隔等等。指数分布的一个重要特征是无记忆性(无后效性),这表示如果一个随机变量呈指数分布,它的条件概率遵循:$P(T \gt s+t\ |\ T \gt t)=P(T \gt s), \forall s,t \ge 0$。
3. 正态分布(*Normal distribution*):又名**高斯分布***Gaussian distribution*),是一个非常常见的连续概率分布,经常用自然科学和社会科学中来代表一个不明的随机变量。若随机变量$X$服从一个位置参数为$\mu$、尺度参数为$\sigma$的正态分布,记为$X \sim N(\mu,\sigma^2)$,其概率密度函数为:$\displaystyle f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{-{\frac {\left(x-\mu \right)^{2}}{2\sigma ^{2}}}}$。
<img src="normal-distribution.png" width="600">
“3$\sigma$法则”:
<img src="3sigma.png" height="600">
4. 伽马分布(*Gamma distribution*):假设$X_1, X_2, ... X_n$为连续发生事件的等候时间,且这$n$次等候时间为独立的,那么这$n$次等候时间之和$Y$($Y=X_1+X_2+...+X_n$)服从伽玛分布,即$Y \sim \Gamma(\alpha,\beta)$,其中$\alpha=n, \beta=\lambda$,这里的$\lambda$是连续发生事件的平均发生频率。
5. 卡方分布(*Chi-square distribution*):若$k$个随机变量$Z_1,Z_2,...,Z_k$是相互独立且符合标准正态分布(数学期望为0,方差为1)的随机变量,则随机变量$Z$的平方和$X=\sum_{i=1}^{k}Z_i^2$被称为服从自由度为$k$的卡方分布,记为$X \sim \chi^2(k)$。
\ No newline at end of file
...@@ -162,7 +162,7 @@ Hive的数据类型如下所示。 ...@@ -162,7 +162,7 @@ Hive的数据类型如下所示。
set hive.exec.max.dynamic.partitions.pernode=10000; set hive.exec.max.dynamic.partitions.pernode=10000;
``` ```
5. 拷贝数据。 5. 拷贝数据(Shell命令)
```Shell ```Shell
hdfs dfs -put /home/ubuntu/data/user_trade/* /user/hive/warehouse/demo.db/user_trade hdfs dfs -put /home/ubuntu/data/user_trade/* /user/hive/warehouse/demo.db/user_trade
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册