09丨子查询：子查询的种类都有哪些，如何提高子查询的性能？

上节课我讲到了聚集函数，以及如何对数据进行分组统计，可以说我们之前讲的内容都是围绕单个表的SELECT查询展开的，实际上SQL还允许我们进行子查询，也就是嵌套在查询中的查询。这样做的好处是可以让我们进行更复杂的查询，同时更加容易理解查询的过程。因为很多时候，我们无法直接从数据表中得到查询结果，需要从查询结果集中再次进行查询，才能得到想要的结果。这个“查询结果集”就是今天我们要讲的子查询。

通过今天的文章，我希望你可以掌握以下的内容：

子查询可以分为关联子查询和非关联子查询。我会举一个NBA数据库查询的例子，告诉你什么是关联子查询，什么是非关联子查询；
子查询中有一些关键词，可以方便我们对子查询的结果进行比较。比如存在性检测子查询，也就是EXISTS子查询，以及集合比较子查询，其中集合比较子查询关键词有IN、SOME、 ANY和ALL，这些关键词在子查询中的作用是什么；
子查询也可以作为主查询的列，我们如何使用子查询作为计算字段出现在SELECT查询中呢？

什么是关联子查询，什么是非关联子查询

子查询虽然是一种嵌套查询的形式，不过我们依然可以依据子查询是否执行多次，从而将子查询划分为关联子查询和非关联子查询。

子查询从数据表中查询了数据结果，如果这个数据结果只执行一次，然后这个数据结果作为主查询的条件进行执行，那么这样的子查询叫做非关联子查询。

同样，如果子查询需要执行多次，即采用循环的方式，先从外部查询开始，每次都传入子查询进行查询，然后再将结果反馈给外部，这种嵌套的执行方式就称为关联子查询。

单说概念有点抽象，我们用数据表举例说明一下。这里我创建了NBA球员数据库，SQL文件你可以从GitHub上下载。

文件中一共包括了5张表，player表为球员表，team为球队表，team_score为球队比赛表，player_score为球员比赛成绩表，height_grades为球员身高对应的等级表。

其中player表，也就是球员表，一共有37个球员，如下所示：

team表为球队表，一共有3支球队，如下所示：

team_score表为球队比赛成绩表，一共记录了两场比赛的成绩，如下所示：

player_score表为球员比赛成绩表，记录了一场比赛中球员的表现。这张表一共包括19个字段，代表的含义如下：

其中shoot_attempts代表总出手的次数，它等于二分球出手和三分球出手次数的总和。比如2019年4月1日，韦恩·艾灵顿在底特律活塞和印第安纳步行者的比赛中，总出手次数为19，总命中10，三分球13投4中，罚球4罚2中，因此总分score=(10-4)×2+4×3+2=26，也就是二分球得分12+三分球得分12+罚球得分2=26。

需要说明的是，通常在工作中，数据表的字段比较多，一开始创建的时候会知道每个字段的定义，过了一段时间再回过头来看，对当初的定义就不那么确定了，容易混淆字段，解决这一问题最好的方式就是做个说明文档，用实例举例。

比如shoot_attempts是总出手次数（这里的总出手次数=二分球出手次数+三分球出手次数，不包括罚球的次数），用上面提到的韦恩·艾灵顿的例子做补充说明，再回过头来看这张表的时候，就可以很容易理解每个字段的定义了。

我们以NBA球员数据表为例，假设我们想要知道哪个球员的身高最高，最高身高是多少，就可以采用子查询的方式：

SQL: SELECT player_name, height FROM player WHERE height = (SELECT max(height) FROM player)

运行结果：（1条记录）

你能看到，通过SELECT max(height) FROM player可以得到最高身高这个数值，结果为2.16，然后我们再通过player这个表，看谁具有这个身高，再进行输出，这样的子查询就是非关联子查询。

如果子查询的执行依赖于外部查询，通常情况下都是因为子查询中的表用到了外部的表，并进行了条件关联，因此每执行一次外部查询，子查询都要重新计算一次，这样的子查询就称之为关联子查询。比如我们想要查找每个球队中大于平均身高的球员有哪些，并显示他们的球员姓名、身高以及所在球队ID。

首先我们需要统计球队的平均身高，即SELECT avg(height) FROM player AS b WHERE a.team_id = b.team_id，然后筛选身高大于这个数值的球员姓名、身高和球队ID，即：

SELECT player_name, height, team_id FROM player AS a WHERE height > (SELECT avg(height) FROM player AS b WHERE a.team_id = b.team_id)

运行结果：（18条记录）

这里我们将player表复制成了表a和表b，每次计算的时候，需要将表a中的team_id传入从句，作为已知值。因为每次表a中的team_id可能是不同的，所以是关联子查询。如果是非关联子查询，那么从句计算的结果是固定的才可以。

EXISTS子查询

关联子查询通常也会和EXISTS一起来使用，EXISTS子查询用来判断条件是否满足，满足的话为True，不满足为False。

比如我们想要看出场过的球员都有哪些，并且显示他们的姓名、球员ID和球队ID。在这个统计中，是否出场是通过player_score这张表中的球员出场表现来统计的，如果某个球员在player_score中有出场记录则代表他出场过，这里就使用到了EXISTS子查询，即EXISTS (SELECT player_id FROM player_score WHERE player.player_id = player_score.player_id)，然后将它作为筛选的条件，实际上也是关联子查询，即：

SQL：SELECT player_id, team_id, player_name FROM player WHERE EXISTS (SELECT player_id FROM player_score WHERE player.player_id = player_score.player_id)

运行结果：（19条记录）

同样，NOT EXISTS就是不存在的意思，我们也可以通过NOT EXISTS查询不存在于player_score表中的球员信息，比如主表中的player_id不在子表player_score中，判断语句为NOT EXISTS (SELECT player_id FROM player_score WHERE player.player_id = player_score.player_id)。整体的SQL语句为：

SQL: SELECT player_id, team_id, player_name FROM player WHERE NOT EXISTS (SELECT player_id FROM player_score WHERE player.player_id = player_score.player_id)

运行结果：（18条记录）

集合比较子查询

集合比较子查询的作用是与另一个查询结果集进行比较，我们可以在子查询中使用IN、ANY、ALL和SOME操作符，它们的含义和英文意义一样：

还是通过上面那个例子，假设我们想要看出场过的球员都有哪些，可以采用IN子查询来进行操作：

SELECT player_id, team_id, player_name FROM player WHERE player_id in (SELECT player_id FROM player_score WHERE player.player_id = player_score.player_id)

你会发现运行结果和上面的是一样的，那么问题来了，既然IN和EXISTS都可以得到相同的结果，那么我们该使用IN还是EXISTS呢？

我们可以把这个模式抽象为：

SELECT * FROM A WHERE cc IN (SELECT cc FROM B)

SELECT * FROM A WHERE EXIST (SELECT cc FROM B WHERE B.cc=A.cc)

实际上在查询过程中，在我们对cc列建立索引的情况下，我们还需要判断表A和表B的大小。在这里例子当中，表A指的是player表，表B指的是player_score表。如果表A比表B大，那么IN子查询的效率要比EXIST子查询效率高，因为这时B表中如果对cc列进行了索引，那么IN子查询的效率就会比较高。

同样，如果表A比表B小，那么使用EXISTS子查询效率会更高，因为我们可以使用到A表中对cc列的索引，而不用从B中进行cc列的查询。

了解了IN查询后，我们来看下ANY和ALL子查询。刚才讲到了ANY和ALL都需要使用比较符，比较符包括了（>）（=）（<）（>=）（<=）和（<>）等。

如果我们想要查询球员表中，比印第安纳步行者（对应的team_id为1002）中任意一个球员身高高的球员信息，并且输出他们的球员ID、球员姓名和球员身高，该怎么写呢？首先我们需要找出所有印第安纳步行者队中的球员身高，即SELECT height FROM player WHERE team_id = 1002，然后使用ANY子查询即：

SQL: SELECT player_id, player_name, height FROM player WHERE height > ANY (SELECT height FROM player WHERE team_id = 1002)

运行结果：（35条记录）

运行结果为35条，你发现有2个人的身高是不如印第安纳步行者的所有球员的。

同样，如果我们想要知道比印第安纳步行者（对应的team_id为1002）中所有球员身高都高的球员的信息，并且输出球员ID、球员姓名和球员身高，该怎么写呢？

SQL: SELECT player_id, player_name, height FROM player WHERE height > ALL (SELECT height FROM player WHERE team_id = 1002)

运行结果：（1条记录）

我们能看到比印第安纳步行者所有球员都高的球员，在player这张表（一共37个球员）中只有索恩·马克。

需要强调的是ANY、ALL关键字必须与一个比较操作符一起使用。因为如果你不使用比较操作符，就起不到集合比较的作用，那么使用ANY和ALL就没有任何意义。

将子查询作为计算字段

我刚才讲了子查询的几种用法，实际上子查询也可以作为主查询的计算字段。比如我想查询每个球队的球员数，也就是对应team这张表，我需要查询相同的team_id在player这张表中所有的球员数量是多少。

SQL: SELECT team_name, (SELECT count(*) FROM player WHERE player.team_id = team.team_id) AS player_num FROM team

运行结果：（3条记录）

你能看到，在player表中只有底特律活塞和印第安纳步行者的球员数据，所以它们的player_num不为0，而亚特兰大老鹰的player_num等于0。在查询的时候，我将子查询SELECT count(*) FROM player WHERE player.team_id = team.team_id作为了计算字段，通常我们需要给这个计算字段起一个别名，这里我用的是player_num，因为子查询的语句比较长，使用别名更容易理解。

总结

今天我讲解了子查询的使用，按照子查询执行的次数，我们可以将子查询分成关联子查询和非关联子查询，其中非关联子查询与主查询的执行无关，只需要执行一次即可，而关联子查询，则需要将主查询的字段值传入子查询中进行关联查询。

同时，在子查询中你可能会使用到EXISTS、IN、ANY、ALL和SOME等关键字。在某些情况下使用EXISTS和IN可以得到相同的效果，具体使用哪个执行效率更高，则需要看字段的索引情况以及表A和表B哪个表更大。同样，IN、ANY、ALL、SOME这些关键字是用于集合比较的，SOME是ANY的别名，当我们使用ANY或ALL的时候，一定要使用比较操作符。

最后，我讲解了如何使用子查询作为计算字段，把子查询的结果作为主查询的列。

SQL中，子查询的使用大大增强了SELECT查询的能力，因为很多时候查询需要从结果集中获取数据，或者需要从同一个表中先计算得出一个数据结果，然后与这个数据结果（可能是某个标量，也可能是某个集合）进行比较。

我今天讲解了子查询的使用，其中讲到了EXISTS和IN子查询效率的比较，当查询字段进行了索引时，主表A大于从表B，使用IN子查询效率更高，相反主表A小于从表B时，使用EXISTS子查询效率更高，同样，如果使用NOT IN子查询和NOT EXISTS子查询，在什么情况下，哪个效率更高呢？

最后请你使用子查询，编写SQL语句，得到场均得分大于20的球员。场均得分从player_score表中获取，同时你需要输出球员的ID、球员姓名以及所在球队的ID信息。

欢迎在评论区写下你的思考，也欢迎点击请朋友读把这篇文章分享给你的朋友或者同事。

精选留言

看，有只猪

2019-07-01 11:50:55

IN表是外边和内表进行hash连接，是先执行子查询。
EXISTS是对外表进行循环，然后在内表进行查询。
因此如果外表数据量大，则用IN，如果外表数据量小，也用EXISTS。
IN有一个缺陷是不能判断NULL，因此如果字段存在NULL值，则会出现返回，因为最好使用NOT EXISTS。

作者回复

总结的不错

2020-04-27 21:08:56
humor

2019-07-03 11:11:28

exist和in的区别这一块，感觉没有讲清楚呀，我听下来还是不太明白哪种情况应该用in，哪种情况应该用exists。选择的标准是看能否使用表的索引吗？

作者回复

索引是个前提，其实和选择与否还是要看表的大小。选择的标准，你可以理解为：小表驱动大表。这种方式下效率是最高的。比如
SELECT * FROM A WHERE cc IN (SELECT cc FROM B)
SELECT * FROM A WHERE EXIST (SELECT cc FROM B WHERE B.cc=A.cc)
当A小于B时，用EXIST。因为EXIST的实现，相当于外表循环，实现的逻辑类似于：
for i in A
for j in B
if j.cc == i.cc then ...

当B小于A时，用IN，因为实现的逻辑类似于：
for i in B
for j in A
if j.cc == i.cc then ...
所以哪个表小就用哪个表来驱动，A表小就用EXIST，B表小就用IN

2019-07-04 11:40:43
Sam

2019-07-01 15:24:10

not in是先执行子查询，得到一个结果集，将结果集代入外层谓词条件执行主查询，子查询只需要执行一次；
not exists是先从主查询中取得一条数据，再代入到子查询中，执行一次子查询，判断子查询是否能返回结果，主查询有多少条数据，子查询就要执行多少次。

作者回复

总结的不错

2020-04-27 20:54:30
hsj

2019-09-29 22:21:10

SELECT * FROM A WHERE cc IN (SELECT cc FROM B)
SELECT * FROM A WHERE EXIST (SELECT cc FROM B WHERE B.cc=A.cc)
A 表有 n 条数据，B 表有 m 条数据
两条语句的执行效率（假设都用 btree 索引）
用 in ：m * log (n)
用 exists： n * log (m)
所以小表驱动大表能够大幅度提高执行速度

作者回复

总结的不错！

2019-12-28 21:50:49
Hero

2019-07-01 13:58:37

1. SELECT
player_id,
team_id,
player_name
FROM
player a
WHERE
EXISTS ( SELECT b.player_id FROM player_score b GROUP BY b.player_id HAVING AVG( b.score ) > 20 and a.player_id = b.player_id);
2.SELECT
player_id,
team_id,
player_name
FROM
player a
WHERE
EXISTS ( SELECT b.player_id FROM player_score b WHERE a.player_id = b.player_id GROUP BY b.player_id HAVING AVG( b.score ) > 20);
3.SELECT
player_id,
team_id,
player_name
FROM
player
WHERE
player_id IN ( SELECT player_id FROM player_score GROUP BY player_id HAVING AVG( score ) > 20 );
推荐3，因为子查询只会执行一次。2比1好，因为where会先过滤数据行，然后分组，然后对分组过滤。

作者回复

Good Job 总结的不错

2019-12-29 15:48:37
Serendipity

2019-09-01 12:48:19

我怎么感觉简单的地方讲的比较多，难的地方一笔带过了？看的好懵逼。

作者回复

后面有些内容是和SQL优化相关的，前面相对基础

2019-12-28 22:04:08
Chuan

2019-11-01 00:06:13

老师，听完这节课，有几个问题，烦请解惑：
1. in和子查询结合使用时，子查询中列的索引是否能使用？exist子查询呢？
2. 如果针对某个字段（列）添加索引，那么在查询这个字段及内容时，时间复杂度是否从O(n)变为O(1)或者O(logn)？
3. 回复中，您关于in和exist的解释，还是有点不理解。查询资料说：两者除了驱动关系不同，in会缓存结果，但是没法使用索引；而exist不会缓存结果，每次会查数据库，但是不关心内容，只关心是否存在行记录。不知道您看法如何？
4. 您回复中，两个都是两层for循环，使得读者理解起来很困难。我觉得是不是可以这么理解：
in的子查询中不能使用索引，在获得结果时耗时较久，接近O(n)，所以适合内表小的场景，因为外表大但可以使用索引；exist子查询可以使用索引，同时外表都需要全遍历，所以适合内表大的场景。不过这个理解好像建立在问题1，2的答案之上。

感觉读者中不理解的蛮多的，网上资料基本上也说得不清不楚，望老师解惑。

作者回复

IN子查询，是从表计算出来作为已知值，而EXISTS子查询是主表作为已知值传递给从表。
基于小表驱动大表的原则，主表A小就用EXIST，从表B表小就用IN
这里主要看能否用到索引，假设主表A有n条数据，从表B有m条数据，表A和表B中的查询字段采用B+树进行索引，那么两个子查询的执行效率：
使用 in ：log (n) * m
使用 exists： n * log (m)
对于IN子查询，计算出来的结果作为已知值，就可以使得表A（n条数据）可以使用到索引，从而提升检索效率
对于EXISTS子查询，外表A作为已知值，传递给从表，可以利用从表B（m条数据）中的索引，从而提升检索效率。
（说明log 代表以2为底的对数，即B+树的深度）

2020-04-28 10:04:52
OperaX

2019-07-07 15:40:26

SELECT
t1.player_id,
t1.player_name,
t1.team_id
FROM
player t1
WHERE
t1.player_id IN (
SELECT
t2.player_id
FROM
player_score t2
GROUP BY
t2.player_id
HAVING
( AVG( t2.score ) > 20 )
)

作者回复

正确，而且SQL代码结构清晰

2019-07-08 07:11:29
Goal

2019-07-01 22:14:38

# 使用exists
SELECT player_name,player_id,team_id from player WHERE EXISTS (SELECT player_id FROM player_score WHERE player.player_id = player_score.player_id and score >20)

# 使用 in
SELECT player_name,player_id,team_id from player WHERE player_id IN (SELECT player_id FROM player_score WHERE score >20)

使用：join 语句
SELECT p.player_name,p.player_id,p.team_id,t.score from player AS p JOIN player_score as t WHERE p.player_id = t.player_id and t.score >20
小星星

2019-07-09 13:29:12

SELECT player_name, height, team_id FROM player AS a
WHERE height > (SELECT avg(height) FROM player AS b WHERE a.team_id = b.team_id);

SELECT player_name, height, team_id FROM player WHERE height > (SELECT avg(height) FROM player as b);
这两句执行的结果一样的；请问为什么需要加上a.team_id = b.team_id 有什么区别吗？

作者回复

第一个SQL 18条记录
第二个SQL 19条记录

2019-12-28 19:00:26
佚花

2019-07-01 09:12:02

这么说吧，我在银行遇到过两张表1700w的表，我要对比他们的差值。用in没查出来，就是查很久还报错了，用了exsit用了40s
一张1700w，一张100个值，in是一分钟，exsit是0.1s

作者回复

佚花同学很好的分享

2019-12-29 15:51:33
OperaX

2019-07-07 15:19:43

实际工作中没用到果any all。什么样的情况下会可能用到呢？老师举的例子的话，直接比较最大值或者最小值就好了吧

作者回复

any all 通常是可以比较最大值或者最小值，两种不同的写法

2020-04-27 21:55:39
华夏

2019-07-01 16:49:26

SELECT player_id, team_id, player_name FROM player WHERE player_id in (SELECT player_id FROM player_score WHERE player.player_id = player_score.player_id);
老师，文稿中这句的WHERE player.player_id = player_score.player_id可以不要了哈。
Liam

2019-07-01 08:22:10

老师您好，关于exist和in的差别，总结和举例的不符吧？主表大于从表不应该是使用in更好吗

作者回复

当主表A大于从表B时，是使用IN子查询更好

2020-04-27 21:01:56
Mr.H

2019-07-01 08:18:00

最后的总结in和exist写反了吧

作者回复

当主表A大于从表B时，使用IN子查询效率更高，相反主表A小于从表B时，使用EXISTS子查询效率更高

2020-04-27 21:02:42
张驰皓

2019-12-21 10:51:06

SELECT player_id, team_id, player_name
FROM player
WHERE player_id in (SELECT player_id FROM player_score WHERE player.player_id = player_score.player_id)

这段代码里，子查询里 where 部分删去后运行结果与此前一致，是否说明此 where 语句是无意义的？

作者回复

是因为这些player在player_score中都有记录，player这张表的数据量有些少，如果数据量大的话，没有在player_score（即没有打过比赛的球员）是不会显示出来的

2019-12-23 11:28:50
wang

2019-07-02 10:03:41

老师，讲道理，关于any 和 all 的例子应该可以变成
select player_name, team_id, player_id, height from player where height > (select min(height) from player where team_id = 1002) ==> 与any结果一致
select player_name, team_id, player_id, height from player where height > (select max(height) from player where team_id = 1002) ==> 与all 结果一致
那么是否说关于any 和 all 这种极限值集合的查询可以将关联查询变成非关联查询呢？效率会比较高？

作者回复

这种情况下是OK，将any和all转化为非关联子查询

2020-04-28 10:49:27
峻铭

2019-09-03 01:30:52

前提条件：
1、我理解的场均得分大于20，第一场得了40分，第二场得了2分，场均为21分满足条件
2、一场比赛中，球员可以出现多次
解析思路，先得出球员在每场比赛中的总分数，然后对球员分组，计算球员在所参加比赛中的平均数
SELECT
t2.player_id,
t2.player_name,
t2.team_id,
t3.v
FROM
player AS t2
JOIN (
SELECT
t1.player_id,
avg( t1.total ) AS v
FROM
(
SELECT
player_id,
sum( score ) AS total
FROM
player_score
WHERE
game_id IN ( SELECT game_id FROM player_score GROUP BY game_id )
GROUP BY
player_id #对球员分组，计算在每场比赛中的总分数
) AS t1
GROUP BY
t1.player_id #对球员分组，计算所参加比赛的平均数
HAVING
v > 20 #场均得分大于20
) AS t3 ON t2.player_id = t3.player_id;

+-----------+------------------+---------+---------+
| player_id | player_name | team_id | v |
+-----------+------------------+---------+---------+
| 10001 | 韦恩-艾灵顿 | 1001 | 26.0000 |
| 10002 | 雷吉-杰克逊 | 1001 | 22.0000 |
+-----------+------------------+---------+---------+

作者回复

整理和分析的不错

2019-12-23 15:47:44
华夏

2019-07-01 16:45:07

SELECT player_id, player_name, team_id FROM player AS a WHERE (SELECT score FROM player_score AS b WHERE a.player_id = b.player_id) > 20;
+-----------+------------------+---------+
| player_id | player_name | team_id |
+-----------+------------------+---------+
| 10001 | 韦恩-艾灵顿 | 1001 |
| 10002 | 雷吉-杰克逊 | 1001 |
+-----------+------------------+---------+
2 rows in set (0.01 sec)

作者回复

需要注意下是场均得分>20

2020-04-27 20:53:53
Cary

2019-07-01 08:10:28

in 和 exist 上面和最后总结的好像不一致