MySQL :: MySQL 9.0 参考手册 :: 14.20.1 窗口函数说明

版本 9.0

8.4 当前
8.0

8.0 日语

MySQL 9.0 参考手册 / ... / 窗口函数说明

14.20.1 窗口函数说明

本节介绍非聚合窗口函数，这些函数针对查询中的每一行，使用与该行相关的行执行计算。大多数聚合函数也可以用作窗口函数；请参阅第 14.19.1 节，“聚合函数说明”。

有关窗口函数的使用信息和示例，以及诸如 OVER 子句、窗口、分区、框架和对等项等术语的定义，请参阅第 14.20.2 节，“窗口函数概念和语法”。

表 14.30 窗口函数

名称	说明
`CUME_DIST()`	累积分布值
`DENSE_RANK()`	当前行在其分区内的排名，无间隔
`FIRST_VALUE()`	窗口框架第一行中参数的值
`LAG()`	分区内滞后于当前行的行的参数值
`LAST_VALUE()`	窗口框架最后一行中参数的值
`LEAD()`	分区内领先于当前行的行的参数值
`NTH_VALUE()`	窗口框架第 N 行中参数的值
`NTILE()`	当前行在其分区内的桶号。
`PERCENT_RANK()`	百分比排名值
`RANK()`	当前行在其分区内的排名，有间隔
`ROW_NUMBER()`	当前行在其分区内的编号

在以下函数说明中，over_clause 表示 OVER 子句，如第 14.20.2 节，“窗口函数概念和语法” 中所述。某些窗口函数允许使用 null_treatment 子句，该子句指定在计算结果时如何处理 NULL 值。此子句是可选的。它是 SQL 标准的一部分，但 MySQL 实现仅允许 RESPECT NULLS（这也是默认值）。这意味着在计算结果时会考虑 NULL 值。将解析 IGNORE NULLS，但会产生错误。

CUME_DIST() over_clause

返回一组值中某个值的累积分布；也就是说，分区值中小于或等于当前行中值的百分比。这表示窗口分区中位于当前行之前或与其对等的行的数量除以窗口分区中的行总数。返回值的范围从 0 到 1。

此函数应与 ORDER BY 一起使用，以便按所需顺序对分区行进行排序。如果没有 ORDER BY，则所有行都是对等的，并且值都为 N/N = 1，其中 N 是分区大小。

over_clause 如第 14.20.2 节，“窗口函数概念和语法” 中所述。

以下查询显示了 val 列中的一组值，每行的 CUME_DIST() 值，以及类似的 PERCENT_RANK() 函数返回的百分比排名值。作为参考，查询还使用 ROW_NUMBER() 显示行号

mysql> SELECT
         val,
         ROW_NUMBER()   OVER w AS 'row_number',
         CUME_DIST()    OVER w AS 'cume_dist',
         PERCENT_RANK() OVER w AS 'percent_rank'
       FROM numbers
       WINDOW w AS (ORDER BY val);
+------+------------+--------------------+--------------+
| val  | row_number | cume_dist          | percent_rank |
+------+------------+--------------------+--------------+
|    1 |          1 | 0.2222222222222222 |            0 |
|    1 |          2 | 0.2222222222222222 |            0 |
|    2 |          3 | 0.3333333333333333 |         0.25 |
|    3 |          4 | 0.6666666666666666 |        0.375 |
|    3 |          5 | 0.6666666666666666 |        0.375 |
|    3 |          6 | 0.6666666666666666 |        0.375 |
|    4 |          7 | 0.8888888888888888 |         0.75 |
|    4 |          8 | 0.8888888888888888 |         0.75 |
|    5 |          9 |                  1 |            1 |
+------+------------+--------------------+--------------+

DENSE_RANK() over_clause
返回当前行在其分区内的排名，无间隔。对等项被视为并列，并接收相同的排名。此函数为对等组分配连续的排名；结果是大小大于 1 的组不会产生非连续的排名号。有关示例，请参阅 RANK() 函数说明。
此函数应与 ORDER BY 一起使用，以便按所需顺序对分区行进行排序。如果没有 ORDER BY，则所有行都是对等的。
over_clause 如第 14.20.2 节，“窗口函数概念和语法” 中所述。

FIRST_VALUE(expr) [null_treatment] over_clause

返回窗口框架第一行中 expr 的值。

over_clause 如第 14.20.2 节，“窗口函数概念和语法” 中所述。 null_treatment 如本节简介中所述。

以下查询演示了 FIRST_VALUE()、LAST_VALUE() 和两个 NTH_VALUE() 实例

mysql> SELECT
         time, subject, val,
         FIRST_VALUE(val)  OVER w AS 'first',
         LAST_VALUE(val)   OVER w AS 'last',
         NTH_VALUE(val, 2) OVER w AS 'second',
         NTH_VALUE(val, 4) OVER w AS 'fourth'
       FROM observations
       WINDOW w AS (PARTITION BY subject ORDER BY time
                    ROWS UNBOUNDED PRECEDING);
+----------+---------+------+-------+------+--------+--------+
| time     | subject | val  | first | last | second | fourth |
+----------+---------+------+-------+------+--------+--------+
| 07:00:00 | st113   |   10 |    10 |   10 |   NULL |   NULL |
| 07:15:00 | st113   |    9 |    10 |    9 |      9 |   NULL |
| 07:30:00 | st113   |   25 |    10 |   25 |      9 |   NULL |
| 07:45:00 | st113   |   20 |    10 |   20 |      9 |     20 |
| 07:00:00 | xh458   |    0 |     0 |    0 |   NULL |   NULL |
| 07:15:00 | xh458   |   10 |     0 |   10 |     10 |   NULL |
| 07:30:00 | xh458   |    5 |     0 |    5 |     10 |   NULL |
| 07:45:00 | xh458   |   30 |     0 |   30 |     10 |     30 |
| 08:00:00 | xh458   |   25 |     0 |   25 |     10 |     30 |
+----------+---------+------+-------+------+--------+--------+

每个函数都使用当前框架中的行，根据所示的窗口定义，该框架从第一个分区行扩展到当前行。对于 NTH_VALUE() 调用，当前框架并不总是包含请求的行；在这种情况下，返回值为 NULL。

LAG(expr [, N[, default]]) [null_treatment] over_clause
返回 expr 的值，该值来自按分区在其分区内比当前行滞后（在前面）N 行的行。如果没有这样的行，则返回值为 default。例如，如果 N 为 3，则前三行的返回值为 default。如果缺少 N 或 default，则默认值分别为 1 和 NULL。
N 必须是非负整型字面量。如果 N 为 0，则对当前行计算 expr。
N 不能为 NULL，并且必须是 0 到 2⁶³（含）范围内的整数，可以采用以下任何形式
- 无符号整型常量字面量
- 位置参数标记 (?)
- 用户定义变量
- 存储例程中的局部变量
over_clause 如第 14.20.2 节，“窗口函数概念和语法” 中所述。 null_treatment 如本节简介中所述。
LAG()（以及类似的 LEAD() 函数）通常用于计算行之间的差异。以下查询显示了一组按时间排序的观察值，并针对每个观察值显示了相邻行的 LAG() 和 LEAD() 值，以及当前行与相邻行之间的差异
```
mysql> SELECT
         t, val,
         LAG(val)        OVER w AS 'lag',
         LEAD(val)       OVER w AS 'lead',
         val - LAG(val)  OVER w AS 'lag diff',
         val - LEAD(val) OVER w AS 'lead diff'
       FROM series
       WINDOW w AS (ORDER BY t);
+----------+------+------+------+----------+-----------+
| t        | val  | lag  | lead | lag diff | lead diff |
+----------+------+------+------+----------+-----------+
| 12:00:00 |  100 | NULL |  125 |     NULL |       -25 |
| 13:00:00 |  125 |  100 |  132 |       25 |        -7 |
| 14:00:00 |  132 |  125 |  145 |        7 |       -13 |
| 15:00:00 |  145 |  132 |  140 |       13 |         5 |
| 16:00:00 |  140 |  145 |  150 |       -5 |       -10 |
| 17:00:00 |  150 |  140 |  200 |       10 |       -50 |
| 18:00:00 |  200 |  150 | NULL |       50 |      NULL |
+----------+------+------+------+----------+-----------+
```
在本例中，LAG() 和 LEAD() 调用使用默认的 N 和 default 值，分别为 1 和 NULL。
第一行显示了当 LAG() 没有上一行时会发生什么：该函数返回 default 值（在本例中为 NULL）。最后一行显示了当 LEAD() 没有下一行时会发生什么。
LAG() 和 LEAD() 还用于计算总和而不是差异。请考虑此数据集，其中包含斐波那契数列的前几个数字
```
mysql> SELECT n FROM fib ORDER BY n;
+------+
| n    |
+------+
|    1 |
|    1 |
|    2 |
|    3 |
|    5 |
|    8 |
+------+
```
以下查询显示了与当前行相邻的行的 LAG() 和 LEAD() 值。它还使用这些函数将前面和后面的行的值添加到当前行的值中。其效果是生成斐波那契数列中的下一个数字，以及之后的下一个数字
```
mysql> SELECT
         n,
         LAG(n, 1, 0)      OVER w AS 'lag',
         LEAD(n, 1, 0)     OVER w AS 'lead',
         n + LAG(n, 1, 0)  OVER w AS 'next_n',
         n + LEAD(n, 1, 0) OVER w AS 'next_next_n'
       FROM fib
       WINDOW w AS (ORDER BY n);
+------+------+------+--------+-------------+
| n    | lag  | lead | next_n | next_next_n |
+------+------+------+--------+-------------+
|    1 |    0 |    1 |      1 |           2 |
|    1 |    1 |    2 |      2 |           3 |
|    2 |    1 |    3 |      3 |           5 |
|    3 |    2 |    5 |      5 |           8 |
|    5 |    3 |    8 |      8 |          13 |
|    8 |    5 |    0 |     13 |           8 |
+------+------+------+--------+-------------+
```
生成初始斐波那契数列集的一种方法是使用递归公用表表达式。有关示例，请参见 Fibonacci Series Generation。
不能对此函数的 rows 参数使用负值。
LAST_VALUE(expr) [null_treatment] over_clause
返回窗口框架最后一行中 expr 的值。
over_clause 如第 14.20.2 节，“窗口函数概念和语法” 中所述。 null_treatment 如本节简介中所述。
有关示例，请参见 FIRST_VALUE() 函数说明。
LEAD(expr [, N[, default]]) [null_treatment] over_clause
返回 expr 的值，该值来自按分区在其分区内比当前行领先（在后面）N 行的行。如果没有这样的行，则返回值为 default。例如，如果 N 为 3，则最后三行的返回值为 default。如果缺少 N 或 default，则默认值分别为 1 和 NULL。
N 必须是非负整型字面量。如果 N 为 0，则对当前行计算 expr。
N 不能为 NULL，并且必须是 0 到 2⁶³（含）范围内的整数，可以采用以下任何形式
- 无符号整型常量字面量
- 位置参数标记 (?)
- 用户定义变量
- 存储例程中的局部变量
over_clause 如第 14.20.2 节，“窗口函数概念和语法” 中所述。 null_treatment 如本节简介中所述。
有关示例，请参见 LAG() 函数说明。
不允许对此函数的 rows 参数使用负值。
NTH_VALUE(expr, N) [from_first_last] [null_treatment] over_clause
返回窗口框架第 N 行中 expr 的值。如果没有这样的行，则返回值为 NULL。
N 必须是正整型字面量。
from_first_last 是 SQL 标准的一部分，但 MySQL 实现仅允许使用 FROM FIRST（这也是默认值）。这意味着计算从窗口的第一行开始。FROM LAST 会被解析，但会产生错误。要获得与 FROM LAST 相同的效果（从窗口的最后一行开始计算），请使用 ORDER BY 按相反顺序排序。
over_clause 如第 14.20.2 节，“窗口函数概念和语法” 中所述。 null_treatment 如本节简介中所述。
有关示例，请参见 FIRST_VALUE() 函数说明。
不能对此函数的 row 参数使用 NULL。
NTILE(N) over_clause
将一个分区划分为 N 个组（桶），为分区中的每一行分配其桶号，并返回当前行在其分区内的桶号。例如，如果 N 为 4，则 NTILE() 会将行划分为四个桶。如果 N 为 100，则 NTILE() 会将行划分为 100 个桶。
N 必须是正整型字面量。桶号返回值的范围为 1 到 N。
N 不能为 NULL，并且必须是 0 到 2⁶³（含）范围内的整数，可以采用以下任何形式
- 无符号整型常量字面量
- 位置参数标记 (?)
- 用户定义变量
- 存储例程中的局部变量
此函数应与 ORDER BY 一起使用，以按所需顺序对分区行进行排序。
over_clause 如第 14.20.2 节，“窗口函数概念和语法” 中所述。
以下查询显示了 val 列中的一组值，以及将行划分为两个或四个组后得到的百分比值。作为参考，该查询还使用 ROW_NUMBER() 显示行号
```
mysql> SELECT
         val,
         ROW_NUMBER() OVER w AS 'row_number',
         NTILE(2)     OVER w AS 'ntile2',
         NTILE(4)     OVER w AS 'ntile4'
       FROM numbers
       WINDOW w AS (ORDER BY val);
+------+------------+--------+--------+
| val  | row_number | ntile2 | ntile4 |
+------+------------+--------+--------+
|    1 |          1 |      1 |      1 |
|    1 |          2 |      1 |      1 |
|    2 |          3 |      1 |      1 |
|    3 |          4 |      1 |      2 |
|    3 |          5 |      1 |      2 |
|    3 |          6 |      2 |      3 |
|    4 |          7 |      2 |      3 |
|    4 |          8 |      2 |      4 |
|    5 |          9 |      2 |      4 |
+------+------------+--------+--------+
```
不允许使用 NTILE(NULL) 结构。
PERCENT_RANK() over_clause
返回分区值中小于当前行中值的百分比，不包括最大值。返回值的范围为 0 到 1，表示行的相对排名，按以下公式计算得出，其中 rank 是行排名，rows 是分区行数
```
(rank - 1) / (rows - 1)
```
此函数应与 ORDER BY 一起使用，以便按所需顺序对分区行进行排序。如果没有 ORDER BY，则所有行都是对等的。
over_clause 如第 14.20.2 节，“窗口函数概念和语法” 中所述。
有关示例，请参见 CUME_DIST() 函数说明。
RANK() over_clause
返回当前行在其分区内的排名，带有间隔。对等项被视为并列，并获得相同的排名。如果存在大小大于 1 的组，则此函数不会为对等组分配连续排名；结果是非连续的排名号。
此函数应与 ORDER BY 一起使用，以便按所需顺序对分区行进行排序。如果没有 ORDER BY，则所有行都是对等的。
over_clause 如第 14.20.2 节，“窗口函数概念和语法” 中所述。
以下查询显示了 RANK()（生成带有间隔的排名）和 DENSE_RANK()（生成没有间隔的排名）之间的区别。该查询显示了 val 列中一组值中每个成员的排名值，该列包含一些重复值。RANK() 为对等项（重复值）分配相同的排名值，而下一个更大的值的排名则高于对等项数量减一。DENSE_RANK() 也为对等项分配相同的排名值，但下一个更大的值的排名则大一。作为参考，该查询还使用 ROW_NUMBER() 显示行号
```
mysql> SELECT
         val,
         ROW_NUMBER() OVER w AS 'row_number',
         RANK()       OVER w AS 'rank',
         DENSE_RANK() OVER w AS 'dense_rank'
       FROM numbers
       WINDOW w AS (ORDER BY val);
+------+------------+------+------------+
| val  | row_number | rank | dense_rank |
+------+------------+------+------------+
|    1 |          1 |    1 |          1 |
|    1 |          2 |    1 |          1 |
|    2 |          3 |    3 |          2 |
|    3 |          4 |    4 |          3 |
|    3 |          5 |    4 |          3 |
|    3 |          6 |    4 |          3 |
|    4 |          7 |    7 |          4 |
|    4 |          8 |    7 |          4 |
|    5 |          9 |    9 |          5 |
+------+------------+------+------------+
```
ROW_NUMBER() over_clause
返回当前行在其分区内的行号。行号的范围为 1 到分区行数。
ORDER BY 会影响行编号的顺序。如果没有 ORDER BY，则行编号是不确定的。
ROW_NUMBER() 为对等项分配不同的行号。要为对等项分配相同的值，请使用 RANK() 或 DENSE_RANK()。有关示例，请参见 RANK() 函数说明。
over_clause 如第 14.20.2 节，“窗口函数概念和语法” 中所述。