MySQL :: MySQL 9.0 参考手册 :: 10.2.1.4 哈希连接优化

版本 9.0

8.4 当前
8.0

8.0 日语

MySQL 9.0 参考手册 / ... / 哈希连接优化

10.2.1.4 哈希连接优化

默认情况下，MySQL 尽可能地使用哈希连接。可以通过使用 BNL 和 NO_BNL 优化器提示，或通过设置 block_nested_loop=on 或 block_nested_loop=off 作为 optimizer_switch 服务器系统变量设置的一部分来控制是否使用哈希连接。

MySQL 对任何查询使用哈希连接，只要每个连接都有一个等值连接条件，并且没有可以应用于任何连接条件的索引，例如以下查询

SELECT *
    FROM t1
    JOIN t2
        ON t1.c1=t2.c1;

当存在一个或多个索引可以用于单表谓词时，也可以使用哈希连接。

在刚刚显示的示例和本节中剩余的示例中，我们假设三个表 t1、t2 和 t3 是使用以下语句创建的

CREATE TABLE t1 (c1 INT, c2 INT);
CREATE TABLE t2 (c1 INT, c2 INT);
CREATE TABLE t3 (c1 INT, c2 INT);

您可以通过使用 EXPLAIN 查看是否使用了哈希连接，例如

mysql> EXPLAIN
    -> SELECT * FROM t1
    ->     JOIN t2 ON t1.c1=t2.c1\G
*************************** 1. row ***************************
           id: 1
  select_type: SIMPLE
        table: t1
   partitions: NULL
         type: ALL
possible_keys: NULL
          key: NULL
      key_len: NULL
          ref: NULL
         rows: 1
     filtered: 100.00
        Extra: NULL
*************************** 2. row ***************************
           id: 1
  select_type: SIMPLE
        table: t2
   partitions: NULL
         type: ALL
possible_keys: NULL
          key: NULL
      key_len: NULL
          ref: NULL
         rows: 1
     filtered: 100.00
        Extra: Using where; Using join buffer (hash join)

EXPLAIN ANALYZE 还会显示有关使用过的哈希连接的信息。

哈希连接还用于涉及多个连接的查询，只要每对表的至少一个连接条件是等值连接，例如这里显示的查询

SELECT * FROM t1
    JOIN t2 ON (t1.c1 = t2.c1 AND t1.c2 < t2.c2)
    JOIN t3 ON (t2.c1 = t3.c1);

在像上面显示的这种使用内部连接的例子中，任何不是等值连接的额外条件都在执行连接后作为过滤器应用。（对于外连接，例如左连接、半连接和反连接，它们被打印为连接的一部分。）这可以在 EXPLAIN 的输出中看到

mysql> EXPLAIN FORMAT=TREE
    -> SELECT *
    ->     FROM t1
    ->     JOIN t2
    ->         ON (t1.c1 = t2.c1 AND t1.c2 < t2.c2)
    ->     JOIN t3
    ->         ON (t2.c1 = t3.c1)\G
*************************** 1. row ***************************
EXPLAIN: -> Inner hash join (t3.c1 = t1.c1)  (cost=1.05 rows=1)
    -> Table scan on t3  (cost=0.35 rows=1)
    -> Hash
        -> Filter: (t1.c2 < t2.c2)  (cost=0.70 rows=1)
            -> Inner hash join (t2.c1 = t1.c1)  (cost=0.70 rows=1)
                -> Table scan on t2  (cost=0.35 rows=1)
                -> Hash
                    -> Table scan on t1  (cost=0.35 rows=1)

正如从上面显示的输出中也可以看到，对于具有多个等值连接条件的连接，可以使用（并且确实使用）多个哈希连接。

即使任何一对连接表都没有至少一个等值连接条件，也会使用哈希连接，如这里所示

mysql> EXPLAIN FORMAT=TREE
    -> SELECT * FROM t1
    ->     JOIN t2 ON (t1.c1 = t2.c1)
    ->     JOIN t3 ON (t2.c1 < t3.c1)\G
*************************** 1. row ***************************
EXPLAIN: -> Filter: (t1.c1 < t3.c1)  (cost=1.05 rows=1)
    -> Inner hash join (no condition)  (cost=1.05 rows=1)
        -> Table scan on t3  (cost=0.35 rows=1)
        -> Hash
            -> Inner hash join (t2.c1 = t1.c1)  (cost=0.70 rows=1)
                -> Table scan on t2  (cost=0.35 rows=1)
                -> Hash
                    -> Table scan on t1  (cost=0.35 rows=1)

（本节后面还提供了其他示例。）

哈希连接也适用于笛卡尔积，即没有指定连接条件时，如这里所示

mysql> EXPLAIN FORMAT=TREE
    -> SELECT *
    ->     FROM t1
    ->     JOIN t2
    ->     WHERE t1.c2 > 50\G
*************************** 1. row ***************************
EXPLAIN: -> Inner hash join  (cost=0.70 rows=1)
    -> Table scan on t2  (cost=0.35 rows=1)
    -> Hash
        -> Filter: (t1.c2 > 50)  (cost=0.35 rows=1)
            -> Table scan on t1  (cost=0.35 rows=1)

连接不必包含至少一个等值连接条件才能使用哈希连接。这意味着可以使用哈希连接优化的查询类型包括以下列表中的查询（带示例）

内部非等值连接:

mysql> EXPLAIN FORMAT=TREE SELECT * FROM t1 JOIN t2 ON t1.c1 < t2.c1\G
*************************** 1. row ***************************
EXPLAIN: -> Filter: (t1.c1 < t2.c1)  (cost=4.70 rows=12)
    -> Inner hash join (no condition)  (cost=4.70 rows=12)
        -> Table scan on t2  (cost=0.08 rows=6)
        -> Hash
            -> Table scan on t1  (cost=0.85 rows=6)

半连接:

mysql> EXPLAIN FORMAT=TREE SELECT * FROM t1 
    ->     WHERE t1.c1 IN (SELECT t2.c2 FROM t2)\G
*************************** 1. row ***************************
EXPLAIN: -> Hash semijoin (t2.c2 = t1.c1)  (cost=0.70 rows=1)
    -> Table scan on t1  (cost=0.35 rows=1)
    -> Hash
        -> Table scan on t2  (cost=0.35 rows=1)

反连接:

mysql> EXPLAIN FORMAT=TREE SELECT * FROM t2 
    ->     WHERE NOT EXISTS (SELECT * FROM t1 WHERE t1.c1 = t2.c1)\G
*************************** 1. row ***************************
EXPLAIN: -> Hash antijoin (t1.c1 = t2.c1)  (cost=0.70 rows=1)
    -> Table scan on t2  (cost=0.35 rows=1)
    -> Hash
        -> Table scan on t1  (cost=0.35 rows=1)

1 row in set, 1 warning (0.00 sec)

mysql> SHOW WARNINGS\G
*************************** 1. row ***************************
  Level: Note
   Code: 1276
Message: Field or reference 't3.t2.c1' of SELECT #2 was resolved in SELECT #1

左外连接:

mysql> EXPLAIN FORMAT=TREE SELECT * FROM t1 LEFT JOIN t2 ON t1.c1 = t2.c1\G
*************************** 1. row ***************************
EXPLAIN: -> Left hash join (t2.c1 = t1.c1)  (cost=0.70 rows=1)
    -> Table scan on t1  (cost=0.35 rows=1)
    -> Hash
        -> Table scan on t2  (cost=0.35 rows=1)

右外连接（注意，MySQL 将所有右外连接重写为左外连接）

mysql> EXPLAIN FORMAT=TREE SELECT * FROM t1 RIGHT JOIN t2 ON t1.c1 = t2.c1\G
*************************** 1. row ***************************
EXPLAIN: -> Left hash join (t1.c1 = t2.c1)  (cost=0.70 rows=1)
    -> Table scan on t2  (cost=0.35 rows=1)
    -> Hash
        -> Table scan on t1  (cost=0.35 rows=1)

默认情况下，MySQL 尽可能地使用哈希连接。可以使用 BNL 和 NO_BNL 优化器提示来控制是否使用哈希连接。

哈希连接的内存使用可以通过 join_buffer_size 系统变量控制；哈希连接不能使用超过此值的内存。当哈希连接所需的内存超过可用内存时，MySQL 通过使用磁盘上的文件来处理这种情况。如果发生这种情况，请注意，如果哈希连接无法放入内存并且它创建的文件超过了 open_files_limit 设置的值，则连接可能无法成功。为了避免此类问题，请执行以下任一更改

增加 join_buffer_size，以使哈希连接不溢出到磁盘。
增加 open_files_limit。

哈希连接的连接缓冲区是增量分配的；因此，您可以设置更高的 join_buffer_size，而不会导致小型查询分配大量的 RAM，但是外连接会分配整个缓冲区。哈希连接也用于外连接（包括反连接和半连接），因此这不再是问题。