MySQL左连接慢？优化技巧-中关村在线

优化MySQL左连接慢的方法包括添加索引、减少数据量、优化查询条件。

1、今天遇到了一个关于 left join 的性能优化问题，花费了整个下午的时间进行排查和调整。在此过程中查阅了大量相关资料，对 MySQL 的执行计划生成机制以及查询优化策略有了更加深入的理解。现将此次优化过程简要记录如下：需要从原始酒店信息表中筛选出未被收录的数据，原语句采用左连接方式，关联条件为酒店类型和酒店编号一致，再通过 where 子句过滤出右表主键为空的记录。该查询在数据量较大时响应缓慢，经过分析执行计划发现，连接操作未有效利用索引，导致全表扫描频繁发生。随后通过对关联字段建立复合索引，并调整查询结构，显著提升了执行效率。此外，还注意到 null 值判断在连接操作中的影响，进一步优化了索引设计与查询条件顺序，使整体性能得到明显改善。这次实践加深了对数据库查询优化细节的认识。

2、该SQL旨在找出c表中存在而h表中不存在的记录，因此采用left join，利用其保留左表全部数据、右表无匹配时字段为空的特性实现目标。然而实际执行速度极慢。为分析原因，首先查看其执行计划以定位性能瓶颈。

3、 rows表示当前步骤相对于前一步结果每行需扫描的数据量，该SQL的扫描总量高达35773乘以8134，数值极为庞大。实际上，表c与表h的数据量分别超过四万和一万条，如此巨大的扫描量接近于对两表执行全量笛卡尔积操作（即select * from c,h）所带来的计算开销，效率极低，资源消耗巨大。

4、我在网上查阅了MySQL实现连接操作的原理，发现其内部采用了一种名为嵌套循环连接（Nested Loop Join）的算法。这种算法的基本思路是：将驱动表的查询结果作为外层循环的基础数据集，逐条取出其中的记录，并将其作为过滤条件去关联的下一个表中查找匹配的数据，随后将结果进行合并。如果有第三张表参与连接，则以前两张表连接后的结果集作为新的循环基础，继续对第三张表进行逐行匹配查询，依此类推。整个过程类似于多重嵌套循环，逻辑清晰且易于理解。正因如此，驱动表的选择尤为关键——若驱动表的数据量较小，后续的关联查询所涉及的扫描次数将大幅减少，从而显著提升整体查询效率。因此，在编写多表连接语句时，合理选择驱动表对于优化性能具有重要意义。

5、为何通常情况下join的执行效率明显高于left join？许多人对此仅是随口附和，并不清楚背后的原理。经过下午的思考，我有了一些体会。在多数联合查询场景中，参与的两张表往往存在大小之分。使用inner join时，若无额外筛选条件，MySQL倾向于选择数据量较小的表作为驱动表，从而提升查询效率。而left join通常用于以大表为主表关联小表，其语义要求保留左表所有记录，导致数据库常将大表作为驱动表进行扫描。这样一来，需要处理的数据量显著增加，执行效率自然下降。若能调整SQL写法，优化驱动表的选择，性能往往能得到改善。

6、查询方案如下：

7、通过查阅MySQL官方参考手册，我对这一问题有了更深入的认识。在执行JOIN操作时，MySQL会将连接类型划分为system、const、eq_ref、ref、range、index和ALL等多种级别，其查询效率从左到右依次降低。在我的第一条SQL语句中，连接类型显示为index，这意味着系统进行了接近全表扫描的操作，性能相对较低。然而，这让我感到困惑，因为我已在hotel_id与hotel_type这两列上建立了唯一索引（unique key），按照官方文档的说明，这种情况下连接类型应当是高效的eq_ref才对。正常来说，唯一索引应能确保通过索引精确匹配单条记录，从而触发eq_ref类型。但实际执行却未达到预期效果，表明可能在索引使用、查询条件或表结构设计方面存在问题，导致优化器未能正确利用唯一索引进行高效连接。

8、这个问题已经困扰我整整两天，在Google和Stack Overflow上始终找不到相关的解答，一度让我怀疑它是否真的无解。然而，我并未放弃，今天再次仔细查阅了MySQL官方文档中关于查询优化的部分。在阅读过程中，我注意到这样一句话：当多个列的类型和尺寸完全相同时，MySQL能够更高效地利用索引进行操作。这句话让我豁然开朗，意识到问题可能出在字段定义的不一致上。于是，我立即检查了original表和collection表中的(hotel_type, hotel_id)字段，发现它们的字符集编码（encoding）和排序规则（collation）并不统一。随后，我将这两张表对应字段的编码和校对规则全部调整为utf8_general_ci，确保完全一致。完成修改后，我重新执行了最初的SQL语句，并查看其执行计划。结果令人欣喜：查询性能明显提升，执行计划也发生了积极变化，说明索引现在已被有效使用。这一调整验证了我的推测，也终于解决了这个长期存在的性能问题。

9、连接类型已从index优化至ref，若将hotel_type设为非空，可进一步提升至eq_ref，但整体影响较小。优化后该SQL执行时间可控制在0.01毫秒内，性能表现优异，响应速度极快，满足高并发场景下的高效查询需求。

10、如何高效优化left join操作

11、尽量在查询条件中过滤出更少的记录，使驱动表数据量变小，以小表驱动大表提升效率。右表用于关联的字段必须建立索引，如主键、唯一索引或前缀索引，最好能让执行计划中的type达到range级别以上，例如ref、eq_ref或const。若无法满足前述优化原则，应避免使用left join，因其容易引发性能问题，影响查询效率，特别是在数据量较大时更需谨慎对待连接方式的选择。