如何兼容 MySQL + ES + MongoDB 实现上亿数据的深度分页?

如何兼容 MySQL + ES + MongoDB 实现上亿数据的深度分页?

面试题 & 真实经历

大家在面试时,或者准备面试中可能会遇到上述的问题,大多的回答基本上是分库分表建索引,这是一种很标准的正确回答,但现实总是很骨感,所以面试官一般会追问你一句,现在工期不足,人员不足,该怎么实现深度分页?

这个时候没有实际经验的同学基本麻爪,So,请听我娓娓道来。

惨痛的教训

首先必须明确一点:深度分页可以做,但是<font color="red">深度随机跳页绝对需要禁止。</font>

上一张图:

Snipaste_2020-07-27_17-11-45.png

你们猜,我点一下第142360页,服务会不会爆炸?

MySQL,MongoDB数据库还好,本身就是专业的数据库,处理的不好,最多就是慢,但如果涉及到ES,性质就不一样了,我们不得不利用 SearchAfter Api,去循环获取数据,这就牵扯到内存占用的问题,如果当时代码写的不优雅,直接就可能导致内存溢出。

为什么不能允许随机深度跳页

从技术的角度浅显的聊一聊为什么不能允许随机深度跳页,或者说为什么不建议深度分页

MySQL

分页的基本原理:

SELECT * FROM test ORDER BY id DESC LIMIT 10000, 20;

LIMIT 10000 , 20的意思扫描满足条件的10020行,扔掉前面的10000行,返回最后的20行。如果是LIMIT 1000000 , 100,需要扫描1000100 行,在一个高并发的应用里,每次查询需要扫描超过100W行,不炸才怪。

MongoDB

分页的基本原理:

db.t_data.find().limit(5).skip(5);

同样的,随着页码的增大,skip 跳过的条目也会随之变大,而这个操作是通过 cursor 的迭代器来实现的,对于cpu的消耗会非常明显,当页码非常大时且频繁时,必然爆炸。

ElasticSearch

从业务的角度来说,ElasticSearch不是典型的数据库,它是一个搜索引擎,如果在筛选条件下没有搜索出想要的数据,继续深度分页也不会找到想要的数据,退一步讲,假如我们把ES作为数据库来使用进行查询,在进行分页的时候一定会遇到max_result_window 的限制,看到没,官方都告诉你最大偏移量限制是一万。

查询流程:

  • 如查询第501页,每页10条,客户端发送请求到某节点

  • 此节点将数据广播到各个分片,各分片各自查询前 5010 条数据

  • 查询结果返回至该节点,然后对数据进行整合,取出前 5010 条数据

  • 返回给客户端

由此可以看出为什么要限制偏移量,另外,如果使用 Search After 这种滚动式API进行深度跳页查询,也是一样需要每次滚动几千条,可能一共需要滚动上百万,千万条数据,就为了最后的20条数据,效率可想而知。

再次和产品对线

俗话说的好,技术解决不了的问题,就由业务来解决!

在实习的时候信了产品的邪,必须实现深度分页 + 跳页,如今必须拨乱反正,业务上必须有如下更改:

尽可能的增加默认的筛选条件,如:时间周期,目的是为了减少数据量的展示

修改跳页的展现方式,改为滚动显示,或小范围跳页

滚动显示参考图:

Snipaste_2020-07-27_17-13-49.png

小规模跳页参考图:

Snipaste_2020-07-27_17-13-59.png

通用解决方案

短时间内快速解决的方案主要是以下几点:

  • 必备:对排序字段,筛选条件务必设置好索引

  • 核心:利用小范围页码的已知数据,或者滚动加载的已知数据,减少偏移量

  • 额外:如果遇到不好处理的情况,也可以获取多余的数据,进行一定的截取,性能影响并不大

MySQL

原分页SQL:

# 第一页
SELECT * FROM `year_score` where `year` = 2017 ORDER BY id limit 0, 20;
# 第N页
SELECT * FROM `year_score` where `year` = 2017 ORDER BY id limit (N - 1) * 20, 20;

通过上下文关系,改写为:

# XXXX 代表已知的数据
SELECT * FROM `year_score` where `year` = 2017 and id > XXXX ORDER BY id limit 20;

在 没内鬼,来点干货!SQL优化和诊断 一文中提到过,LIMIT会在满足条件下停止查询,因此该方案的扫描总量会急剧减少,效率提升Max!

ES

方案和MySQL相同,此时我们就可以随用所欲的使用 FROM-TO Api,而且不用考虑最大限制的问题。

MongoDB

方案基本类似,基本代码如下:

Snipaste_2020-07-27_17-15-20.png

相关性能测试:

Snipaste_2020-07-27_17-15-29.png

如果非要深度随机跳页

如果你没有杠过产品经理,又该怎么办呢,没关系,还有一丝丝的机会。

在 SQL优化 一文中还提到过MySQL深度分页的处理技巧,代码如下:

# 反例(耗时129.570s)
select * from task_result LIMIT 20000000, 10;
# 正例(耗时5.114s)
SELECT a.* FROM task_result a, (select id from task_result LIMIT 20000000, 10) b where a.id = b.id;
# 说明
# task_result表为生产环境的一个表,总数据量为3400万,id为主键,偏移量达到2000万

该方案的核心逻辑即基于聚簇索引,在不通过回表的情况下,快速拿到指定偏移量数据的主键ID,然后利用聚簇索引进行回表查询,此时总量仅为10条,效率很高。

因此我们在处理MySQL,ES,MongoDB时,也可以采用一样的办法:

  • 限制获取的字段,只通过筛选条件,深度分页获取主键ID

  • 通过主键ID定向查询需要的数据

瑕疵:当偏移量非常大时,耗时较长,如文中的 5s

文章来源:https://juejin.im/post/5f0de4d06fb9a07e8a19a641

关于如何兼容 MySQL + ES + MongoDB 实现上亿数据的深度分页?的文章就分享到这,如果对你有帮助欢迎继续关注我们哦

本文来自投稿,不代表重蔚自留地立场,如若转载,请注明出处https://www.cwhello.com/40405.html

如有侵犯您的合法权益请发邮件951076433@qq.com联系删除

(0)
php学习php学习订阅用户
上一篇 2022年6月12日 22:56
下一篇 2022年6月12日 22:57

相关推荐

  • 聊聊MySQL个人信息表代码分享。

    在数据库设计中,个人信息表是最常见的一种数据表,它通常包含用户的基本信息,如姓名、性别、年龄、联系方式等,在MySQL中,我们可以通过SQL语句来创建和操作这种数据表,下面,我将详细介绍如何在MySQL中创建和使…

    2024年6月20日
    02
  • 我来分享深入探索MySQL从基础到高级的全面注入攻击指南。

    MySQL是一种广泛使用的开源关系数据库管理系统,它在全球范围内拥有大量的用户,随着技术的发展,MySQL也面临着越来越多的安全威胁,其中最为严重的就是SQL注入攻击,SQL注入攻击是一种通过在Web应用程序的输入字段…

    2024年6月20日
    01
  • 重蔚自留地php学习第三十八天——关于高级数据库操作的语法总结

      高级数据操作:having,order by ,limit 联合查询:(select语句 order by limit) union [union选项] (select语句 order by limit) 连接查询:内连接,外连接,自然连接和交叉连接 内连接:左表 [inner] joi…

    2018年10月19日
    0437
  • mysql_建立索引的优缺点

    建立索引的优缺点: 为什么要创建索引呢? 这是因为,创建索引可以大大提高系统的性能。  第一、通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性。 第二、可以大大加快 数据的检索速度,这也是创建索引的…

    2017年10月19日
    0173
  • 今日分享html对接数据库。

    HTML 本身是一种标记语言,用于创建网页的结构和内容,它并不直接提供与数据库连接的功能,因为这通常涉及到服务器端脚本和数据处理,比如使用 PHP、ASP.NET、Node.js 等后端技术,我可以向您展示如何使用这些后端…

    2024年6月23日
    03
  • mysql数据库建立数据表的练习(附代码)

    数据库操作和学习并不难,难的是如何在各种实际运用情况下编写SQL语句的实现。这个过程,需要大量的练习,那么从这里开始,我们来讲解实现。 任务概述 具体关系数据库如下:  数据库名:教师数据库 教师表(编号 cha…

    2017年10月21日
    0695
  • 数据库的删、查、改操作

    删除表 语句:drop table 表名; 查看表 查看所有表:show tables; 查看表结构:desc 表名; 查看创建表语句:show create table 表名; 修改表 修改表名:alter table 旧表名 rename [to] 新表名; 添加新字段:alter …

    2017年11月23日 MySQL自学教程
    0209
  • 教你mysql存储地图坐标。

    随着地理信息系统(GIS)的发展,三维坐标数据在各个领域的应用越来越广泛,MySQL作为一种关系型数据库管理系统,具有高性能、高可靠性和易扩展性等优点,已经成为许多企业和开发者的首选数据库,本文将对MySQL中三…

    2024年6月20日
    01

联系我们

QQ:951076433

在线咨询:点击这里给我发消息邮件:951076433@qq.com工作时间:周一至周五,9:30-18:30,节假日休息