MySQL 到 MySQL

简述

MySQL 到 MySQL 在线数据迁移同步不是一个新鲜话题了，但是面对数据源异构、高度产品化创建、并且稳定运行于在线严苛场景，需要做的工作会比一个单纯工具或者脚本多得多。

本篇文章仅从功能角度介绍 CloudCanal 如何快速创建并运行此种数据链路。

技术点

"异构"和面临的问题

数据库异构主要体现在 数据库差异、业务表结构约束差异和 业务数据差异 三个方面。后两者属于传统 ETL Transform 阶段要处理的内容，相对弹性。而数据库本身差异则是刚性需求，对产品架构和核心数据结构有较高要求，分解下原因，包括 增量数据获取方式多样、SQL 方言差异、约束差异、元数据差异、部署形态(如分布式)等。

增量数据获取方式

如 ORACLE 的 redo 日志、物化视图，MySQL binlog 、Postgres WAL、MongoDB oplog等，相差较大，系统级设计和抽象，也是一个漫长的过程。

SQL 方言差异

包含如数据分页差异、写入冲突处理、大小写处理、表结构差异等。

约束差异

如索引 owner 归属偏差、partition key/sharding key 和 PK/UK 关系差异等。上述两者，对于数据迁移同步影响较小，但是 DDL 同步、结构迁移存在巨大挑战，在库、表、列映射、裁剪，数据自定义处理等情况下，更加复杂。

元数据差异

包括数据类型转换、层次对应关系、partition key / sharding key 等特定结构支持、分布式数据库分片差异、缓存/消息等schemaless系统的挑战，让数据互融互通工作量大增。

但是今天，我们并不展开介绍 数据库类型不同 的数据迁移同步功能，而是介绍 MySQL 到 MySQL 在线数据迁移同步所面临的异构问题，更多是业务需求所产生的 表结构不一致和 数据差异，其中包括库、表、列映射、裁剪和数据过滤。希望此篇文章能够让你在 5 分钟内搞定这个事情(环境 ready 的情况下)。

举个"栗子"

准备 CloudCanal

下载安装 CloudCanal 私有部署版本,使用参见快速上手文档

数据库准备

创建 3个 MySQL 数据库，源实例上的库叫 drds_1 和 drds_2 ，目标实例上有 drds_merge 库，其中源库里面有若干张表，并且存在一些测试数据，有些表正常迁移(worker_stats表), 有些表需要汇聚(shard_x表)，有些表需要结构迁移(kbs_question)，有些表有映射(shard_x表)，有些表不同步(kbs_article表)，有些表字段需要映射和裁剪(data_job)。接下来我们花 5 分钟时间来搞定这个事情，并且做一次数据校验。

信息

订阅源端MySQL增量和全量，需要提前授予权限：select, replication_client, replication_slave

造些数据

启动源端造增量数据程序，IUD 比例 30:50:20

创建任务

选择源数据库和目标数据库，做好库映射。操作完毕点击下一步。
选择数据同步，并默认勾选数据初始化、DDL 同步，此处暂不勾选做一次性数据校验。在任务增量追上后，我们停掉造数据程序，创建逻辑一致的校验任务，那么结果更加清晰。
选择表，并做好表映射，以及去除不想迁移同步的表。操作完毕点击下一步。
选择列，并做好列映射、裁剪掉某些不需要表的列。
批量设置唯一键为主键。
设置数据过滤，如图中 id < 3000。操作完毕点击下一步。
确认创建任务。确认完毕点击创建任务。

任务运行

如果选择的库、表、列在对端不存在，则进行结构迁移
结构迁移完成后自动进行数据初始化，映射、裁剪、数据过滤按照设定运行。目前 CloudCanal 数据初始化都是逻辑初始化，速度可能没有某些物理初始化快，但是灵活度高。
数据初始化完毕，开始进行增量同步。增量同步会自动从数据初始化位点拉取 MySQL binlog 进行回放，同样会执行映射、裁剪、以及数据过滤等操作。

数据校验

停止造数据进程，并且在 CloudCanal 上按同步任务相同逻辑创建一个校验任务。(暂未推出创建相似任务)
校验任务跑完，获取差异数据，并抽样对比，数据一致。校验的差异主要是数据多次更新、同步延迟等造成，一般非大规模不一致或丢失，则数据正常。
数据差异数据目前需要到任务日志目录获取，暂时未提供日志下载能力。

总结

此篇文章主要从功能角度简单介绍 CloudCanal 支持 MySQL 到 MySQL 在线数据迁移同步，包含库、表、列白名单、映射、裁剪，分表汇聚，数据过滤等主要能力，对于在线大部分场景，能够较好满足，但是在严苛的核心场景上，监控告警、容灾、特殊数据处理、抗峰值、问题快速排查等都是不可缺少的。

简述​

技术点​

"异构"和面临的问题​

增量数据获取方式​

SQL 方言差异​

约束差异​

元数据差异​

举个"栗子"​

准备 CloudCanal​

数据库准备​

造些数据​

创建任务​

任务运行​

数据校验​

总结​

简述

技术点