Oracle迁移到MySQL工具之愚公(yugong)

2    963    1

Tags:

👉 本文共约6804个字,系统预计阅读时间或需26分钟。

背景

2008年,阿里巴巴开始尝试使用 MySQL 支撑其业务,开发了围绕 MySQL 相关的中间件和工具,Cobar/TDDL(目前为阿里云DRDS产品),解决了单机 Oracle 无法满足的扩展性问题,当时也掀起一股去IOE项目的浪潮,愚公这项目因此而诞生,其要解决的目标就是帮助用户完成从 Oracle 数据迁移到 MySQL 上,完成去 IOE 的重要一步工作。

项目介绍

名称:   yugong

译意:   愚公移山

语言:   纯java开发

本人提供Oracle、MySQL、PG等数据库的培训和考证业务,私聊QQ646634621或微信db_bao,谢谢!

定位:   数据库迁移 (目前主要支持oracle / mysql / DRDS)

整个数据迁移过程,分为两部分:

  1. 全量迁移
  2. 增量迁移

Oracle迁移到MySQL工具之愚公(yugong)

过程描述:

  1. 增量数据收集 (创建oracle表的增量物化视图)
  2. 进行全量复制
  3. 进行增量复制 (可并行进行数据校验)
  4. 原库停写,切到新库

架构

Oracle迁移到MySQL工具之愚公(yugong){width="584"
height="206"}

说明: 

  1. 一个Jvm Container对应多个instance,每个instance对应于一张表的迁移任务
  2.  instance分为三部分
    a.  extractor  (从源数据库上提取数据,可分为全量/增量实现)
    b.  translator  (将源库上的数据按照目标库的需求进行自定义转化)
    c.  applier  (将数据更新到目标库,可分为全量/增量/对比的实现)

方案设计

DevDesignhttps://github.com/alibaba/yugong/wiki/DevDesign

全量方案

业界常用的全量方案有:

  1. 数据文件导入/导出,比如EXPDP/IMPDP, mysqldump/source, xtrabackup等
  2. ETL数据导入/导出,主要原理为使用JDBC数据查询接口

yugong在项目设计之初考虑去IOE数据迁移的灵活性和自定义能力,最终选择的方案为基于JDBC接口遍历数据.

相比于数据文件导入/导出,其优点:

  • 灵活数据同步
  • 支持异构数据
  • 实现相对简单

缺点:

  • 全量拉取需要配合增量使用,会有部分数据重复同步
  • 性能和影响,一次性全量拉取,如果持续时间过长,如果此时数据库变更过多,会导致segment过大

增量方案

业界常用的增量方案有:

  1. 基于时间戳定时dump
  2. oracle日志文件,比如LogMiner,OGG
  3. oracle CDC(Change Data Capture)
  4. oracle trigger机制,比如DataBus , SymmetricDS
  5. oracle 物化视图(materialized view)
  6. ...

yugong在项目设计之初考虑去IOE数据迁移的灵活性,支持多种oracle版本,同时为降低DBA的运维成本,最终选择oracle物化视图作为我们的增量方案.

相比于其他,物化视图方案其优点:

  • 原理简单,方便理解和学习,用户可以理解为一种固化的简易trigger模式
  • 运维简单,DBA一次账户授权后,程序可按需create一张物化视图表即可完成增量订阅
  • 相对透明,不需要像时间戳sql扫描依赖数据库表设计,也不需要关注oracle版本和服务器存储等

缺点:

  • 性能和影响,类似于trigger机制会对源库的数据写入造成一定的性能影响.

快速开始

QuickStarthttps://github.com/alibaba/yugong/wiki/QuickStart

a. oracle全量基于JDBC拉取数据,增量基于物化视图来实现,所以这里需要给oracle数据库账号开启特殊权限

1. 下载yugong

直接下载,可访问:https://github.com/alibaba/yugong/releases,会列出所有历史的发布版本包的下载,比如以1.0.0版本为例子

or

自己编译

编译完成后,会在根目录下产生target/yugong-$version.tar.gz

2. 解压缩

3. 配置修改

说明:

  1. 需要修改源和目标数据库的账号信息
  2. 需要修改yugong.table.white信息,登记需要同步的测试表

4. 准备测试表

a. 在源库oracle上创建一张待同步表

b. 在目标库MySQL上创建一张目标表

c. 在源库构造几条测试数据

5. 准备启动

6. 查看日志

查看总日志

查看表同步日志

出现了:

  1. full extractor is end , next auto start inc extractor #代表全量迁移已完成,自动进入增量模式
  2. now is NO_UPDATE #代表增量表暂时无日志

7. oracle上执行增量变更

在源库oracle上对源表进行增量变更

查看表同步日志

会瞬间出现now is CATCH_UP,代表刚完成处理了增量数据,并且当前没有新的增量.

8. 查看mysq目标库数据

Oracle迁移到MySQL工具之愚公(yugong)

9. 关闭

10. 整理同步逻辑

整个测试例子包含特性:

  • schema/table名不同. oracle中为yugong_example_oracle,mysql中为test.yugong_example_mysql
  • 字段名字不同. oracle中的name字段,映射到mysql的display_name
  • 字段逻辑处理. mysql的display_name字段数据来源为oracle库的:name+'('alias_name+')'
  • 字段类型不同. oracle中的amount为number类型,映射到mysql的amount为varchar文本型
  • 源库多一个字段. oracle中多了一个alias_name字段
  • 目标库多了一个字段. mysql中多了一个gmt_move字段,(简单的用迁移时的当前时间进行填充)

    具体的转换逻辑定义,可查看:

img

运维管理

AdminGuidehttps://github.com/alibaba/yugong/wiki/AdminGuide

运行模式详细介绍

MARK模式(MARK)

开启增量日志的记录,如果是oracle就是创建物化视图

CLEAR模式(CLEAR)

清理增量日志的记录,如果是oracle就是删除物化视图

全量模式(FULL)

全量模式,顾名思议即为对源表进行一次全量操作,遍历源表所有的数据后,插入目标表.
全量有两种处理方式:

  1. 分页处理:如果源表存在主键,只有一个主键字段,并且主键字段类型为Number类型,默认会选择该分页处理模式. 优点:支持断点续做,对源库压力相对较小。 缺点:迁移速度慢
  2. once处理:通过select * from访问整个源表的某一个mvcc版本的数据,通过cursor.next遍历整个结果集. 优点:迁移速度快,为分页处理的5倍左右。 缺点:源库压力大,如果源库并发修改量大,会导致数据库MVCC版本过多,出现栈错误. 还有就是不支持断点续做.

    特别注意
    如果全量模式运行过程中,源库有变化时,不能保证源库最近变化的数据能同步到目标表,这时需要配合增量模式. 具体操作就是:在运行全量模式之前,先开启增量模式的记录日志功能,然后开启全量模式,完成后,再将最近变化的数据通过增量模式同步到目标表

增量模式(INC)

全量模式,顾名思议即为对源表增量变化的数据插入目标表,增量模式依赖记录日志功能.
目前增量模式的记录日志功能,是通过oracle的物化视图功能。

创建物化视图

  • 运行增量模式之前,需要先开启记录日志的功能,即预先创建物化视图. 特别是配合全量模式时,创建物化视图的时间点要早于运行全量之前,这样才可以保证数据能全部同步到目标表
  • 增量模式没有完成的概念,它只有追上的概念,具体的停止需有业务进行判断,可以看一下切换流程

自动模式(ALL)

自动模式,是对全量+增量模式的一种组合,自动化运行,减少操作成本.
自动模式的内部实现步骤:

  1. 开启记录日志功能. (创建物化视图)
  2. 运行全量同步模式. (全量完成后,自动进入下一步)
  3. 运行增量同步模式. (增量模式,没有完成的概念,所以也就不会自动退出,需要业务判断是否可以退出,可以看一下切换流程)

对比模式(CHECK)

对比模式,即为对源库和目标库的数据进行一次全量对比,验证一下迁移结果. 对比模式为一种可选运行,做完全量/增量/自动模式后,可选择性的运行对比模式,来确保本次迁移的正确性.

参数介绍

正常情况下,只需修改下yugong.database的源库和目标库的地址信息,通过yugong.table.white定义本次需要迁移的表,通过yugong.table.mode定义要执行的操作,是全量还是增量等,其他的可以使用默认值.

默认值

参数名字参数说明默认值
数据库配置相关
yugong.database.source.username yugong.database.source.password yugong.database.source.type yugong.database.source.url yugong.database.source.encode源数据库的相关账户和链接信息 driver url 示例: 1. ORACLE : jdbc:oracle:thin:@10.20.144.29:1521:ointest 2. MYSQL : jdbc:mysql://10.20.144.34:3306/testencode默认为UTF-8,其他无默认值
yugong.database.target.username yugong.database.target.password yugong.database.target.type yugong.database.target.url yugong.database.target.encode目标数据库的相关账户和链接信息encode默认为UTF-8,其他无默认值
yugong.table.white需要同步表,白名单,定义需要同步的表 几点说明: 1. 表名支持like匹配,比如'%'匹配一个或者多个字符,下划线'_'匹配单个字符,可以通过单斜杠\进行转义符定义. 2. 表明为schema+table name组成,多个表可加逗号分隔 3. 如果白名单为空,代表整个库所有表,否则按指定的表进行同步 例子: yugongexample% (可以匹配yugong_example打头的字符串) alibaba.yugong_exampletest (可以匹配alibaba.yugong_example_test1 / alibaba.yugong_example_test2)
yugong.table.black需要同步表,黑名单,需要忽略同步的表 配置方式可参考yugong.table.white
yugong.table.mode运行模式,目前支持的模式为: 1. MARK (开启增量记录,比如oracle就是创建物化视图) 2. FULL (全量模式) 3. INC (增量模式) 4. ALL (自动全量+增量模式) 5. CHECK (数据对比模式) 6. CLEAR (清理增量记录,比如oracle就是删除物化视图)
yugong.table.concurrent.enable多张表之前是否开启并行处理,如果false代表需要串行处理true
yugong.table.concurrent.size允许并行处理的表数5
yugong.table.retry.times表同步出错后的重试次数3
yugong.table.retry.interval表同步出错后的重试时的时间间隔,单位ms1000
yugong.table.batchApply是否开启jdbc batch处理true
yugong.table.onceCrawNumextractor/applier每个批次最多处理记录数1000
yugong.table.tpslimittps限制,0代表不限制0
yugong.table.ignoreSchema是否忽略schema同步 (如果mysql和oracle对应的schema不同,可设置为true)false
yugong.table.skipApplierExceptiontrue代表当applier出现数据库异常时,比如约束键冲突,可对单条出异常的数据进行忽略. 同时记录skiped record data信息,日志中包含record的所有列信息,包括主键.false
extractor配置相关
yugong.extractor.dump是否记录extractor提取到的所有数据false
yugong.extractor.concurrent.enableextractor是否开启并行处理,目前主要应用为增量模式反查源表true
yugong.extractor.concurrent.globalextractor是启用全局线程池模式,如果true代表所有extractor任务都使用一组线程池,线程池大小由concurrent.size控制false
yugong.extractor.concurrent.size允许并行处理的线程数,需要先开启concurrent.enable该参数才会生效20
yugong.extractor.noupdate.sleep增量模式下,出现无变更数据时再次获取数据的sleep时间1000
yugong.extractor.once是否强制使用一次性模式,不支持断点续作,可提升效率,约为5倍false
yugong.extractor.noupdate.thresold处于增量数据追赶中,超过该值后认为增量任务已完成,会释放资源给下一个table 如果该值<=0,意味着永远不会退出增量任务,会一直跑.如果需迁移table数 > table.concurrent.size,则默认为3 如果需迁移table数 <= table.concurrent.size,则默认为-1
applier配置相关
yugong.applier.dump是否记录applier提取到的所有数据false
yugong.applier.concurrent.enableapplier是否开启并行处理true
yugong.applier.concurrent.globalapplier是启用全局线程池模式,如果true代表所有applier任务都使用一组线程池,线程池大小由concurrent.size控制false
yugong.applier.concurrent.size允许并行处理的线程数,需要先开启concurrent.enable该参数才会生效20
统计和报警
yugong.stat.print.interval统计信息打印频率. 频率为5,代表,完成5轮extract/applier后,打印一次统计信息5
yugong.progress.print.interval打印迁移进度状态,单位分钟1
yugong.alarm.receiver报警接收人,支持邮件和手机,逗号分隔
yugong.alarm.msgcenter.hosts报警中心地址

性能报告

Performance

相关资料

  1. yugong简单介绍ppt: ppt
  2. 分布式关系型数据库服务DRDS
    (前身为阿里巴巴公司的Cobar/TDDL的演进版本, 基本原理为MySQL分库分表)

总结

1、阿里巴巴去Oracle数据迁移同步工具(全量+增量,目标支持MySQL/DRDS),可以将Oracle迁移同步到MySQL

2、最新版本为2016年的v1.0.3版本,不再更新

3、oracle全量基于JDBC拉取数据,增量基于物化视图来实现

4、缺点:

  • 全量拉取需要配合增量使用,会有部分数据重复同步
  • 性能和影响,一次性全量拉取,如果持续时间过长,如果此时数据库变更过多,会导致segment过大

标签:

头像

小麦苗

学习或考证,均可联系麦老师,请加微信db_bao或QQ646634621

您可能还喜欢...

2 条回复

  1. 头像 小麦苗说道:

    Oracle到MySQL迁移:用华为云的DRS、阿里云的DTS、工具Navicat、kettle、OGG、dataX都可以,可以在本博客搜索

  2. 头像 小麦苗说道:

    停止更新的工具,都不建议使用了,若有Oracle到MySQL的项目,目前个人使用感受比较好的工具包括华为云的DRS和Navicat工具。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

15 − 3 =

 

嘿,我是小麦,需要帮助随时找我哦
  • 18509239930
  • 个人微信

  • 麦老师QQ聊天
  • 个人邮箱
  • 点击加入QQ群
  • 个人微店

  • 回到顶部
返回顶部