首页 » 通讯 » 内存占用不到20m的cdc对象_对象_增量

内存占用不到20m的cdc对象_对象_增量

南宫静远 2024-11-20 04:19:38 0

扫一扫用手机浏览

文章目录 [+]

举一个极度点的例子:airbyte只运行一个pg到pg的任务,全体集群一共实际用了8g内存。

轻量级数据工具

一贯希望有个轻量级的工具能够完成根本同步,由于绝大多数情形下也并不须要etl事情。

内存占用不到20m的cdc对象_对象_增量 通讯

空想中的数据同步工具:

功能:全量同步增量同步构造同步异构数据源同步。
比如mysql到pg,redis到es监控。
最好是基于行业协议的跨措辞插件性能可掌握的多实例极低的内存占用配置如果没有界面,只依赖一个大略的配置文件cloudquery.io:golang写的cdc工具

第一次看到这个名字以为可能是类似于presto这类打算层引擎,实在他是一个cdc工具。

CloudQuery | An open source high performance data integration platform for developers | CloudQuery

www.cloudquery.io

试用过后真是泪流满面,由于完备符合了对一个轻量级cdc工具的所有期待。

紧张特点有:

多样化的connector,不仅有传统的mysql、postgres等数据库,还有es、duckdb等new sql,还有aws、阿里云、airtable、google ad等三方api。
妈妈再也不担心对接常见的api摧残浪费蹂躏韶光了。
超大略的配置

添加图片注释,不超过 140 字(可选)

这便是所有的source配置,再加上一份类似的dest配置就可以启动任务了

内存!
泪流满面

添加图片注释,不超过 140 字(可选)

这是运行了一整天,全量+增量的同步了近10g数据后的内存占用

启动命令便是这些。
连用docker都变成一件麻烦的事了

cloudquery sync ./config.yml性能测试

利用单进程,只配置了一个source mysql同步到一个远程的pg。
通过不雅观察写入qps,稳定在600旁边,如果哀求不非常高的情形下,性能还是非常可不雅观的。

比kettle强多了。

其他要点

如果想要加速,官方推举可以配置多个souce和dest,其余可以利用source中的concurrency选项。

默认的设置是全量同步,如果须要支持增量同步,须要增加配置

backend_options: table_name: "cq_aws_state" connection: "@@plugins.postgresql.connection"期待

如果定位是轻量级cdc工具,cloudquery已经能够知足90%以上的需求了,但如果有...就更好了。

可选的ui做事无需重启就可以变更任务更多的插件类型。
目前只有source和dest,常见还须要transform,实在就可以完全支持轻量etl了cdc设计模式

cdc(Change Data Capture)在过去只是表示增量数据同步,而且还是不带etl的那种“原始”数据同步。
在本日,cdc也可以是一种设计模式。

例如我们过去要对接aws的账单api存储账单信息,现在可以配置aws billing作为source,同步到数据库就完成了这项操作。

同样如果要发一篇博文,过去须要调用api才能完成,现在实际上配置一个api的dest,然后把某种数据作为source就可以完成相似的操作。

在这个路径上可以不做任何操作,也可以增加一个flink去对数据做一些操作,比如统计后向下传输5分钟内的结果,或者join其他表生产出一些新的结果。
由于现在flink也可以利用sql进行操作,因此这整条链路都不须要研发参与,没有代码,效率极高。

标签:

相关文章