2024

bigdatapulsar

2024-07-03

通过 Pulsar CDC 获取 Postgres 数据表变更记录

在当今数据驱动的时代，数据的实时性、完整性和一致性成为了企业业务成功的关键因素。随着微服务单服单库（每个微服务都有自己单独的数据库）的应用，以及数据量的爆炸性增长和业务的快速迭代，传统的数据处理和同步方式已难以满足现代企业的需求。Apache Pulsar，作为一个云原生的分布式消息和流处理平台，凭借其卓越的吞吐量和低延迟特性，正在逐渐成为大数据和流处理领域的明星。而Pulsar CDC技术的引入

2024-06-17

使用 clap 和 opendal 开发一个云存储 cli

在使用 gitlab 做 CI/CD 时，需要将构建好的制品推送到云存储中（比如华为云 OBS、阿里云 OSS、AWS S3 等），然后在部署的时候再直接从云存储中下载。为方便使用，就使用 clap 和 opendal 开发了一个简单的云存储命令行工具，此示例支持 OBS 和 OSS，需要添加其它云存储支持也非常方便，具体可以参考 https://docs.rs/opendal/latest/o

2023

2023-04-29

数据的相等性比较引发的 BUG

问题相同的代码逻辑，在不同的环境得出了不同的结果。在业务系统里是正确的，但是数据系统里却计算出了不同的结果。给一个示例： 12345Integer x = 1234567;Long y = 1234567L;if (x.equals(y))) { // 处理业务逻辑} 我们预期if语句判断能够成功并进入进行处理业务逻辑，但实际上这里会始终返回 false。这是因为jav

2021

2021-09-30

使用 Pulsar CDC 同步 PostgreSQL

问题监控发现 PostgreSQL 的 pg_wal 日志文件一直在持续增长，设置的 max_wal_size = 2GB 参数值未起作用。 12-bash-4.2$ du -sh $PGDATA/pg_wal61G /data/pgsql/12/data/pg_wal 12345postgres=# select pg_walfile_name('0/14CB2278

essay

2021-07-30

微服务：代码分层

本篇是微服务系统的第一篇，我将基于自身的经验和在公司项目中的实践来记录我们施行微服务的过程和方式。

bigdatapulsar

2021-04-13

Pulsar 2.7：集群，认证、授权，函数计算，CDC

一些问题 Apache Pulsar 2.7.1 当 Functions Worker 独立运行时，客户端需要直接 Worker，现在的 Pulsar 还不能通过 broker 找到 Worker 地址。社区已有相应的 PR #6425 修复当配置了 Pulsar 集群配置了认证/授权，且 connector 使用进程模式运行时，现在 connector 未继承 Functions Worke

work

2021-04-08

使用 gRPC 设计 API 的优势

现阶段 API 设计的问题在开发过程中，有一些很困扰前、后端团队交互的问题：谁来设计 API？提供什么形式的 API？什么时候可以提供 API？对于第一个问题，通常情况下都是由后端人员来设计 API，这就造成前端人员会在开发初期的一段时间内没法作数据模型和服务端交互方面的工作。这时，一些独立的 API 管理工具就派上用场了，比如：类似 yapi 这样的 API 管理/Mock 工具。前

2020

bigdatagreenplum

2020-11-19

Greenplum 6.x 安装注意事项

/etc/sysctl.conf 设置注意12kernel.shmall=echo $(expr $(getconf _PHYS_PAGES) / 2)kernel.shmmax=echo $(expr $(getconf _PHYS_PAGES) / 2 \* $(getconf PAGESIZE))

work

2020-09-21

DolphinScheduler

系统配置操作系统环境 1234567891011121314151617systemctl stop firewalldsystemctl disable firewalld# Install softwaresyum -y install epel-releaseyum -y install java-11-openjdk-devel tree htop vim sshpass wget cur

work

2020-09-03

实时数据处理探索：接收、处理、访问

ETL（也包括ELT）是数据处理工作里必不可少的步骤，一直以来通常都是以天或小时为单位采用批处理来对大量的数据进行 ETL 操作。随着业务的增长及需求的变化，用户/客户希望能更快的看到各类数据操作的结果，这就催生了实时 ETL 的诉求。传统上，批量 ETL 会在数据仓库上进行。比如按天为单位从一个库同步原始数据到 ODS 层，再通过编写存储过程来对 ODS 层的数据进行加工后将明细数据存储到

主页