全面认识数仓开发之数据指标体系
什么是数据指标体系? 数据指标指标数据 数据:数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、...
Paimon数据丢失的常见场景和注意事项(避坑版)
Paimon数据丢失的常见场景和注意事项(避坑版) 大家好,我们又见面了。今天的内容很短小,关于写Paimon数据丢失的几种场景。 Paimon是数据湖领域最被广泛使用的框架之一。数据入Paimon的过程中造...
基于Flink构建全场景实时数仓
本文目录: 一. 实时计算初期 二. 实时数仓建设 三. Lambda架构的实时数仓 四. Kappa架构的实时数仓 五. 流批结合的实时数仓 实时计算初期 虽然实时计算在最近几年才...
【原创长文】数据仓库指北 聊聊这表那表(附PDF获取)
1. 数据仓库的基础必备问题2. 数据仓库的几种数据表3. 数据仓库分层设计及各层作用4. 数据仓库几种数据模型5. 维度建模 一、 灵魂十二问 Q1:大数据的数据来源? 埋点上报数据业务数据库数据日...
两万字详解性能优化的十种手段(好文收藏)
引言:取与舍 软件设计开发某种意义上是“取”与“舍”的艺术。 关于性能方面,就像建筑设计成抗震9度需要额外的成本一样,高性能软件系统也意味着更高的实现成本,有时候与其他质量属性甚至会...
晋升季,如何减少 50%+ 的答辩材料准备时间、调整心态(个人经验总结)
1.前言 陪伴了小伙伴萌这么久,写的都是一些技术干货,还没有聊过工作上成长的经验。 那么为什么突然要聊这么一个话题呢,有两个原因: 因此萌生了分享一下晋升答辩准备过程的想法,有一些方法...
大数据NiFi(二十一):监控日志文件生产到Kafka
监控日志文件生产到Kafka 案例:监控某个目录下的文件内容,将消息生产到Kafka中。 此案例使用到“TailFile”和“PublishKafka_1_0”处理器。 一、配置“TailFile”处理器 创建“TailFile”处理...
两个优秀的分布式消息流平台:Kafka与Pulsar剖析
本文向读者介绍两个优秀的分布式消息流平台:Kafka与Pulsar。Kafka与Pulsar。 Apache Kafka(简称Kafka) Apache Pulsar(简称Pulsar) 基础功能: (1)消息系统: 优点: 系统解耦:生产者与...
大数据NiFi(二十):实时同步MySQL数据到Hive
实时同步MySQL数据到Hive 案例:将mysql中新增的数据实时同步到Hive中。 以上案例需要用到的处理器有:“CaptureChangeMySQL”、“RouteOnAttribute”、“EvaluateJsonPath”、“ReplaceText”...













