2025年09月的文章 第2页
大数据NiFi(二十):实时同步MySQL数据到Hive
实时同步MySQL数据到Hive 案例:将mysql中新增的数据实时同步到Hive中。 以上案例需要用到的处理器有:“CaptureChangeMySQL”、“RouteOnAttribute”、“EvaluateJsonPath”、“ReplaceText”...
大数据OLAP引擎底层原理
由Facebook开源的Presto是其中的佼佼者,它是以MPP为架构的OLAP引擎中的中流砥柱。如果你学习过Spark、Flink的源码,会惊喜地发现,其中的多个设计思路和实现都参考了Presto,甚至于2019年在北...
大数据数仓优质书籍清单推荐
哈喽,我是Akin,从事大数据数仓工作几年了,在工作和学习过程也看了一些数据仓库方面的优质书籍,此处整理了对自己帮助较大的部分,给大家推荐一下,希望能帮助到大家。个人推荐 尤其是第二本...
大数据架构、高性能、数据治理面试题及答案
A. 大数据的高级处理技术(占比5%) 单选题: 1. 以下__不属于大数据的关键技术 A. 数据技术 B. 大数据安全技术和大数据质量技术 C. 虚拟化技术和云计算平台技术 D. 海量数据的存储技术 答案...
如何保障数仓数据质量?
导读 文|傅宇康 有赞数据报表中心为商家提供了丰富的数据指标,包括30+页面,100+数据报表以及400+不同类型的数据指标,它们帮助商家更合理、科学地运营店铺,同时也直接提供分析决策方法供商...
小米基于Spark3.1搭建数据开发平台实践
1. Multiple Catalog 落地与应用 2. Hive SQL 迁移 Spark SQL 3. 离线场景下 Spark 的稳定性与性能优化 4. 未来规划 5. 问答环节 01 2.Spark3的元数据管理 Hive SQL迁移 Spark SQL 2.语法...
数据中台到底是什么?
文末获取资料 数据中台到底是什么?几年过去了,也一直众说纷纭。 1、大数据平台 1、大数据平台1、大数据平台 2、数据资产管理平台 2、数据资产管理平台 业务元数据: 技术元数据: 管理元数...
数据中台能力成熟度模型
来源:中国信通院 49828 2023年1月4日,为进一步赋能数据要素价值释放,加强数据资产行业交流合作,由中国信息通信研究院、中国通信标准化协会指导,中国通信标准化协会大数据技术标准推进委员...
两个优秀的分布式消息流平台:Kafka与Pulsar剖析
本文向读者介绍两个优秀的分布式消息流平台:Kafka与Pulsar。Kafka与Pulsar。 Apache Kafka(简称Kafka) Apache Pulsar(简称Pulsar) 基础功能: (1)消息系统: 优点: 系统解耦:生产者与...
两万字详解性能优化的十种手段(好文收藏)
引言:取与舍 软件设计开发某种意义上是“取”与“舍”的艺术。 关于性能方面,就像建筑设计成抗震9度需要额外的成本一样,高性能软件系统也意味着更高的实现成本,有时候与其他质量属性甚至会...











