关于数仓建设及数据治理的超全概括
本文分为两大节介绍,第一节是数仓建设,第二节是数据治理,内容较长,还请耐心阅读! 在谈数仓之前,先来看下面几个问题: 数仓为什么要分层? 用空间换时间,通过大量的预处理来提升应用系统...
什么是HBase?终于有人讲明白了
初识HBase HBase 是一个面向列式存储的分布式数据库,其设计思想来源于 Google 的 BigTable 论文。HBase 底层存储基于 HDFS 实现,集群的管理基于 ZooKeeper 实现。HBase 良好的分布式架构设计...
五万字 _ Flink知识体系保姆级总结
本文目录: 一、Flink简介二、Flink 部署及启动三、Flink 运行架构四、Flink 算子大全五、流处理中的 Time 与 Window六、Flink 状态管理七、Flink 容错八、Flink SQL九、Flink CEP十、Flink CDC...
数据安全治理已迫在眉睫!
你是否遭遇过如下场景: 不知何时,你的手机暴响,一个暧昧或口气浑浊的女音如同刚刚和你劈过腿的问你:大哥,你最近股票赚吗?我拉你进一个免费的股票交流群吧! 你果断挂掉电话,将其拉入黑名...
数据孤岛被打破,采集1万+,使用100张?
'我们终于把数据孤岛打通了!集团所有系统的数据全接进来了,一万多张表!' 前阵子,一家传统制造企业的朋友打电话给我,声音里透着那种项目验收后的亢奋。 我心里咯噔一下,但还是问:'牛啊!...
数据仓库:详解维度建模之事实表
本文目录如下: 一、事实表基础二、事实表设计规则三、事实表设计方法四、有事实的事实表五、无事实的事实表六、聚集型事实表 正文开始: 每个数据仓库都包含一个或者多个事实数据表。其中可能...
深入剖析HDFS 3.0版本EC技术,节省一半存储但拥有三副本机制相同的容错能力
正文开始: HDFS 3.x 数据存储新特性-纠删码 纠删码 1. EC介绍 Erasure Coding 简称 EC,中文名:纠删码 条带化技术就是一种自动将 I/O 的负载均衡到多个物理磁盘上的技术 条带化单元 2. HDFS...
浅谈Spark在大数据开发中的一些最佳实践
1.前 言 eBay 智能营销部门在长时间的生产实践中,我们总结了一套基于Scala开发Spark任务的可行规范,来帮助我们写出高可读性、高可维护性和高质量的代码,提升整体开发效率 2.基本开发规范 ...













