一文读懂数仓模型与数据建模全过程
一文读懂数仓模型与数据建模全过程 ================================================== 在不少企业的数据系统中,可能会遇到这样的问题: 不同系统里都有个叫“客户ID”的字段,一个是营销系...
长文详解HiveSQL执行计划
长文详解HiveSQL执行计划 ================================================== 本文目录:一、前言二、SQL的执行计划 一、前言 可以说执行计划是打开SQL优化大门的一把钥匙 要想学SQL执行计划...
一篇文章教会你数据仓库之详解拉链表怎么做!
一篇文章教会你数据仓库之详解拉链表怎么做! ================================================== 前言 先分享一下拉链表的用途、什么是拉链表。 通过一些小的使用场景来对拉链表做近一步的阐...
一篇讲明白 Hadoop 生态的三大部件
一篇讲明白 Hadoop 生态的三大部件 ================================================== 大数据技术的发展并不是偶然的,它的背后是对于成本的考量。集中式数据库或者基于MPP架构的分布数据库...
最容易出错的 HiveSQL 详解
最容易出错的 HiveSQL 详解 ================================================== 正文开始: 前言 在进行数仓搭建和数据分析时最常用的就是 sql,其语法简洁明了,易于理解,目前大数据领域的...
最强最全面的数仓建设规范指南
最强最全面的数仓建设规范指南 ================================================== 进入主页,点击右上角“设为星标” 比别人更快接收好文章 本文将全面讲解数仓建设规范,从数据模型规范,到...
小米基于Spark3.1搭建数据开发平台实践
小米基于Spark3.1搭建数据开发平台实践 ================================================== 1. Multiple Catalog 落地与应用 2. Hive SQL 迁移 Spark SQL 3. 离线场景下 Spark 的稳定性与...
Hive SQL底层执行过程详细剖析
Hive SQL底层执行过程详细剖析 ================================================== 点击上方卡片进入主页,然后右上角“设为星标” 比别人更快接收好文章 整体到细节 Hive Hive是什么?Hive ...
Elasticsearch 保姆级教程(文末送书)
Elasticsearch 介绍 1. Elasticsearch Elasticsearch 是一个基于 Apache Lucene 的开源搜索引擎。无论在开源还是专有领域,Lucene 可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎...
Flink+Kafka存在诸多限制,下一代实时存储组件来解决!
5. Fluss 开源 当前业界呈现出一个显著的趋势,即大数据的处理正在从离线模式转向实时化。我们可以观察到,多个行业和应用场景都在进行实时化的演进。例如,互联网、车联网和金融等领域都正通过...














