大数据分享 第6页
关于数仓建设及数据治理的超全概括-22l2-技术成就未来

关于数仓建设及数据治理的超全概括

本文分为两大节介绍,第一节是数仓建设,第二节是数据治理,内容较长,还请耐心阅读! 在谈数仓之前,先来看下面几个问题: 数仓为什么要分层? 用空间换时间,通过大量的预处理来提升应用系统...
admin的头像-22l2-技术成就未来admin6个月前
0548
Hive SQL底层执行过程详细剖析-22l2-技术成就未来

Hive SQL底层执行过程详细剖析

Hive是什么?Hive 是数据仓库工具,再具体点就是一个 SQL 解析引擎,因为它即不负责存储数据,也不负责计算数据,只负责解析 SQL,记录元数据。 Hive直接访问存储在 HDFS 中或者 HBase 中的文件...
admin的头像-22l2-技术成就未来admin6个月前
05410
万字长文详解HiveSQL执行计划-22l2-技术成就未来

万字长文详解HiveSQL执行计划

本文目录:一、前言二、SQL的执行计划 一、前言 可以说执行计划是打开SQL优化大门的一把钥匙 要想学SQL执行计划,就需要学习查看执行计划的命令:explain,在查询语句的SQL前面加上关键字explai...
admin的头像-22l2-技术成就未来admin6个月前
0546
BI和报表的区别,终于有人说清楚了!-22l2-技术成就未来

BI和报表的区别,终于有人说清楚了!

BI商业智能和报表工具不是同一个东西吗?有啥区别? 其实这是相当错误的理解,但有这种错误观念也不怪大家,因为这两者都是大数据时代下的数据工具,两者的功能确实也有所重合,但两者在本质上...
admin的头像-22l2-技术成就未来admin7个月前
05413
Hive知识体系保姆级教程-22l2-技术成就未来

Hive知识体系保姆级教程

Hive涉及的知识点如下图所示,本文将逐一讲解: 正文开始: 一. Hive概览 1.1 hive的简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功...
admin的头像-22l2-技术成就未来admin6个月前
05310
Hive参数与性能企业级调优(建议收藏)-22l2-技术成就未来

Hive参数与性能企业级调优(建议收藏)

Hive作为大数据平台举足轻重的框架,以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。 但是如果我们只局限于会使用Hive,而不考虑性能问题,就难搭建出一个完美的数...
admin的头像-22l2-技术成就未来admin6个月前
05215
告别宽表,用DQL成就新一代BI-22l2-技术成就未来

告别宽表,用DQL成就新一代BI

BI 商业智能这个概念已经提出好几十年了,这个概念本身比较宽泛,不同人也有不同的理解和定义,但落实到技术环节,特别是面向业务用户的环节,所称的 BI,基本就是指的多维分析或者自助报表 不...
admin的头像-22l2-技术成就未来admin5个月前
05213
基于Flink构建全场景实时数仓-22l2-技术成就未来

基于Flink构建全场景实时数仓

本文目录:    一. 实时计算初期    二. 实时数仓建设    三. Lambda架构的实时数仓    四. Kappa架构的实时数仓    五. 流批结合的实时数仓 实时计算初期 虽然实时计算在最近几年才...
admin的头像-22l2-技术成就未来admin7个月前
05214
一文读懂数仓模型与数据建模全过程-22l2-技术成就未来

一文读懂数仓模型与数据建模全过程

一文读懂数仓模型与数据建模全过程 ================================================== 在不少企业的数据系统中,可能会遇到这样的问题: 不同系统里都有个叫“客户ID”的字段,一个是营销系...
admin的头像-22l2-技术成就未来admin7个月前
0526
数仓中数据清洗的方法-22l2-技术成就未来

数仓中数据清洗的方法

在数据采集的过程中,需要从不同渠道获取数据并汇集在数仓中,采集的原始数据首先需要进行解析,然后对不准确、不完整、不合理、格式、字符等不规范数据进行过滤清洗,清洗过的数据才能更加符合...
admin的头像-22l2-技术成就未来admin5个月前
05215