排序
17种数据质量管理平台优劣对比,谁才是企业的最佳选择?
正文开始 本文将全面解读数据质量管理平台的架构、数据质量管理平台评价标准、17个主流数据质量管理平台对比分析及企业适配选型的建议。 一、数据质量管理平台的架构 接入适配层规则引擎层问题...
Hive SQL优化笔记
hive的优化主要分为:配置优化、SQL语句优化、任务优化等方案。 其中在开发过程中主要涉及到的可能是SQL优化这块。 优化的核心思想是: 减少数据量(例如分区、列剪裁); 避免数据倾斜(例如加...
PostgreSQL基础(二):PostgreSQL的安装与配置
PostgreSQL的安装与配置 一、PostgreSQL的安装 咱们只在Linux中安装,不推荐大家在Windows下安装。 Linux的版本尽量使用7.x版本,最好是7.6或者是7.8版本。 去官网找按照的方式 选择好PGSQL的版...
万字详解整个数据仓库建设体系(好文收藏)
本文目录: 二、数仓建模方法 三、维度建模 四、实际业务中数仓分层 数据仓库的基本概念 数据仓库概念: 英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据...
大数据架构平台搭建指南及数据仓库演进
一、大数据架构平台搭建指南 虽然大数据平台组件很多,但是对于没有参与建设过大数据平台的朋友来说,当前众多的大数据组件和平台架构容易让人眼花缭乱。 本文首先介绍了大数据架构平台的组件架...
数据指标体系建设方法 (干货建议收藏)
指标=数据+业务场景 1、使用场景(who、when、where) 2、指标定义(what) 3、指标用途(why) 海盗指标法(AARRR): 第一关键指标法: 不同行业在不同发展阶段,最终绘制出来的“指标树”可...
8k 字详述 Flink 四大天王之一的状态本地化!
Flink状态原理及异常容错机制 在1.2.3节,笔者强调了Flink是一个高可用的有状态计算引擎,在第5章的案例中,也频繁出现了状态这个概念。那么状态是什么呢?有状态计算又是什么呢?Flink基于状态...
MCP在数据领域的应用探索
在一个周五的深夜,老王被一通紧急电话从梦中叫醒。电话来自某零售巨头的首席营销官(CMO),他急需一份关于“本季度华东区新客转化率最高的营销活动及其关联的用户负面反馈”的报告,用于周一...
Shuffle慢?数据倾斜?Spark 1.0~4.0调优秘籍
一、背景 Spark SQL 通过缓存优化、分区管理、统计信息利用和动态执行计划调整等技术,显著提升 DataFrame 或 SQL 任务的性能。合理配置以下策略可解决数据倾斜、内存溢出、执行效率低下等常见...
关于数仓建设及数据治理的超全概括
本文分为两大节介绍,第一节是数仓建设,第二节是数据治理,内容较长,还请耐心阅读! 在谈数仓之前,先来看下面几个问题: 数仓为什么要分层? 用空间换时间,通过大量的预处理来提升应用系统...









