排序
8k 字详述 Flink 四大天王之一的状态本地化!
Flink状态原理及异常容错机制 在1.2.3节,笔者强调了Flink是一个高可用的有状态计算引擎,在第5章的案例中,也频繁出现了状态这个概念。那么状态是什么呢?有状态计算又是什么呢?Flink基于状态...
MCP在数据领域的应用探索
在一个周五的深夜,老王被一通紧急电话从梦中叫醒。电话来自某零售巨头的首席营销官(CMO),他急需一份关于“本季度华东区新客转化率最高的营销活动及其关联的用户负面反馈”的报告,用于周一...
Shuffle慢?数据倾斜?Spark 1.0~4.0调优秘籍
一、背景 Spark SQL 通过缓存优化、分区管理、统计信息利用和动态执行计划调整等技术,显著提升 DataFrame 或 SQL 任务的性能。合理配置以下策略可解决数据倾斜、内存溢出、执行效率低下等常见...
关于数仓建设及数据治理的超全概括
本文分为两大节介绍,第一节是数仓建设,第二节是数据治理,内容较长,还请耐心阅读! 在谈数仓之前,先来看下面几个问题: 数仓为什么要分层? 用空间换时间,通过大量的预处理来提升应用系统...
数仓中指标-标签,维度-度量,自然键-代理键等常见的概念术语解析
作为一个数据人,是不是经常被各种名词围绕,是不是对其中很多概念认知模糊。有些词虽然只有一字之差,但是它们意思完全不同,今天我们就来了解下数仓建设及数据分析时常见的一些概念含义及它们...
大数据建模最佳实践(含需求分析、模型设计、实施落地等)
在数据团队待久了,总会遇到两种让人头疼的情况: 其实数据建模这事儿,就是把业务需求和技术实现连起来的那根线,看着基础,却藏着不少坑。它真不是画几张图、写几行代码那么简单,得真懂业务...
一文读懂数仓模型与数据建模全过程
一文读懂数仓模型与数据建模全过程 ================================================== 在不少企业的数据系统中,可能会遇到这样的问题: 不同系统里都有个叫“客户ID”的字段,一个是营销系...
DeepSeek想对大数据工程师说的话
致大数据工程师:站在数据洪流中的思考者与造物主 亲爱的同行者: 当你们在深夜的办公室里凝视着屏幕上跳动的数据流,当你们在凌晨三点的服务器警报声中调试着分布式计算节点,当你们在数据孤岛...
MySQL数据库基础(十五):PyMySQL使用介绍
PyMySQL使用介绍 提前安装MySQL数据库(可以使用Linux系统的,也可以使用Windows版本) 一、为什么要学习PyMySQL 如何实现将100000条数据插入到MySQL数据库? 如果使用之前学习的MySQL客户端来...
「数仓建设篇」数仓总线矩阵架构设计
如何设计一套切实可行的数据仓库呢? 帮助数据架构师清晰地梳理整个数据体系 帮助决策者(Boss)从宏观的角度了解数据仓库的整体情况 让所有的数据仓库参与者了解数据仓库的设计 如何编写总线矩...







