小米基于Spark3.1搭建数据开发平台实践
1. Multiple Catalog 落地与应用 2. Hive SQL 迁移 Spark SQL 3. 离线场景下 Spark 的稳定性与性能优化 4. 未来规划 5. 问答环节 01 2.Spark3的元数据管理 Hive SQL迁移 Spark SQL 2.语法...
数仓中数据清洗的方法
在数据采集的过程中,需要从不同渠道获取数据并汇集在数仓中,采集的原始数据首先需要进行解析,然后对不准确、不完整、不合理、格式、字符等不规范数据进行过滤清洗,清洗过的数据才能更加符合...
《可信数据空间标准体系建设指南(2025年版)》正式发布
2025年6月29日,《可信数据空间标准体系建设指南(2025年版)》(以下简称《指南》)正式发布。 该指南由可信数据空间发展联盟组织120家成员单位共同完成,旨在构建一套体系完备、层次清晰、协...
ClickHouse、Doris、 Impala等MPP架构详解
我们常用的大数据计算引擎有很多都是MPP架构的,像我们熟悉的Impala、ClickHouse、Druid、Doris等都是MPP架构。 亿级秒开 详解MPP架构MPP架构与批处理架构的异同点采用MPP架构的OLAP引擎介绍 一...
MySQL数据库基础(八):DML数据操作语言
DML数据操作语言 一、DML包括哪些SQL语句 insert插入、update更新、delete删除 二、数据的增删改(重点) 增加:insert 删除:delete 修改:update 1、数据的增加操作 基本语法: 特别注意:在S...
Spark知识体系五万字讲解,学习与面试收藏这篇就够了!
一、Spark 基础二、Spark Core三、Spark SQL四、Spark Streaming五、Structured Streaming六、Spark 两种核心 Shuffle七、Spark 底层执行原理八、Spark 数据倾斜九、Spark 性能调优十、Spark 故...
五万字 _ Flink知识体系保姆级总结
本文目录: 一、Flink简介二、Flink 部署及启动三、Flink 运行架构四、Flink 算子大全五、流处理中的 Time 与 Window六、Flink 状态管理七、Flink 容错八、Flink SQL九、Flink CEP十、Flink CDC...
大数据平台中的企业级数仓建设(好文收藏)
本文目录:一、模型设计二、数据架构三、数据治理 随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处...
3 小时搞定 5 万字段!LLM 自动生成数据字典实战指南
“十万字段,没有一个注释,交接时你崩溃过吗?” 相信我,你不是一个人在战斗。写数据字典,这活儿又累又不讨好,但偏偏重要到不行。 上个月我们团队接手一个“祖传”数据库,15 张核心表,上...
DeepSeek狂飙,你的数据跟上了吗?“数据编织”了解一下
想象一座城市中的孤岛,过去我们建造实体桥梁(数据复制)连接它们;而数据编织则是创建'虚拟传送门',让这些孤岛在保持独立的同时实现无缝连接。它解决的不仅是数据的物理隔离,更是数据的理解...













