Spark底层执行原理详细解析
Spark简介 大规模数据处理高容错性高可伸缩性 Spark源码从1.x的40w行发展到现在的超过100w行,有1400多位大牛贡献了代码。整个Spark框架源码是一个巨大的工程。下面我们一起来看下spark的底层执...
DeepSeek狂飙,你的数据跟上了吗?“数据编织”了解一下
想象一座城市中的孤岛,过去我们建造实体桥梁(数据复制)连接它们;而数据编织则是创建'虚拟传送门',让这些孤岛在保持独立的同时实现无缝连接。它解决的不仅是数据的物理隔离,更是数据的理解...
MySQL数据库基础(九):SQL约束
SQL约束 一、主键约束 遵循原则: 创建主键约束: 删除主键约束:如需撤销 PRIMARY KEY 约束,请使用下面的 SQL 补充:自动增长 我们通常希望在每次插入新记录时,数据库自动生成字段的值。 我...
Spark数据倾斜解决
一、数据倾斜表现 数据倾斜就是数据分到各个区的数量不太均匀,可以自定义分区器,想怎么分就怎么分。 Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据...
领导问:那个信息部门一天到晚在做什么?
一谈起企业数字化转型建设,就不得不说一下信息部门,在整个数字化建设过程中不同的企业由于对数字化认知的不同,信息部门要么被重视,要么被边缘化,在数字化价值体现难的情况下信息部门的地位...
Hive知识体系保姆级教程
Hive涉及的知识点如下图所示,本文将逐一讲解: 正文开始: 一. Hive概览 1.1 hive的简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功...
一文讲透数据仓库命名规范
正文开始 引言 在当今数据驱动的商业环境中,数据仓库已成为企业决策的核心支撑。然而,随着数据量的急剧增长和数据复杂性的提高,如何有效管理和使用这些数据成为了一个巨大的挑战。其中,一个经常...
MySQL数据库基础(六):DDL数据库操作
DDL数据库操作 一、MySQL的组成结构 注: 一个MySQL DBMS可以同时存放多个数据库,理论上一个项目就对应一个数据库。如博客项目blog数据库、商城项目shop数据库、微信项目wechat数据库。 一个数...
MySQL数据库基础(十一):多表查询
多表查询 一、交叉连接(了解) 它是所有连接的基础,其功能就是将表1和表2中的每一条数据进行连接。 结果: 字段数 = 表1字段 + 表2的字段 记录数 = 表1中的总数量 * 表2中的总数量(笛卡尔积...












