Hive、SparkSQL是如何决定写文件的数量的?
1. Hive 1.1 without shuffle Hive在通过SQL写文件是通过MapReduce任务完成的,如下面这个例子: 在表中插入数据后,可以hdfs对应路径下找到存储的文件 可以看到插入生成了1个文件,这是因为每...
数仓主题域与主题划分
这次我会结合本人数仓工作实践总结的经验来聊聊数仓主题域划分,同时会引申出主题划分,和数据域是什么,业务过程等。 这个对于大数据数仓工程师来说是必备的能力,比如当你面临着一个新业务的...
数据仓库之数据质量建设(深度好文)
正文开始: 数仓建设真正的难点不在于数仓设计,而在于后续业务发展起来,业务线变的庞大之后的数据治理数据质量治理 数据产生->数据接入->数据存储->数据处理->数据输出->数据...
OLTP与OLAP:技术“双雄”的爱恨情仇!
开篇:一场千万级的技术争执 某金融科技公司季度架构评审会上,CTO西装革履地站在投影前,语气铿锵: 下季度目标:实现OLTP和OLAP系统全面融合! CTO微微一笑:'阿里都做HTAP了,难道我们就不行...
MySQL数据库基础(八):DML数据操作语言
DML数据操作语言 一、DML包括哪些SQL语句 insert插入、update更新、delete删除 二、数据的增删改(重点) 增加:insert 删除:delete 修改:update 1、数据的增加操作 基本语法: 特别注意:在S...
大数据平台中的企业级数仓建设(好文收藏)
本文目录:一、模型设计二、数据架构三、数据治理 随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处...
PostgreSQL基础(十四):PostgreSQL的数据迁移
PostgreSQL的数据迁移 PostgreSQL做数据迁移的插件非常多,可以从MySQL迁移到PostgreSQL也可以基于其他数据源迁移到PostgreSQL。 这种迁移的插件很多,这里只说一个,pgloader(非常方便) 以My...
ClickHouse 在什么场景下才管用?
ClickHouse 是近年来分析型数据库的热点,一向以快著称,很多其它以性能为卖点的分析型数据库也常常会用它作为一个对比标杆。很多用户碰到数据库运算性能问题时,也会考虑转向求助于 ClickHouse...
PostgreSQL基础(七):表的基本操作(一)
表的基本操作(一) 表的构建语句,基本都会。 核心在于构建表时,要指定上一些约束。 一、约束 1、主键 2、非空 3、唯一 4、检查 5、外键 目前国内很多公司不玩这个,坑比较多,最好不要玩,真...
数据安全治理已迫在眉睫!
你是否遭遇过如下场景: 不知何时,你的手机暴响,一个暧昧或口气浑浊的女音如同刚刚和你劈过腿的问你:大哥,你最近股票赚吗?我拉你进一个免费的股票交流群吧! 你果断挂掉电话,将其拉入黑名...












