全面认识数仓开发之数据指标体系
什么是数据指标体系? 数据指标指标数据 数据:数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、...
2万字揭秘阿里巴巴数据治理实践经验
00 前言 阿里巴巴一直将数据作为自己的核心资产与能力之一,通过多年的实践探索建设数据应用,支撑业务发展。在不断升级和重构的过程中,我们经历了从分散的数据分析到平台化能力整合,再到...
数仓面试中3个常考的SQL数据分析题
在数据类岗位招聘过程中,经常会考察求职者的SQL能力,这里整理了3个常考的SQL数据分析题,按照由简单到复杂排序,一起来测试一下你掌握了么? PS:以下SQL代码在MySQL8.0及其以上版本运行。 题...
MCP在数据领域的应用探索
在一个周五的深夜,老王被一通紧急电话从梦中叫醒。电话来自某零售巨头的首席营销官(CMO),他急需一份关于“本季度华东区新客转化率最高的营销活动及其关联的用户负面反馈”的报告,用于周一...
Spark底层执行原理详细解析
Spark简介 大规模数据处理高容错性高可伸缩性 Spark源码从1.x的40w行发展到现在的超过100w行,有1400多位大牛贡献了代码。整个Spark框架源码是一个巨大的工程。下面我们一起来看下spark的底层执...
毕马威:数据资产运营的“三要素”与“四重奏”
正文开始 数据资产运营是挖掘数据价值的有效引擎,能够决定企业数字化转型蜕变之路的成败。 未来,数据资产运营将成为企业商业价值实现的重要一环,如何有效掌握这一关键,全面释放数据潜能,将...
Flink+Kafka存在诸多限制,下一代实时存储组件来解决!
5. Fluss 开源 当前业界呈现出一个显著的趋势,即大数据的处理正在从离线模式转向实时化。我们可以观察到,多个行业和应用场景都在进行实时化的演进。例如,互联网、车联网和金融等领域都正通过...
大数据架构平台搭建指南及数据仓库演进
一、大数据架构平台搭建指南 虽然大数据平台组件很多,但是对于没有参与建设过大数据平台的朋友来说,当前众多的大数据组件和平台架构容易让人眼花缭乱。 本文首先介绍了大数据架构平台的组件架...
Hive、SparkSQL是如何决定写文件的数量的?
1. Hive 1.1 without shuffle Hive在通过SQL写文件是通过MapReduce任务完成的,如下面这个例子: 在表中插入数据后,可以hdfs对应路径下找到存储的文件 可以看到插入生成了1个文件,这是因为每...
PostgreSQL基础(六):PostgreSQL基本操作(二)
PostgreSQL基本操作(二) 一、字符串类型 字符串类型用的是最多的一种,在PGSQL里,主要支持三种: character(就是MySQL的char类型),定长字符串。(最大可以存储1G) character varying(va...












