排序
数仓进阶_基于Bitmap快速实现留存指标计算
我们在计算留存指标(次留、3留、7留、15留、30留)的时候,通常情况下会使用以下公式: 第N日留存率公式 = (T日访问用户)∩ (T+N日访问用户) / (T日访问用户),这种实现方式,具有很好的代码可维...
【2025年上半】Doris在各大公司生产实践方案和优化总结
大家好,今天分享的文章是Doris在各大公司生产实践的一些总结。 Doris经过多年的持续深耕,从最初的单纯的OLAP能力上逐步取代上一代的查询引擎,并且在跟ES、ClickHouse等同一生态位的竞品竞争...
小米基于Spark3.1搭建数据开发平台实践
小米基于Spark3.1搭建数据开发平台实践 ================================================== 1. Multiple Catalog 落地与应用 2. Hive SQL 迁移 Spark SQL 3. 离线场景下 Spark 的稳定性与...
Flink+Kafka存在诸多限制,下一代实时存储组件来解决!
5. Fluss 开源 当前业界呈现出一个显著的趋势,即大数据的处理正在从离线模式转向实时化。我们可以观察到,多个行业和应用场景都在进行实时化的演进。例如,互联网、车联网和金融等领域都正通过...
PostgreSQL基础(一):PostgreSQL入门介绍
PostgreSQL入门介绍 一、介绍 开源 PostgreSQL的开源协议和Linux内核版本的开源协议是一样的。。BDS协议,这个协议基本和MIT开源协议一样,说人话,就是你可以对PostgreSQL进行一些封装,然后商...
一文讲透数据仓库命名规范
正文开始 引言 在当今数据驱动的商业环境中,数据仓库已成为企业决策的核心支撑。然而,随着数据量的急剧增长和数据复杂性的提高,如何有效管理和使用这些数据成为了一个巨大的挑战。其中,一个经常...
大数据平台中的企业级数仓建设(好文收藏)
本文目录:一、模型设计二、数据架构三、数据治理 随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处...
数据孤岛被打破,采集1万+,使用100张?
'我们终于把数据孤岛打通了!集团所有系统的数据全接进来了,一万多张表!' 前阵子,一家传统制造企业的朋友打电话给我,声音里透着那种项目验收后的亢奋。 我心里咯噔一下,但还是问:'牛啊!...
2万字长文,最全面的Hive开窗函数讲解和实战指南(必看)
导读: 文章来源于:白程序员的自习室 预计阅读需:20分钟 分享这篇好文的原因是我觉得契合我最近写作的主题【Hive开发】,《大数据阶梯之路》公众号内分享的文章也都是我经过挑选的,欢迎大家...









