两个优秀的分布式消息流平台:Kafka与Pulsar剖析
本文向读者介绍两个优秀的分布式消息流平台:Kafka与Pulsar。Kafka与Pulsar。 Apache Kafka(简称Kafka) Apache Pulsar(简称Pulsar) 基础功能: (1)消息系统: 优点: 系统解耦:生产者与...
一文读懂数仓模型与数据建模全过程
一文读懂数仓模型与数据建模全过程 ================================================== 在不少企业的数据系统中,可能会遇到这样的问题: 不同系统里都有个叫“客户ID”的字段,一个是营销系...
ChatGPT、Claude的数据分析能力已经到了何种水平?
ChatGPT 4o现在也具备了该能力,但距离Claude 3.5有差距,比如针对案例一,其识别出的数据明显不准确,200602的离网用户数被识别为了52000,但肉眼可见的数据应该在70000以上。 针对案例二,把...
MySQL数据库基础(五):SQL语言讲解
SQL语言讲解 一、SQL概述 结构化查询语言(Structured Query Language)简称SQL,是关系型数据库管理系统都需要遵循的规范,是数据库认识的语句。不同的数据库生产厂商都支持SQL语句,但都有特有...
Spark数据倾斜解决
一、数据倾斜表现 数据倾斜就是数据分到各个区的数量不太均匀,可以自定义分区器,想怎么分就怎么分。 Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据...
华为大数据解决方案 (文末附PPT下载)
导读: 一、内容 1. 大数据发展趋势 2. 华为大数据平台关键技术 3. 华为大数据平台行业实践 4. 华为大数据平台案例详述4. 华为大数据平台案例详述
干货下载 _ 自然堂集团ChatBI(AI+BI)建设与实践案例精讲
当下大模型技术如火如荼,为BI领域带来了前所未有的想象力和创新空间。相较传统BI,ChatBI不再局限于传统的报告和仪表板,而是向着更加智能、更简洁的交互式方向发展,有效降低了企业数据应用门...
2024版最新最强大数据面试宝典
此套面试题来自于各大厂的真实面试题及常问的知识点,如果能理解吃透这些问题,你的大数据能力将会大大提升,进入大厂指日可待! 目前已经更新到第5版,广受好评! 复习大数据面试题,看这一套...
数仓进阶_基于Bitmap快速实现留存指标计算
我们在计算留存指标(次留、3留、7留、15留、30留)的时候,通常情况下会使用以下公式: 第N日留存率公式 = (T日访问用户)∩ (T+N日访问用户) / (T日访问用户),这种实现方式,具有很好的代码可维...














