排序
什么是HBase?终于有人讲明白了
初识HBase HBase 是一个面向列式存储的分布式数据库,其设计思想来源于 Google 的 BigTable 论文。HBase 底层存储基于 HDFS 实现,集群的管理基于 ZooKeeper 实现。HBase 良好的分布式架构设计...
小米基于Spark3.1搭建数据开发平台实践
1. Multiple Catalog 落地与应用 2. Hive SQL 迁移 Spark SQL 3. 离线场景下 Spark 的稳定性与性能优化 4. 未来规划 5. 问答环节 01 2.Spark3的元数据管理 Hive SQL迁移 Spark SQL 2.语法...
浅谈DeepSeek对于数据分析师的赋能
在数据驱动决策的时代,效率就是生产力。DeepSeek作为AI助手,如何帮助数据分析师解放双手、提升10-100倍效率?本文带你深入了解这一革命性工具。 引言 数据分析师的日常是什么?清洗数据、探索...
Elasticsearch 保姆级教程(文末送书)
Elasticsearch 介绍 1. Elasticsearch Elasticsearch 是一个基于 Apache Lucene 的开源搜索引擎。无论在开源还是专有领域,Lucene 可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎...
ChatGPT:1小时帮你读懂DAMA(中)
《DAMA数据管理支持体系指南(原书第2版)》 17个章节共2.5万字 第7章到第11章 数据安全 数据集成和互操作 文件和内容管理 参考数据和主数据 数据仓库和商务智能 为了降低理解门槛,本文会按照...
MySQL数据库基础(八):DML数据操作语言
DML数据操作语言 一、DML包括哪些SQL语句 insert插入、update更新、delete删除 二、数据的增删改(重点) 增加:insert 删除:delete 修改:update 1、数据的增加操作 基本语法: 特别注意:在S...
Spark重要知识汇总
一、Spark 是什么 大规模数据处理的统一分析引擎,也可说是分布式内存迭代计算框架。 二、Spark 四大特点 三、Spark框架模块介绍 3.1、Spark Core的RDD详解 3.1.1、什么是RDD 不可变、可分区、...
数仓进阶_基于Bitmap快速实现留存指标计算
我们在计算留存指标(次留、3留、7留、15留、30留)的时候,通常情况下会使用以下公式: 第N日留存率公式 = (T日访问用户)∩ (T+N日访问用户) / (T日访问用户),这种实现方式,具有很好的代码可维...
【2025年上半】Doris在各大公司生产实践方案和优化总结
大家好,今天分享的文章是Doris在各大公司生产实践的一些总结。 Doris经过多年的持续深耕,从最初的单纯的OLAP能力上逐步取代上一代的查询引擎,并且在跟ES、ClickHouse等同一生态位的竞品竞争...










