排序
Spark底层执行原理详细解析
Spark简介 大规模数据处理高容错性高可伸缩性 Spark源码从1.x的40w行发展到现在的超过100w行,有1400多位大牛贡献了代码。整个Spark框架源码是一个巨大的工程。下面我们一起来看下spark的底层执...
ChatGPT:1小时学会DAMA数据管理(下)
ChatGPT:1小时学会DAMA数据管理(上) ChatGPT:1小时学会DAMA数据管理(中) 第12章 元数据管理 (一)数据的故事 某大型零售连锁企业决定实施元数据管理项目,以提升数据治理能力和决策效率...
Spark知识体系五万字讲解,学习与面试收藏这篇就够了!
一、Spark 基础二、Spark Core三、Spark SQL四、Spark Streaming五、Structured Streaming六、Spark 两种核心 Shuffle七、Spark 底层执行原理八、Spark 数据倾斜九、Spark 性能调优十、Spark 故...
【果总谈BI】数据归IT,分析归业务
企业知识开源首席布道师陈果的答案是:数据归IT,分析归业务。即IT部门主要负责管理好数据、提供好工具,分析本质上是业务要做的事情。 为何会有这样的结论?陈果在「敏捷·创变——2024观远数...
Elasticsearch 保姆级教程(文末送书)
Elasticsearch 介绍 1. Elasticsearch Elasticsearch 是一个基于 Apache Lucene 的开源搜索引擎。无论在开源还是专有领域,Lucene 可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎...
深入剖析HDFS 3.0版本EC技术,节省一半存储但拥有三副本机制相同的容错能力
正文开始: HDFS 3.x 数据存储新特性-纠删码 纠删码 1. EC介绍 Erasure Coding 简称 EC,中文名:纠删码 条带化技术就是一种自动将 I/O 的负载均衡到多个物理磁盘上的技术 条带化单元 2. HDFS...
ClickHouse、Doris、 Impala等MPP架构详解
我们常用的大数据计算引擎有很多都是MPP架构的,像我们熟悉的Impala、ClickHouse、Druid、Doris等都是MPP架构。 亿级秒开 详解MPP架构MPP架构与批处理架构的异同点采用MPP架构的OLAP引擎介绍 一...
「Hive进阶篇」万字长文超详述Hive企业级优化
文章字数:13271字 预计阅读需:18分钟 有需要可 点赞+在看 关注公众号《大数据阶梯之路》找小编获取文档保存本地吧,学习和复习都是绝佳,公众号不断分享技术相关文章 一、问题背景 主要从...
PostgreSQL基础(三):PostgreSQL的基础操作
PostgreSQL的基础操作 只在psql命令行(客户端)下,执行了一次l,查看了所有的库信息。 可以直接基于psql查看一些信息,也可以基于psql进入到命令行后,再做具体操作。 可以直接基于psql去玩 ...
开源大数据OLAP引擎最佳实践
本篇内容将通过六个部分来介绍开源大数据OLAP引擎最佳实践。 图片说明: image.png 图片说明: image.png 图片说明: image.png 图片说明: image.png 图片说明: image.png 图片说明: image.png 图...











