排序
一文读懂AI黑话:31个最流行的大模型术语(图解珍藏版)
一、时代基石 构成整个大语言模型时代的根基,是理解一切的前提。 1. 生成式AI (Generative AI) 2. Transformer架构 (Transformer Architecture) 3. 基础模型 (Foundation Models) 4. 预训练与...
Shuffle慢?数据倾斜?Spark 1.0~4.0调优秘籍
一、背景 Spark SQL 通过缓存优化、分区管理、统计信息利用和动态执行计划调整等技术,显著提升 DataFrame 或 SQL 任务的性能。合理配置以下策略可解决数据倾斜、内存溢出、执行效率低下等常见...
ClickHouse、Doris、 Impala等MPP架构详解
我们常用的大数据计算引擎有很多都是MPP架构的,像我们熟悉的Impala、ClickHouse、Druid、Doris等都是MPP架构。 亿级秒开 详解MPP架构MPP架构与批处理架构的异同点采用MPP架构的OLAP引擎介绍 一...
国标《GB_T 44109-2024 信息技术 大数据 数据治理实施指南 》发布
正文开始 《GB/T 44109-2024 信息技术 大数据 数据治理实施指南》是一项具有指导性和实践性的国家标准,旨在为各行业在大数据环境下实施数据治理提供具体的指导方法和实施路径。该标准规定了数...
HBase分布式数据库入门介绍
一、简单介绍 HBase是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式 NOSQL 数据库。 当你需要随机、实时读/写访问大数据时,请使用 Apache HBase。 作用 名称解释: NameSpace Regio...
数据安全:一文讲透数据使用中的安全技术(访问、防泄漏、脱敏、水印、审计和监测)
目的:为不同角色分配完成职责所需的最小数据访问权限。 实现方式: a) 身份认证:确认用户身份 b) 权限分配:基于角色和职责分配访问权限 c) 最小授权原则:只给予完成任务所需的最小权限 技术...
滴滴指标标准化实践
滴滴指标标准化实践 ================================================== 导读 1. 指标管理背景 2. 滴滴数据产品概况 3. 指标标准化建设 4. 后续规划 5. Q&A 分享嘉宾|曾晶 滴滴 ...
Paimon数据丢失的常见场景和注意事项(避坑版)
Paimon数据丢失的常见场景和注意事项(避坑版) 大家好,我们又见面了。今天的内容很短小,关于写Paimon数据丢失的几种场景。 Paimon是数据湖领域最被广泛使用的框架之一。数据入Paimon的过程中造...
Hive窗口函数保姆级教程
在SQL中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是有时我们想要既显示聚集前的数据...









