Hive SQL底层执行过程详细剖析
Hive是什么?Hive 是数据仓库工具,再具体点就是一个 SQL 解析引擎,因为它即不负责存储数据,也不负责计算数据,只负责解析 SQL,记录元数据。 Hive直接访问存储在 HDFS 中或者 HBase 中的文件...
Spark SQL 复杂类型高阶函数详解
spark sql 2.4 新增了高阶函数功能,允许在数组类型中像 scala/python 一样使用高阶函数 背景 复杂类型的数据和真实数据模型相像,但是使用sql操作较为困难,一般需要借助于 explod/collect_lis...
如何重新定义LLM大模型的数据质量?
1粉丝:我们团队习惯了做业务数据的质量监控,有成熟的完整性、一致性、准确性校验方法。但现在接触音频、图像数据,以前的经验好像都用不上。这种非结构化数据,质量到底该怎么评估和提升? 说...
MySQL数据库基础(十四):E-R模型及表间关系
E-R模型及表间关系 一、E-R模型的使用场景 对于大型公司开发项目,我们需要根据产品经理的设计,先使用建模工具, 如:power designer,db desinger等这些软件来画出实体-关系模型(E-R模型) 然后...
业务部门的“不作为”杀死了数据治理?
'我们业务太忙!' 当你想把数据治理的失败归咎于这句话时,就要想想:业务为什么不配合? 这就像一个项目经理抱怨开发不写文档——你也得先问问自己,写这文档到底有什么用。 业务其实一直在做...
MySQL数据库基础(九):SQL约束
SQL约束 一、主键约束 遵循原则: 创建主键约束: 删除主键约束:如需撤销 PRIMARY KEY 约束,请使用下面的 SQL 补充:自动增长 我们通常希望在每次插入新记录时,数据库自动生成字段的值。 我...
数仓之路:数仓中的问题与解决方案
小A进入一家网约车出现服务公司,负责公司数仓建设,试用期主要一项 OKR是制定数据仓库建设规划;因此小 A 本着从问题出发为原点,先对公司数仓现状进行一轮深入了解,理清存在问题,然后在以不...
MySQL数据库基础(五):SQL语言讲解
SQL语言讲解 一、SQL概述 结构化查询语言(Structured Query Language)简称SQL,是关系型数据库管理系统都需要遵循的规范,是数据库认识的语句。不同的数据库生产厂商都支持SQL语句,但都有特有...
Hive窗口函数保姆级教程
在SQL中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是有时我们想要既显示聚集前的数据...












