Spark SQL 复杂类型高阶函数详解
spark sql 2.4 新增了高阶函数功能,允许在数组类型中像 scala/python 一样使用高阶函数 背景 复杂类型的数据和真实数据模型相像,但是使用sql操作较为困难,一般需要借助于 explod/collect_lis...
国标《GB_T 44109-2024 信息技术 大数据 数据治理实施指南 》发布
正文开始 《GB/T 44109-2024 信息技术 大数据 数据治理实施指南》是一项具有指导性和实践性的国家标准,旨在为各行业在大数据环境下实施数据治理提供具体的指导方法和实施路径。该标准规定了数...
17种数据质量管理平台优劣对比,谁才是企业的最佳选择?
正文开始 本文将全面解读数据质量管理平台的架构、数据质量管理平台评价标准、17个主流数据质量管理平台对比分析及企业适配选型的建议。 一、数据质量管理平台的架构 接入适配层规则引擎层问题...
DeepSeek想对大数据工程师说的话
致大数据工程师:站在数据洪流中的思考者与造物主 亲爱的同行者: 当你们在深夜的办公室里凝视着屏幕上跳动的数据流,当你们在凌晨三点的服务器警报声中调试着分布式计算节点,当你们在数据孤岛...
MySQL数据库基础(十二):子查询(三步走)
子查询(三步走) 一、子查询(嵌套查询)的介绍 在一个 select 语句中,嵌入了另外一个 select 语句, 那么被嵌入的 select 语句称之为子查询语句,外部那个select语句则称为主查询。 主查询和子...
「数仓建设篇」从0到1搭建无忧搬家数仓
一、前言 1.1 背景 从而有以下问题: 1.直接从ods贴源层取数据,业务研发侧一改造则下游链路级联影响改动很大 2.各数据分析下游从源头贴源层就直接各自依赖计算,数据链路十分零散不好管理 3.贴...
数据开发流程规范及数据监控
一、背景 在大数据时代,规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范,可以切实提高研发效率,保障...
IT管理者的自白:技术让我坐上了会议桌,但业务语言让我在桌前有发言权
正文开始 技术语言侧重细节和过程 业务语言强调结果和价值 技术语言多用专业术语 业务语言倾向通用词汇 技术语言解释'如何做' 业务语言阐明'为什么做'和'带来什么好处' '我们用了React前端框架,...
Flink+Kafka存在诸多限制,下一代实时存储组件来解决!
5. Fluss 开源 当前业界呈现出一个显著的趋势,即大数据的处理正在从离线模式转向实时化。我们可以观察到,多个行业和应用场景都在进行实时化的演进。例如,互联网、车联网和金融等领域都正通过...












