五分钟学大数据
五分钟学大数据
大数据2023总结大数据
2023年即将过去,又到了一年一度的技术总结时刻,在这一年,参与了多个大数据项目的开发建设工作,也参与了几个数仓项目的治理优化工作,在这么多的项目中,让我印象比较深刻的就是在使用Spark引擎执行任务出现的报错现象,接下来就回顾复盘下这次任务报错现象及具体的解决方案。因为现在大多数的批量任务都是使用Spark去执行,所以Spark的地位在公司是举足轻重,那么对于Spark的深入理解和优化显得尤为重
1359
12
1
6
云原生社区征文
远程办公,是一种工作时和同事不在一处、空间上彼此隔离的工作状态。因为疫情,这个词出现的频率非常高,今年因为疫情反复的影响,国内的许多公司都不得不进行远程办公的实践。我最近也一直远程办公,准确点说是居家办公,这就引出了一个问题,远程办公和公司办公的区别是什么,怎么提高远程办公的效率以期达到与公司办公的效率甚至超出。接下来就我最近居家办公的一点心得与大家探讨此问题。作为一名打工人,以下看法更多的是站在
550
27
0
2
大数据社区征文数据治理
在谈数仓之前,先来看下面几个问题:用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容
937
3
0
1
大数据社区征文
本文结构采用宏观着眼,微观入手,从整体到细节的方式剖析 Hive SQL 底层原理。第一节先介绍 Hive 底层的整体执行流程,然后第二节介绍执行流程中的 SQL 编译成 MapReduce 的过程,第三节剖析 SQL 编译成 MapReduce 的具体实现原理。Hive是什么?Hive 是数据仓库工具,再具体点就是一个 SQL 解析引擎,因为它即不负责存储数据,也不负责计算数据,只负责解析 SQ
354
1
0
0
大数据
目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切,需要实时数仓的能力来赋能。传统离线数仓的数据时效性是 T+1,调度频率以天为单位,无法支撑实时场景的数据需求。即使能将调度频率设置成小时,也只能解决部分时效性要求不高的场景,对于实效性要求很高的场景还是无法优雅的支撑。因此实时使用数据的问题必须得到有效解决。实时计算框架已经经历了三代发展,分别是:Storm、SparkStreamin
739
1
0
1