火山引擎E-MapReduce团队
火山引擎E-MapReduce团队
大数据大数据数据中台数据湖仓
23年8月16日~18日,由IT168联合旗下 ITPUB、ChinaUnix 两大技术社区主办的第14届中国数据库技术大会(DTCC2023)在北京国际会议中心隆重召开。火山引擎开源大数据平台 EMR 技术专家杜军令受邀参加【数据湖与实时数仓技术应用实践】专场,并进行了名为《字节基于开源 OLAP 引擎的探索与实践》主题分享。本文总结了此次分享的关键内容和分享材料。目前 OLAP 引擎在用户的报
1155
0
0
0
大数据大数据数据中台数据湖仓
2023 年 8 月 17 日,StarRocks 社区举办了云原生湖仓第二期 Meetup --“StarRocks 存算分离技术探索”,火山引擎云原生开源大数据平台 EMR 技术专家杜军令受邀进行了《火山引擎 EMR 在 StarRocks 成本优化上的思考》主题分享,并与其他与会嘉宾沟通探讨了 StarRocks 存算分离技术及应用实践等话题。本文总结了此次分享的关键内容和分享材料。针对存算
1022
0
0
0
大数据大数据数据中台数据湖仓
途牛科技与火山引擎数智平台合作 打造企业大数据系统“降本”新范式近日,南京途牛科技有限公司与火山引擎数智平台(VeDI)的合作获得新进展:途牛大数据系统全面迁移至火山引擎开源大数据平台E-MapReduce。作为国内专注休闲旅游的数字一体化旅游服务商,南京途牛科技有限公司(以下简称“途牛”)旗下的【途牛旅游网】可以为线上、线下消费者提供包括跟团、自助、自驾、邮轮、景区门票以及公司旅游、机票、酒店等
72
0
0
0
大数据大数据数据中台数据湖仓
目前,火山引擎数智平台(VeDI)旗下产品 E-MapReduce(简称“EMR”)已上线 StarRocks 集群,持续为不同行业的企业客户带来业界领先的引擎性能和产品使用体验。StarRocks 在业务侧可支撑报表系统的加速和查询,常用于广告投放效果分析、运营数据报表分析、DashBorad 看板等。 在用户画像分析的场景下,利用 Bitmap 位图技术,可以解析前端圈群过程,对复杂人群圈选进
156
0
0
0
大数据数据湖仓大数据数据中台
传统OLAP架构,解决的更多是离线分析场景的需求,随着大规模数据服务场景的增多,业务侧不断有新的诉求提出,对数据分析的时效性要求变高,当前架构中存储和计算资源耦合,不同业务、时段及用户对二者要求往往不同,导致集群响应不够及时等问题。本文重点分享OLAP在火山引擎EMR上的云原生能力及在火山相关客户中的应用实践。本文来源于火山引擎 EMR 团队大数据工程师琚克俭在【DataFunSummit 202
296
0
0
0
大数据数据湖仓数据中台大数据
Apache Iceberg 是一种开源数据 Lakehouse 表格式,提供强大的功能和开放的生态系统,如:Time travel,ACID 事务,partition evolution,schema evolution 等功能。本文将讨论火山引擎EMR团队针对 Iceberg 组件的优化思路,通过引入索引来提高查询性能。火山引擎 E-MapReduce(简称 EMR)是火山引擎数智平台(VeD
817
0
0
0
大数据数据中台大数据数据湖仓
火山引擎 EMR 作为一款云原生开源大数据平台产品,集成了包括 Hadoop、Spark、Flink 等引擎,并做到100%开源兼容。Doris 作为 OLAP 领域中一款极具代表性的开源组件,也被集成到了火山引擎 EMR 产品生态中。本文主要介绍 Apache Doris 设计和开发数据湖联邦分析特性的思考和实践。全文分为三部分,首先介绍数据湖相关技术的演进,其次介绍 Apache Doris
948
0
0
0
大数据数据湖仓
火山引擎 EMR 作为一款云原生开源大数据平台产品,集成了包括 Hadoop、Spark、Flink 等引擎,并做到100%开源兼容。Doris 作为 OLAP 领域中一款极具代表性的开源组件,也被集成到了火山引擎 EMR 产品生态中。本文来源于山引擎 EMR 团队大数据工程师昭伟在 Doris Summit 2022 中的同名主题分享,将为大家详细介绍火山引擎 EMR 是一款怎样的产品,火山引擎
1231
0
0
0
大数据数据湖仓
本文转载自大数网关于火山引擎 EMR Stateless 理念的解读文章。日前,火山引擎E-MapReduce(简称“EMR”)正式上线无状态集群能力,由此拉开从云上EMR向EMR Stateless进化的新序幕。大家都熟悉,开源大数据平台最早部署在传统IDC中,后随着云的普及,发展成为云上EMR,如今,在技术进步和用户需求的双重驱动下,火山引擎率先提出了EMR Stateless的理念。EMR
100
0
0
0
大数据数据湖仓
什么是瞬态集群,什么是 Stateless 理念?本文从基础概念、架构体系、演进过程、实际运用场景&使用价值等多个角度全方位介绍 EMR Stateless 的创新理念以及应用。本文为火山引擎EMR团队产品经理林飞在超话数据直播活动实录。众所周知,基于 Hadoop 的 EMR 体系发展到现在,经历了很多个阶段。从基于 IDC 机房通过 CDH 去部署的 1. 0 阶段,演进到在公有云上面按照存算
189
0
0
0
大数据数据湖仓
本文为火山引擎E-MapReduce团队研发工程师杜军令在DataFunSummit大会的演讲实录Doris是一种MPP架构的分析型数据库,主要面向多维分析,数据报表,用户画像分析等场景。自带分析引擎和存储引擎,支持向量化执行引擎,不依赖其他组件,兼容MySQL协议。Apache Doris具备以下几个特点:良好的架构设计, 支持高并发低延时的查询服务,支持高吞吐量的交互式分析。多FE均可对外提供
724
0
0
0
大数据数据湖仓
SparkSQL是Spark生态系统中非常重要的组件。面向企业级服务时,SparkSQL存在易用性较差的问题,导致难满足日常的业务开发需求。本文将详细解读,如何通过构建SparkSQL服务器实现使用效率提升和使用门槛降低。Spark 组件由于其较好的容错与故障恢复机制,在企业的长时作业中使用的非常广泛,而SparkSQL又是使用Spark组件中最为常用的一种方式。相比直接使用编程式的方式操作Spa
413
1
0
0