云原生开源大数据平台 EMR 专栏
云原生开源大数据平台,提供企业级的 Hadoop、Spark、Flink、Hive、Presto、Kafka、Doris、StarRocks、Hudi、Iceberg 等大数据生态组件,100%开源兼容,快速构建企业级大数据平台,降低运维门槛,快速形成大数据分析能力。
42
大数据数据中台大数据数据湖仓
2021年12月2日,火山引擎在“新云·共未来”发布会上推出两款数据产品——湖仓一体分析服务(Lakehouse Analysis Services)和 E-MapReduce 服务,帮助企业构建湖仓架构的大数据平台。伴随着移动互联网、5G、AI、IoT的飞速发展,企业数据建设正处于更大规模和更加多样的变化趋势中。随着企业业务持续和规模化上云,数据分析系统和应用正逐步面向公有云进行构建或迁移,云上
310
0
0
0
大数据数据中台大数据数据湖仓
企业级数仓架构设计与选型的时候需要从开发的便利性、生态、解耦程度、性能、 安全这几个纬度思考。本系列分两次连载,第一部分(本文)分享我们在企业级数仓建设上的技术选型观点,第二个部分则重点介绍了字节跳动数据平台在通过 SparkSQL 进行企业级数仓建设的实践。 文 | 惊帆 来自 字节跳动数据平台 EMR 团队Apache Hive 经过多年的发展,目前基本已经成了业界构建超大规模数据仓库的事实标
283
0
0
0
大数据数据中台大数据数据湖仓
  12月2日,火山引擎在"新云·共未来"发布会上正式对外发布:大数据研发治理套件(DataLeap)公有云版、ByteHouse 云数仓版、湖仓一体分析服务及 E-MapReduce 服务等四款面向企业用户的数据产品,未来将通过敏捷迭代的产品,持续帮助企业构建数智引擎。在数智引擎分论坛上,火山引擎进一步诠释四款产品的重点能力,深度介绍当前数据产品如何通过组合式解决方案,形成“1+1>2”的复合效
267
0
0
0
大数据数据中台大数据数据湖仓
由字节跳动数据湖团队贡献的 RFC-29 Bucket Index 在近期合入 Hudi 主分支,本文详细介绍 Hudi Bucket Index 产生的背景与实践经验。 文 | 字节跳动数据平台数据湖团队Hudi 是一个流式数据湖平台,提供 ACID 功能,支持实时消费增量数据、离线批量更新数据,并且可以通过 Spark、Flink、Presto 等计算引擎进行写入和查询。Hudi 官方对于文件
274
0
0
0
大数据数据中台大数据数据湖仓
2021年12月2日,云产品发布会「数智引擎」分论坛上,火山引擎数据平台产品总监张辉带来了题为《敏捷研发、分布自治:业务为先的数据中台新模式》的演讲。 火山引擎数据平台产品总监张辉以下为演讲正文:大家好,我是张辉,今天分享的主题是关于“数据中台”。我们在这个领域沉淀了多年经验,也积累了一些思考,希望能借今天这个机会与大家交流。今天的分享有三个关键词:业务为先、敏捷研发、分布自治。业务为先:这是字节
285
1
0
0
大数据数据中台大数据数据湖仓
本文重点介绍了字节跳动 EMR 产品在 SparkSQL 的优化实践。 文 | 惊帆 来自 字节跳动数据平台EMR团队Hudi、Iceberg等数据湖引擎目前使用的越来越广泛,很多B端客户在使用Spark SQL的时候也存在需要使用数据湖引擎的需求,因此字节EMR产品需要将数据湖引擎集成到Spark SQL中,在这个过程碰到非常多的问题。首先在与Iceberg集成的时候,对体验和易用的问题进行了优
291
0
0
0
大数据大数据数据中台数据湖仓
近日,中国信息通信研究院联合中国通信标准化协会(以下将简称“通标协”)在京召开了2022大数据产业峰会。大会以“开启数智化新篇章”为主题,对数智化相关技术与产业热点进行了研讨,中国信息通信研究院云计算与大数据所大数据与区块链部副主任(主持工作)姜春宇在会上正式发布《中国数智化产业图谱1.0》,其中火山引擎数据中台、增长营销套件入围中国数智化产业图谱1.0。当前,数智化产业仍处于发展初期,为进一步梳
211
0
0
0
大数据数据中台大数据数据湖仓
字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。 文 | 字节跳动数据平台数据湖团队字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。该方案在存储层提供对多流数据的关联能力,旨在解决实时场景下多流 JOIN 遇到的一系列问题。接下来,本文会详
253
0
0
0
大数据数据中台大数据数据湖仓
9月2日,火山引擎数据智能科技峰会在杭州举办,字节跳动数据平台负责人罗旋在会上首次发布火山引擎数智平台 VeDI 技术图谱。罗旋介绍,火山引擎数智平台 VeDI 的技术能力囊括“大数据引擎”、“大数据管理”和“大数据应用”3大核心方向,覆盖“数据存储”、“数据计算”、“行为分析”、“智能洞察”在内的13大细分场景。本次发布的技术图谱,总共展示了火山引擎数智平台 VeDI 近百个开放中的数据技术能力
220
0
0
0
大数据数据中台大数据数据湖仓
SparkSQL是Spark生态系统中非常重要的组件。面向企业级服务时,SparkSQL存在易用性较差的问题,导致难满足日常的业务开发需求。本文将详细解读,如何通过构建SparkSQL服务器实现使用效率提升和使用门槛降低。Spark 组件由于其较好的容错与故障恢复机制,在企业的长时作业中使用的非常广泛,而SparkSQL又是使用Spark组件中最为常用的一种方式。相比直接使用编程式的方式操作Spa
270
0
0
0
大数据数据中台大数据数据湖仓
作为产业互联网的重要玩家,火山引擎一直处于持续进化过程中。9月2日,在杭州举办的“火山引擎 V-Tech 数据智能峰会”,发布了新一代企业级数据产品——数智平台 VeDI(Volcengine Data Intelligence),包括数据引擎、数据建设和管理、数据分析应用及解决方案的全链路数据能力,为我们展示了火山引擎数智平台与产品体系取得的最新进展,并系统介绍了火山引擎在全栈数据智能技术能力的
235
0
0
0
大数据数据中台大数据数据湖仓
Doris 是一种 MPP 架构的分析型数据库,主要面向多维分析,数据报表,用户画像分析等场景。自带分析引擎和存储引擎,支持向量化执行引擎,不依赖其他组件,兼容 MySQL 协议。Apache Doris 具备以下几个特点:良好的架构设计, 支持高并发低延时的查询服务,支持高吞吐量的交互式分析。多 FE 均可对外提供服务,并发增加时,线性扩充 FE 和 BE 即可支持高并发的查询请求。支持批量数据
417
0
0
0
大数据数据中台大数据数据湖仓
12月20日,火山引擎 E-MapReduce(简称“EMR”)正式上线瞬态集群新功能,该能力基于业界领先的 EMR Stateless 理念,可以实现集群级别的弹性伸缩,即无业务需求时释放集群,有业务需求时再拉起集群,从而帮助企业大幅降低产品使用和平台运维成本。火山引擎 EMR 是一款云原生开源大数据平台产品,Stateless 是指在存算分离的基础上进一步将集群状态元素外置,含状态 Serve
211
0
0
0
大数据数据中台大数据数据湖仓
众所周知,基于 Hadoop 的 EMR 体系发展到现在,经历了很多个阶段。从基于 IDC 机房通过 CDH 去部署的 1. 0 阶段,演进到在公有云上面按照存算分离的办法去进行的 2. 0 阶段。而在这些基础上,火山引擎数智平台 VeDI 的 EMR 团队又探索出了无状态的 EMR 3.0 演进阶段。上个月底,火山引擎 EMR 正式上线瞬态集群新功能,该能力基于业界领先的 EMR Statele
242
0
1
1
大数据数据中台大数据数据湖仓
火山引擎数据中台产品双月刊涵盖「大数据研发治理套件 DataLeap」「湖仓一体分析服务 LAS」「火山引擎 E-MapReduce」三款数据中台产品的功能迭代、重点功能介绍、产品联动使用案例、平台最新活动等多个有趣、有料的模块内容。公有云【数据开发特惠版】(限时特惠)200元/月,提供面向数据开发场景的解决方案。每日免费提供20个公共调度实例资源及2CU*时公共计算资源,含基础数据开发、数据集成
250
0
0
0
大数据数据中台大数据数据湖仓
本期文章为大家分享的是“基于火山引擎 EMR 构建企业级数据湖仓”的演讲视频。详细内容请点击下方视频链接进行观看。谢谢!演讲出处:火山引擎开发者社区技术大讲堂第4期—企业级大数据平台构建的思考与实践演讲内容:基于火山引擎 EMR 构建企业级数据湖仓演讲作者:火山引擎 EMR 技术架构师 辛现银视频链接:点击查看
203
0
0
0
大数据数据中台大数据数据湖仓
本期文章为大家分享由火山引擎数智平台(VeDI)正式发布的《数据智能知识图谱》,内容覆盖了包括数据存储计算、数据分析加速、数据研发治理、数据洞察分析,数据辅助决策、数据赋能营销等企业数据全生命周期的管理与应用。大图可点击此链接查看: https://bytedance.larkoffice.com/file/boxcnsz7AdZtXW1OmBqMfmsY99d
1400
0
0
0
大数据数据中台大数据数据湖仓
日前,火山引擎 E-MapReduce(简称“EMR”)正式上线无状态集群能力,由此拉开从云上 EMR 向 EMR Stateless 进化的新序幕。大家都熟悉,开源大数据平台最早部署在传统 IDC 中,后随着云的普及,发展成为云上 EMR,如今,在技术进步和用户需求的双重驱动下,火山引擎率先提出了 EMR Stateless 的理念。EMR Stateless 是什么,符合未来的趋势吗?EMR
228
0
0
0
大数据数据中台大数据数据湖仓
火山引擎数据中台产品双月刊涵盖「大数据研发治理套件 DataLeap」「云原生数据仓库 ByteHouse」「湖仓一体分析服务 LAS」「云原生开源大数据平台 E-MapReduce」四款数据中台产品的功能迭代、重点功能介绍、平台最新活动、技术干货文章等多个有趣、有料的模块内容。【增强数据集成能力】数据源支持 Doris、ByteHouse(云数仓版)、BMQ、CloudFS。离线集成通道新增 M
291
0
0
0
大数据数据中台大数据数据湖仓
本期文章为大家分享的是“Apache Pulsar 在火山引擎 E-MapReduce 的集成与场景”的演讲视频。详细内容请点击下方视频链接进行观看。谢谢!演讲出处:Pulsar Summit Asia 2022演讲内容:Apache Pulsar 在火山引擎 E-MapReduce 的集成与场景演讲作者:火山引擎 梁鑫视频链接:点击查看
203
0
0
0