火山引擎数据中台发布新品：湖仓一体分析服务、E-MapReduce 服务 - 文章 - 开发者社区

2021年12月2日，火山引擎在“新云·共未来”发布会上推出两款数据产品——湖仓一体分析服务（Lakehouse Analysis Services）和 E-MapReduce 服务，帮助企业构建湖仓架构的大数据平台。

伴随着移动互联网、5G、AI、IoT的飞速发展，企业数据建设正处于更大规模和更加多样的变化趋势中。随着企业业务持续和规模化上云，数据分析系统和应用正逐步面向公有云进行构建或迁移，云上大数据分析能力正成为业务数字化、智能化的关键支撑。

传统自建数据仓库，在企业数据体量持续增长、业务时效持续提升的情况下，已经很难应对更复杂、更多样化的分析场景需求，平台扩展和数据融合面临重重障碍。另外一方面，尽管Hadoop已成为企业大数据平台建设的主流技术框架，但企业在逐步建设大数据平台过程中也会面临这样的难题——基于开源Hadoop无法有效支撑商用部署和高效开发，建设和运维成本高企。

本次火山引擎发布的两款产品，均来自于字节跳动多年来的技术实践，能为企业提供高性能、更便捷的大数据计算/存储引擎服务，有效解决了大数据平台搭建门槛高、运维成本高的“双高”难题。

湖仓一体分析服务：Serverless，湖仓一体、流批一体

火山引擎发布的湖仓一体分析服务（LakehouseAnalysisServices）是面向湖仓一体架构的Serverless数据处理分析服务，提供多模分析引擎，完全兼容Spark、Presto、Flink生态，具备统一SQL接口和智能引擎选择，增强EB级数据并发事务，批流一体分析，弹性计算、跨源分析等优点：

统一SQL接口，智能引擎选择： 一套SQL接口支持Presto、SparkSQL引擎，自动选择最优引擎，用户无需感知不同引擎接口差异

EB级实时湖仓，增强事务并发： 相比开源湖仓存储组件Hudi的弱并发能力，LAS支持EB级实时湖仓存储和百级以上事务并发

批流一体分析，极简架构设计： 存储层提供批流一体存储格式，一份数据写入直接批流模式同时分析，避免架构设计复杂度和数据不一致性，使用体验更优

低门槛、高可靠、极致弹性： 开箱即用，免平台运维；Serverless，存算分离，容器调度，按需计算，降低数仓建设成本

E-MapReduce服务：开源兼容、安全可靠、更优成本、易管易运维

火山引擎发布的E-MapReduce服务作为开源Hadoop企业级大数据平台服务，集成开源生态主流组件和字节深度的优化。与自建 Hadoop 集群相比，E-MapReduce服务可以提供更安全可靠、更优成本、更易用的云化 Hadoop 服务：

开源兼容： 集成Spark、Flink、Hive等主流组件，提供存储、计算、挖掘等能力，保持原生的开源生态，支持用户平滑迁移现有集群。

安全可靠： Master 节点容灾设计，保障大数据服务可用性；支持Kerberos，支持细粒度数据访问权限，应用程序数据访问权限等，支持操作审计；支持将 Hive 元数据存放于独立RDS，提升元数据可靠性。

更优成本： 分钟级别创建和扩容集群，支持弹性伸缩，帮助客户节省大数据平台闲时资源

简单易用： 提供集群管理、服务管理、用户管理、监控告警、日志查询能力，完善服务监控指标体系，感知集群组件及任务的运行异常状况。

另外，上述两款产品还能分别与火山引擎大数据开发治理套件（DataLeap）组合，打造从端到端数据集成)、存储、开发、治理到分析的全链路数据能力，比如：湖仓一体分析服务（LakehouseAnalysisServices）与大数据开发治理套件（DataLeap）结合，可以为企业提供一站式数据存储、处理和分析能力，帮助企业构建云原生实时湖仓分析平台。E-MapReduce服务与大数据开发治理套件（DataLeap）结合，集成端到端数据接入、分析、挖掘能力，支持数据和任务的快速创建，可以帮助企业用户轻松完成企业大数据平台的构建和数据上云。

这两款产品及其组合运用方式，能广泛适用于泛互联网、零售、汽车/新能源产业链、制造行业。

尤其针对那些需要新建大数据平台或想要更换升级大数据技术栈的企业，数据存量在TB~PB级规模的企业、积极拥抱公有云方案的企业，这两款产品及组合方案可以为它们打造更前沿、更高效、更实用的解决方案。