随着行业的快速发展和业务的高速迭代,数据量也呈爆炸式增长,传统的大数据架构在资源利用、高效运维、可观测性等方面存在诸多不足,已经越来越无法适应当下的发展需求。云原生大数据方案,逐渐成为众多企业解决传统大数据平台痛点的不二之选。
2023年8月5-6日,09:00-12:30,DataFun 举办 DataFunSummit 云原生大数据峰会。火山引擎云原生计算团队深度参与本次线上峰会,由火山引擎云原生计算技术负责人-李亚坤任峰会专家团成员参与策划;批式计算研发负责人-一新出品「云原生大数据计算引擎实践论坛」。
本次峰会中,字节跳动将带来四大议题,分别涉及计算引擎实践、存储引擎实践、大数据AI一体化、云原生湖仓专场:
李亚坤 火山引擎云原生计算技术负责人
个人介绍:硕士毕业于哈工大计算机专业,10 年大数据和云原生领域从业经验。2017 年加入字节跳动,构建了字节跳动千万级核心的集群资源管理和调度系统,支撑了全公司的数据平台、搜索、广告、推荐算法等中台,以及抖音、今日头条、西瓜视频、懂车帝、飞书等众多业务的大数据分析需求,带领团队完成了在离线资源混部、Hadoop 上云等众多项目。目前整体负责火山引擎云原生计算的技术团队。
对于企业来说采用云原生架构已经成为一种趋势和必要选择,可以帮助企业更好地应对业务变化和市场挑战,提高业务竞争力和创新能力;云原生架构可以为大数据在弹性、多租户、敏捷开发、降本增效、安全合规、容灾和资源调度等方向上带来优势。在这个背景下,越来越多企业选择转型云原生大数据架构,同时很多企业内部对大数据引擎如何能更好的利用云原生的特性支撑好业务也有很多的实践。本论坛特别邀请了来自 Spark/Flink/Trino 等领域内专家,分享这些引擎在云原生架构上面的一些实践经验。
出品人:一新 - 字节跳动批式计算研发负责人
个人介绍:字节跳动批式计算负责人,支撑公司内大规模的离线数据处理&机器学习等业务场景,在 Spark/Ray/Primus/Iceberg 等方面做了大量的功能拓展&性能优化。
扫描下方二维码免费报名
字节跳动 Spark Shuffle 大规模云原生化演进实践
程航 字节跳动 计算引擎开发工程师
演讲简介:在字节跳动内部,Spark 是应用最广泛的计算引擎,每天任务数超过 150W,被广泛应用于大规模数据处理,机器学习等场景。线上集群磁盘类型多样,包括 SSD、HDD 以及混合等。每天会产生超过 100PB 以上的 Shuffle 数据,同时单个任务的 Shuffle 数据量可能达到数百 TB。巨量的 Shuffle 数据和复杂的计算资源环境给 Spark 运行过程中的 Shuffle 性能带来了很多挑战。本文会分享字节跳动在 Spark Shuffle 云原生化方面的大规模演进实践。
讲师简介:现任字节跳动基础架构工程师,主要负责 Spark 内核开发及字节自研 Cloud Shuffle Service 开发。
火山引擎云原生存储加速实践
郭俊 - 火山引擎大数据文件存储技术负责人
演讲 简介:在火山引擎,绝大部分的机器学习和数据湖的算力都是运行在云原生 K8S 平台上。云原生架构下存算分离和弹性伸缩的计算场景,极大的推动了存储加速这个领域的发展,目前市业界也衍生出了多种存储加速服务。但是面对计算和客户场景的多样性,目前还没有一个业界标准的存储加速实践,很多客户在做选型的时候也面临着诸多的困惑。我们在火山引擎上构建了云原生的存储加速服务,适配机器学习和数据湖的多种计算场景,致力于给业务提供简单易用的透明加速服务。本次分享将结合我们在火山引擎上的业务实践,分享我们对于存储加速的经验总结和思考。
讲师简介:多年存储和大数据研发经验,先后就职于微软 Azure Stack、华为存储和阿里云计算平台,2020年6月加入字节跳动大数据存储团队,目前负责火山引擎大数据文件存储(CloudFS)的技术研发,致力于提供简单易用、稳定高效和多场景兼容的存储加速服务。
Ray 在字节跳动的实践
王万兴 字节跳动资深研发工程师
演讲 简介:Ray 是近年来兴起的新一代计算引擎,相较于传统计算引擎具有更好的可编程性、异构资源调度支持等能力,在分布式计算尤其是机器学习领域的应用越来越广泛。Ray 在字节跳动有比较广泛的应用,比如图计算、机器学习、数据处理等。本议题主要介绍Ray在字节跳动的实践,包括应用场景、云原生部署方案、遇到的问题和解决方案等。具体包括:
- Ray 简介
- Ray 在字节跳动的应用场景介绍
- Ray 在字节跳动的云原生实践方案介绍
讲师简介:王万兴,曾就职于阿里巴巴、蚂蚁集团,有多年分布式计算、流计算、Ray内核等相关研发经验,目前在字节跳动负责Ray引擎的研发和业务落地工作。
Iceberg 在火山引擎的云原生湖仓实践
林阳昊 - 火山引擎 云原生 计算研发工程师
演讲 简介:
本次演讲将介绍如何在云原生环境下,利用 Iceberg 来解决大规模数据管理和处理方面的挑战。首先,我们会简要介绍 Iceberg 的背景以及其在数据处理领域中的优势。随后,我们将深入探讨如何在流式入湖 + OLAP 场景和特征调研场景中使用 Iceberg,提出一些通用优化技术,例如动态 Schema 写入和数据维护等。接着,我们会重点介绍 Iceberg 在流式入湖 + OLAP 场景下的应用,包括流式写入和 compaction 冲突解决、物化视图和 Upsert 优化、Flink UPDATE、DELETE 支持,以及多版本支持等方面。最后,我们将分享在特征调研场景中使用 Iceberg 的经验,包括元数据瘦身、Manifest 整理和 File skipping 优化等技术。通过本次演讲,希望能够帮助大家更好地理解 Iceberg 的应用和优势,以及如何在云原生环境下实现高效的数据管理和处理。
讲师简介:本科毕业于复旦大学,硕士毕业于新加坡国立大学,2022 年入职火山引擎。Iceberg contributor。火山引擎负责 Iceberg 研发,以及基于 Iceberg 的 Feature Store 研发。