火山引擎DataLeap团队
火山引擎DataLeap团队
大数据数据治理
数据探查是数据质量保障非常重要的一步,它是数据开发的基础,如果没有数据探查,数据类项目就会频繁反复,对项目开发,运维带来很大困难,大幅延长项目周期。本篇将介绍对于数据探查常见问题,目前字节跳动提供的动态探查解决方案、应用场景以及技术实现。 文 | 小哲 来自字节跳动数据平台开发套件团队 对应产品功能为DataLeap 大数据研发治理套件** 欢迎了解。数据探查上线之前,数据验证都是通过写SQL方式
429
2
0
0
大数据数据治理数据湖仓Flink
字节数据中台DataLeap的Data Catalog系统通过接收MQ中的近实时消息来同步部分元数据。Apache Atlas对于实时消息的消费处理不满足性能要求,内部使用Flink任务的处理方案在ToB场景中也存在诸多限制,所以团队自研了轻量级异步消息处理框架,很好的支持了字节内部和火山引擎上同步元数据的诉求。本文定义了需求场景,并详细介绍框架的设计与实现。对应产品功能为**DataLeap 大
146
1
0
0
大数据数据治理数据湖仓
数据地图平台是字节跳动内部的大数据检索平台,每天近万的字节员工在此查找所需数据。数据地图通过提供便捷的找数,理解数服务,大大节省了内部数据的沟通和建设成本。血缘图谱由 xGraph 与数据地图平台团队合作研发。xGraph 从 Dataleap 业务中孵化,从底至上完全自研,提供设计成熟的内置节点、连线、分组样式,精心打磨图分析产品中常用布局和交互,帮助用户快速搭建关系图产品。血缘图谱解决方案已沉
942
2
2
0
大数据数据治理数据湖仓
Notebook 是一种支持 REPL 模式的开发环境。所谓「REPL」,即「读取-求值-输出」循环:输入一段代码,立刻得到相应的结果,并继续等待下一次输入。它通常使得探索性的开发和调试更加便捷。在 Notebook 环境,你可以交互式地在其中编写你的代码、运行代码、查看输出、可视化数据并查看结果,使用起来非常灵活。在数据开发领域,Notebook 广泛应用于数据清理和转换、数值模拟、统计建模、数
344
1
1
1
大数据数据治理
在字节跳动内部,数据平台数据治理团队致力于建立一站式、全链路的数据治理解决方案平台。本文是字节跳动数据平台开发套件团队王慧祥参与的“数智有为第二期”在线分享的部分摘录。关注字节跳动数据平台微信公众号,回复【PPT】获得本次分享材料。作者: @王慧祥 来自字节跳动数据平台开发套件团队原文链接,欢迎转发:https://mp.weixin.qq.com/s/Kh4UdBaOW5grXOeuxwoWdQ
847
1
0
0