大数据技术专栏
大数据技术专栏
18
大数据埋点
本文整理自火山引擎开发者社区 Meetup 第四期演讲,主要介绍了字节跳动流量平台的埋点内容解决方案和埋点链路解决方案,揭秘了流量平台如何支撑起字节跳动万亿+的实时数据处理。作者|Cody,火山引擎流量平台技术负责人首先我们定义一下埋点是什么?埋点主要是描述用户在 APP 内触发的一系列行为,包括点击、侧滑等。基于这些行为,我们可以进行行为分析、个性化推荐、精准营销等很多事情。埋点主要描述的是哪些
1865
0
0
0
大数据A/B测试
在A/B实验不断走红的今天,越来越多的企业开始意识到A/B实验的重要意义,并试图通过A/B实验,前置性地量化决策收益,从而实现增长。然而,当你和其他业务伙伴谈及A/B实验时,你总能听到这样的论调:“这事儿很简单,做个实验就行了。准备两个版本,在不同渠道里发版,然后看看数据。”“把用户按照did(device_id)尾号奇偶分流进实验组和对照组,然后看看数据表现。”不可否认,这部分企业的确走在前沿,
275
1
0
0
大数据
从勇者为王到精益创业,一代又一代的企业在这个瞬息万变的商业世界中追寻着增长的脉动与规律。大到国外的Google、Netflix、亚马逊,国内的字节跳动、BAT,小到十个人的创业公司、一个人的产品思考,所有人都渴望拨开重重迷雾、锚定真正的增长引擎。在众多的增长方法中,A/B测试是最能体现、代表数据驱动理念的产品。为了进一步厘清这一增长方法的来龙去脉、可行性与适用范围、真正价值与常见误区,「深响」在充
121
4
0
0
大数据A/B测试
2021年4月20日,首个火山引擎技术开放日在北京方恒时尚中心举办,字节跳动副总裁杨震原以《聊聊数据驱动和用A/B测试解决问题》为题,分享了他对于A/B测试的理解。以下为杨震原演讲全文:大家好,我叫杨震原。非常高兴在火山引擎技术开放日上和大家交流分享,希望对大家有所帮助。字节跳动做了很多产品,我们希望技术团队对待自家产品就像对待客户一样。我们不仅有内部客户,像抖音、今日头条,也希望有更多外部客户,
188
1
0
1
大数据
在字节跳动内部,Presto 主要支撑了Ad-hoc查询、BI可视化分析、近实时查询分析等场景,日查询量接近100万条。本文是字节跳动数据平台Presto团队-软件工程师常鹏飞在PrestoCon 2021大会上的分享整理。 图注:PrestoCon 2021在字节跳动内部,Presto主要支撑了Ad-hoc查询、BI可视化分析、近实时查询分析等场景,日查询量接近100万条。功能性方面完全兼容Sp
345
1
1
0
大数据
本文是大数据文摘针对火山引擎数据产品ByteHouse的全面解读。“敏捷是企业在移动互联网时代的重要竞争力。”在12月2日举办的2021火山引擎云产品发布会上,字节跳动副总裁杨震原反复强调,字节跳动以敏捷为核心目标构建了云原生架构,支撑着公司业务快速创新、快速迭代。的确,或许没有哪家公司比字节跳动更理解“敏捷”的意义。从央视春晚红包27天备战,到数据中心每天两万次的线上变更,这些“敏捷迭代”和创新
242
2
0
0
大数据
目前,字节跳动数据质量平台对于批处理数据的质量管理能力已经十分丰富,提供了包括表行数、空值、异常值、重复值、异常指标等多种模板的数据质量监控能力,也提供了基于spark的自定义监控能力。另外,该平台还提供了数据对比和数据探查功能,为用户在数据开发阶段及时发现数据质量问题提供了便利的手段。本文分上下两次连载,作者系字节跳动数据平台-开发套件团队-高级研发工程师 于啸雨。长期以来,数据质量平台的各项能
1903
0
0
1
大数据数据湖仓
本文整理自Apache Hadoop Meetup 2021北京站字节跳动数据平台数据湖团队研发工程师耿筱喻《字节跳动基于Hudi的实时数据湖平台介绍》的分享实录。内容主要包含四部分内容。首先是Hudi和字节跳动实时数据湖平台简介;其次字节跳动实时数据湖平台的应用场景介绍;第三针字节跳动的实时数据湖平台针对应用场景的优化与特性;最后介绍我们的未来规划。作者:耿筱喻 |字节跳动数据平台数据湖团队研发
1052
0
0
1
大数据
ClickHouse UBA版本是字节跳动内部在开源版本基础上为火山引擎增长分析专门深度定制优化的版本。本篇文章介绍在字典编码方向上的优化实践。文 |Jet He 字节跳动数据平台研发工程师,长期致力于OLAP引擎开发优化,在OLAP领域、用户行为在线分析等有丰富的经验。虽然ClickHouse列存已经有比较好的存储压缩率,但面对海量数据时,磁盘空间的占用跟常用的Parquet格式相比仍然有不少差
283
1
0
0
大数据数据湖仓
本文是字节跳动数据平台开发套件团队在Flink Forward Asia 2021: Flink Forward 峰会上的演讲,着重分享了字节跳动数据湖技术上的选型思考和探索实践。文 | Gary Li  字节跳动数据平台开发套件团队高级研发工程师,数据湖开源项目Apache Hudi PMC Member随着Flink社区的不断发展,越来越多的公司将Flink作为首选的大数据计算引擎。字节跳动也
406
0
0
0
大数据ClickHouse
在打造 ByteHouse 的过程中,我们经过了多年的探索与沉淀,本文将和大家分享字节跳动过去使用 ClickHouse 的两个典型应用与优化案例。文|ByteHouse团队字节跳动旗下的企业级技术服务平台火山引擎正式对外发布「ByteHouse」,解决开源技术上手难 & 试错成本高的痛点,同时提供商业产品和技术支持服务。作为国内规模最大的 ClickHouse 用户,目前字节跳动内部的 Clic
295
1
0
0
大数据Flink
本文是字节跳动数据平台开发套件团队在1月9日Flink Forward Asia 2021: Flink Forward 峰会上的演讲,着重分享了Flink在字节跳动数据流的实践。文|Richard  字节跳动数据平台开发套件团队高级研发工程师数据流处理的主要是埋点日志。埋点,也叫Event Tracking,是数据和业务之间的桥梁,是数据分析、推荐、运营的基石.用户在使用App、小程序、Web等
1775
2
0
2
大数据
由字节跳动数据湖团队贡献的 RFC-29 Bucket Index 在近期合入 Hudi 主分支,本文详细介绍 Hudi Bucket Index 产生的背景与实践经验。另外,字节跳动数据湖团队持续招人中,团队支撑字节所有业务线的数仓,打造业界领先的 EB 级数据湖。文末了解请详情。文 | 字节跳动数据平台数据湖团队Hudi 是一个流式数据湖平台,提供 ACID 功能,支持实时消费增量数据、离线批
149
0
0
0
大数据
数据血缘描述了数据的来源和去向,以及数据在多个处理过程中的转换。数据血缘是组织内使数据发挥价值的重要基础能力。本文从字节的数据链路概况开始,介绍了数据血缘在字节的应用场景,总体设计,数据模型以及衡量指标。文 | 罗小亮、拾捌、大滨来自字节跳动数据平台开发套件团队为了明确问题的讨论范围,我们首先介绍一下字节的数据链路。字节的数据的来源分为两种:端数据:APP 和 Web 端通过埋点 SDK 发送的,
591
0
0
0
大数据
企业级数仓架构设计与选型的时候需要从开发的便利性、生态、解耦程度、性能、 安全这几个纬度思考。本文作者:惊帆 来自于数据平台 EMR 团队Apache Hive 经过多年的发展,目前基本已经成了业界构建超大规模数据仓库的事实标准和数据处理工具,Hive 已经不单单是一个技术组件,而是一种设计理念。Hive 有 JDBC 客户端,支持标准 JDBC 接口访问的 HiveServer2 服务器,管理元
523
0
0
0
大数据Flink
字节跳动开发套件数据集成团队(DTS ,Data Transmission Service)在字节跳动内基于 Flink 实现了流批一体的数据集成服务。其中一个典型场景是 Kafka/ByteMQ/RocketMQ -> HDFS/Hive 。Kafka/ByteMQ/RocketMQ -> HDFS/Hive(下面均称之为 MQ dump,具体介绍可见 字节跳动基于 Flink 的 MQ-Hiv
394
0
0
0
大数据
本文是字节跳动数据平台数据引擎 SparkSQL 团队针对 Spark History Server (SHS) 的优化实践分享。文 | 字节跳动数据平台—数据引擎—SparkSQL 团队在字节跳动内部,我们实现了一套全新的云原生 Spark History 服务—— UIService,相比开源的 SHS,UIService 存储占用和访问延迟均降低 90% 以上,目前 UIService 服务
265
0
0
0
大数据A/B测试
在线 AB 实验成为当今互联网公司中必不可少的数据驱动的工具,很多公司把自己的应用来做一次 AB 实验作为数据驱动的试金石。文 | 松宝 来自 字节跳动数据平台团队增长平台在线 AB 实验成为当今互联网公司中必不可少的数据驱动的工具,很多公司把自己的应用来做一次 AB 实验作为数据驱动的试金石。数据 => 洞察 => 优化,循环往复寻找最优解,寻找增长的方法。AB 中有句经典的名言:大胆假设,小心
736
0
0
0