全部大数据数据中台数据湖仓数据库A/B测试数据治理社区征文数据安全2023总结技术大讲堂云原生可观测ClickHouse计算Flink云存储埋点开发与运维向量数据库中间件技术开源镜像Meetup企业应用Kubernetes前端ServerlessNoSQLMySQLSQL直播
展开 
大数据大数据
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群在移动互联网飞速发展的时代,用户规模和网络信息量呈现出爆炸式增长,信息过载加大了用户选择的难度,这样的背景下,推荐系统应运而生,为用户提供个性化的内容推荐。推荐系统在不断迭代中,其算法、策略、特征、功能和用户界面时常得到更新和优化,其中推荐算法的调整尤为关键。然而,由于深度学习模型的广泛应用,推荐算法调整后的用户体
大数据SQL分布式数据库
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群在当今高速发展的互联网时代,信息传播迅速,用户数量激增。在面对如此庞大的用户群体和高频的访问需求时,系统高并发访问的性能问题成为了无法回避的挑战。为了满足业务场景中对数据并发查询的即时性和准确性要求,越来越多的企业开始重视并关注系统“高并发点查”能力。高并发点查对于商业决策、市场分析、用户行为研究场景中的使用体验和
大数据大数据数据库
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群4月17日,火山引擎数据飞轮行业研讨会在北京举办。本次会议聚焦互联网行业数据资产建设与业务数据应用两大数据场景,从字节跳动十余年的数据驱动经验出发,探讨企业数智化升级新模式“数据飞轮”在互联网行业的应用场景和企业实践。火山引擎数据产品解决方案负责人介绍,数据飞轮作为当前国内企业数智化升级的主流模式之一,已经在包括互
大数据大数据数据库数据中台
火山引擎数据中台产品双月刊涵盖「大数据研发治理套件 DataLeap」「云原生数据仓库 ByteHouse」「湖仓一体分析服务 LAS」「云原生开源大数据平台 E-MapReduce」四款数据中台产品的功能迭代、重点功能介绍、平台最新活动、技术干货文章等多个有趣、有料的模块内容。季度更新,您可通过关注「字节跳动数据平台」官网公众号、添加小助手微信加入社群获取产品动态~接下来让我们来看看 Q1 季度
大数据大数据
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群知识付费正在完成新阶段的转变。知识付费的概念可以追溯到 20 世纪 80 年代的彼得·德鲁克,他在《后资本主义》一书中提出“知识经济”,指出人类社会从制造业经济转向了以知识为生产要素的经济。在这之后,知识成为了一项重要资源,知识的价值被广泛认可,知识付费的概念也得以在人们心中萌芽。随着计算机技术和互联网应用的发展,
大数据大数据A/B测试数据库
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群火山引擎数智平台VeDI旗下的A/B测试平台(DataTester),旨在为企业提供科学且可信的A/B测试能力及丰富的场景实验支持。随着企业的数据化进程加深,将A/B测试深度融入企业大数据体系及内部信息化平台的需求也日益凸显。鉴于此,火山引擎DataTester特推出开放平台,帮助企业实现A/B测试与自身大数据及信
大数据数据中台大数据数据湖仓
2021年12月2日,火山引擎在“新云·共未来”发布会上推出两款数据产品——湖仓一体分析服务(Lakehouse Analysis Services)和 E-MapReduce 服务,帮助企业构建湖仓架构的大数据平台。伴随着移动互联网、5G、AI、IoT的飞速发展,企业数据建设正处于更大规模和更加多样的变化趋势中。随着企业业务持续和规模化上云,数据分析系统和应用正逐步面向公有云进行构建或迁移,云上
大数据数据中台大数据数据湖仓
企业级数仓架构设计与选型的时候需要从开发的便利性、生态、解耦程度、性能、 安全这几个纬度思考。本系列分两次连载,第一部分(本文)分享我们在企业级数仓建设上的技术选型观点,第二个部分则重点介绍了字节跳动数据平台在通过 SparkSQL 进行企业级数仓建设的实践。 文 | 惊帆 来自 字节跳动数据平台 EMR 团队Apache Hive 经过多年的发展,目前基本已经成了业界构建超大规模数据仓库的事实标
大数据数据中台大数据数据湖仓
  12月2日,火山引擎在"新云·共未来"发布会上正式对外发布:大数据研发治理套件(DataLeap)公有云版、ByteHouse 云数仓版、湖仓一体分析服务及 E-MapReduce 服务等四款面向企业用户的数据产品,未来将通过敏捷迭代的产品,持续帮助企业构建数智引擎。在数智引擎分论坛上,火山引擎进一步诠释四款产品的重点能力,深度介绍当前数据产品如何通过组合式解决方案,形成“1+1>2”的复合效
大数据数据中台大数据数据湖仓
由字节跳动数据湖团队贡献的 RFC-29 Bucket Index 在近期合入 Hudi 主分支,本文详细介绍 Hudi Bucket Index 产生的背景与实践经验。 文 | 字节跳动数据平台数据湖团队Hudi 是一个流式数据湖平台,提供 ACID 功能,支持实时消费增量数据、离线批量更新数据,并且可以通过 Spark、Flink、Presto 等计算引擎进行写入和查询。Hudi 官方对于文件
大数据数据中台大数据数据湖仓
2021年12月2日,云产品发布会「数智引擎」分论坛上,火山引擎数据平台产品总监张辉带来了题为《敏捷研发、分布自治:业务为先的数据中台新模式》的演讲。 火山引擎数据平台产品总监张辉以下为演讲正文:大家好,我是张辉,今天分享的主题是关于“数据中台”。我们在这个领域沉淀了多年经验,也积累了一些思考,希望能借今天这个机会与大家交流。今天的分享有三个关键词:业务为先、敏捷研发、分布自治。业务为先:这是字节
大数据数据中台大数据数据湖仓
本文重点介绍了字节跳动 EMR 产品在 SparkSQL 的优化实践。 文 | 惊帆 来自 字节跳动数据平台EMR团队Hudi、Iceberg等数据湖引擎目前使用的越来越广泛,很多B端客户在使用Spark SQL的时候也存在需要使用数据湖引擎的需求,因此字节EMR产品需要将数据湖引擎集成到Spark SQL中,在这个过程碰到非常多的问题。首先在与Iceberg集成的时候,对体验和易用的问题进行了优
大数据大数据数据中台数据湖仓
近日,中国信息通信研究院联合中国通信标准化协会(以下将简称“通标协”)在京召开了2022大数据产业峰会。大会以“开启数智化新篇章”为主题,对数智化相关技术与产业热点进行了研讨,中国信息通信研究院云计算与大数据所大数据与区块链部副主任(主持工作)姜春宇在会上正式发布《中国数智化产业图谱1.0》,其中火山引擎数据中台、增长营销套件入围中国数智化产业图谱1.0。当前,数智化产业仍处于发展初期,为进一步梳
大数据数据中台大数据数据湖仓
字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。 文 | 字节跳动数据平台数据湖团队字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。该方案在存储层提供对多流数据的关联能力,旨在解决实时场景下多流 JOIN 遇到的一系列问题。接下来,本文会详
大数据数据中台大数据数据湖仓
9月2日,火山引擎数据智能科技峰会在杭州举办,字节跳动数据平台负责人罗旋在会上首次发布火山引擎数智平台 VeDI 技术图谱。罗旋介绍,火山引擎数智平台 VeDI 的技术能力囊括“大数据引擎”、“大数据管理”和“大数据应用”3大核心方向,覆盖“数据存储”、“数据计算”、“行为分析”、“智能洞察”在内的13大细分场景。本次发布的技术图谱,总共展示了火山引擎数智平台 VeDI 近百个开放中的数据技术能力
大数据数据中台大数据数据湖仓
SparkSQL是Spark生态系统中非常重要的组件。面向企业级服务时,SparkSQL存在易用性较差的问题,导致难满足日常的业务开发需求。本文将详细解读,如何通过构建SparkSQL服务器实现使用效率提升和使用门槛降低。Spark 组件由于其较好的容错与故障恢复机制,在企业的长时作业中使用的非常广泛,而SparkSQL又是使用Spark组件中最为常用的一种方式。相比直接使用编程式的方式操作Spa
大数据数据中台大数据数据湖仓
作为产业互联网的重要玩家,火山引擎一直处于持续进化过程中。9月2日,在杭州举办的“火山引擎 V-Tech 数据智能峰会”,发布了新一代企业级数据产品——数智平台 VeDI(Volcengine Data Intelligence),包括数据引擎、数据建设和管理、数据分析应用及解决方案的全链路数据能力,为我们展示了火山引擎数智平台与产品体系取得的最新进展,并系统介绍了火山引擎在全栈数据智能技术能力的
大数据数据中台大数据数据湖仓
Doris 是一种 MPP 架构的分析型数据库,主要面向多维分析,数据报表,用户画像分析等场景。自带分析引擎和存储引擎,支持向量化执行引擎,不依赖其他组件,兼容 MySQL 协议。Apache Doris 具备以下几个特点:良好的架构设计, 支持高并发低延时的查询服务,支持高吞吐量的交互式分析。多 FE 均可对外提供服务,并发增加时,线性扩充 FE 和 BE 即可支持高并发的查询请求。支持批量数据
大数据数据中台大数据数据湖仓
12月20日,火山引擎 E-MapReduce(简称“EMR”)正式上线瞬态集群新功能,该能力基于业界领先的 EMR Stateless 理念,可以实现集群级别的弹性伸缩,即无业务需求时释放集群,有业务需求时再拉起集群,从而帮助企业大幅降低产品使用和平台运维成本。火山引擎 EMR 是一款云原生开源大数据平台产品,Stateless 是指在存算分离的基础上进一步将集群状态元素外置,含状态 Serve
大数据数据中台大数据数据湖仓
众所周知,基于 Hadoop 的 EMR 体系发展到现在,经历了很多个阶段。从基于 IDC 机房通过 CDH 去部署的 1. 0 阶段,演进到在公有云上面按照存算分离的办法去进行的 2. 0 阶段。而在这些基础上,火山引擎数智平台 VeDI 的 EMR 团队又探索出了无状态的 EMR 3.0 演进阶段。上个月底,火山引擎 EMR 正式上线瞬态集群新功能,该能力基于业界领先的 EMR Statele