文档备案控制台登录立即注册
首页
AI 大模型体验中心AI 大模型体验中心AI 大模型体验中心
动手实验室动手实验室动手实验室
Agent 评测集Agent 评测集Agent 评测集
AI 案例广场AI 案例广场AI 案例广场
学习中心
社区
去发布
首页
AI 大模型体验中心AI 大模型体验中心AI 大模型体验中心
动手实验室动手实验室动手实验室
Agent 评测集Agent 评测集Agent 评测集
AI 案例广场AI 案例广场AI 案例广场
学习中心
社区
Bytedance视频云技术团队
Bytedance视频云技术团队
文章
专栏
问答
Bytedance视频云技术团队
Bytedance视频云技术团队
从“抖音同款”到“豆包同款”:视频云正在进入 Agent 时代
音视频AI解决方案
作者 | 凌敏对于普通人而言,音视频算得上是最“接地气”的技术——不需要具备专业背景,就能直观地感受到技术能力高低带来的体验层面的差异。比如,观看世界杯直播,模糊的画面、明显的延迟、卡顿的互动,都能直接影响球迷观看体验。在移动互联网时代,人们对于音视频技术的要求其实很简单,就是“看得清、看得爽”。这也是火山引擎视频云能够在这一时期杀出重围的关键——火山引擎将抖音在亿级 DAU 场景下长期打磨和验证
52
0
0
0
Bytedance视频云技术团队
Bytedance视频云技术团队
火山引擎多媒体实验室AIGC视频画质理解大模型VQ-Insight入选AAAI 2025 Oral
AI最佳实践行业趋势技术解析
近日,AAAI 2026公布了录用结果,该会议是是人工智能领域极具影响力的国际顶级学术会议之一。据悉本次会议共有23680篇投稿进入审稿阶段,最终4167篇论文被录用,录取率为17.6%。火山引擎多媒体实验室和北京大学合作的论文VQ-Insight: Teaching VLMs for AI-Generated Video Quality Understanding via Progressive
67
0
0
0
Bytedance视频云技术团队
Bytedance视频云技术团队
云端协同构建 VR 院线,加速 LBE 产业化与规模化发展
AI行业趋势最佳实践技术解析
引言虚拟现实技术的成熟推动 VR 大空间,即基于位置的娱乐项目(Location based Entertainment, 简称LBE)成为融合 “文化 + 科技 + 互动娱乐” 的新型大文娱业态,其沉浸式、强参与感的特性,有望成为继电影、游戏之后的第三大沉浸式娱乐赛道。然而,当前 LBE 产业仍深陷 “叫好不叫座” 的困境:优质内容稀缺且同质化严重,技术路线(云 VR 与一体机)各自为战,产业分
73
1
0
0
Bytedance视频云技术团队
Bytedance视频云技术团队
火山引擎多媒体实验室画质理解大模型Q-Insight入选NeurIPS 2025 Spotlight
AI行业趋势
近日,NeurIPS 2025公布了录用结果,该会议是机器学习与人工智能领域最具影响力的国际顶级学术会议之一。据悉本次会议共有21575篇投稿进入审稿阶段,最终5290篇论文被录用,录用论文中共有688篇论文(入选比例3%)被选为亮点文章(Spotlight)。火山引擎多媒体实验室和北京大学合作的论文Q-Insight: Understanding Image Quality via Visual
194
0
0
0
Bytedance视频云技术团队
Bytedance视频云技术团队
字节跳动多媒体实验室联合ISCAS举办第五届神经网络视频编码竞赛
AI行业趋势视频云视频服务
ISCAS 是 IEEE 旗下电路与系统学会的旗舰国际学术会议,全称为电子电气工程师学会电路与系统国际研讨会,是世界上高度活跃的电路与系统理论、设计和实现领域研究人员的年度盛会。据悉 ISCAS2026将于2026年 5 月 24 日至 5 月 27 日在我国上海举办。ISCAS 2026 将继续携手字节跳动多媒体实验室,举办第五届神经网络视频编码竞赛。本届竞赛设立了三个最佳性能奖和一个最佳创意奖
2385
1
0
0
Bytedance视频云技术团队
Bytedance视频云技术团队
基于 DiT 大模型与字体级分割的视频字幕无痕擦除方案,助力短剧出海
音视频视频云视频服务实时音视频
当短剧出海、跨境电商等新兴领域打造全球化内容时,面临着一个棘手的基础问题——原始视频的中文字幕。原始字幕对于海外观众来说,不仅是无效信息,还严重干扰观看体验。传统方案——直接添加对应外语字幕会导致画面杂乱,而使用马赛克或基于 GAN 的字幕擦除补全方案会导致画面模糊、帧间闪烁,都无法彻底解决这一挑战,使得优质内容的出海之路障碍重重。如今,火山引擎视频点播带来了破局之道——应用基于 DiT 大模型与
465
0
0
0
Bytedance视频云技术团队
Bytedance视频云技术团队
探秘史前海洋,火山引擎 x 北京天卓视创带你沉浸式“摸鱼”!
音视频AR/VR实时音视频最佳实践
这个夏天,北京凤凰中心迎来一场穿越时空的深海奇遇!由中国科学院古脊椎动物与古人类研究所与国内沉浸式体验引领者——北京天卓视创科技有限公司(ONEK MR+)历时一年半联合打造的 VR-LBE 沉浸式体验剧《最后的特提斯之海》,在火山引擎云 XR 技术支持下,配合"触探深海"主题展震撼开启。本次展出,通过火山引擎提供的云 VR LBE 技术方案,实现同时并发达 40 路高并发体验,单日体验用户超 5
583
0
0
0
Bytedance视频云技术团队
Bytedance视频云技术团队
沉浸式 LBE 大空间互动体验!火山引擎支持《转折·从头越》北京 VR 巡展
音视频实时音视频视频云
脚下的竹筏随着湘江的波涛震颤,炮弹掀起的硝烟在 VR 眼镜中翻涌,会议桌前的激烈争论见证了伟大历史抉择——VR 数字沉浸式 LBE 大空间互动体验展《转折·从头越》,用全景科技将观众拉回 90 年前那段历史的时空激流。7 月 1 日,纪念遵义会议召开 90 周年红色文化数字化系列项目——《转折·从头越》VR沉浸式数字展在首都图书馆东区(暨北京城市图书馆)正式开放。《转折·从头越》由贵州省委宣传部指
202
0
0
0
Bytedance视频云技术团队
Bytedance视频云技术团队
沉浸式文旅新玩法-基于4D GS技术的真人数字人赋能VR体验升级
音视频视频服务视频云AR/VR
线下沉浸式剧场与 LBE VR 相结合,会碰撞出什么样的火花?本次 PICO 视频、东方演艺集团与火山引擎一起,将沉浸式演出《只此周庄》的部分场景复刻到了 VR 世界,让用户在虚拟的古代周庄夜市里,体验了古老的故事以及精彩纷呈的歌舞表演。在传统的 VR 内容中,通常使用全景相机录制或 CG 技术制作人物资产。这两种方法,前者只能满足 3DoF 场景,后者往往受到成本和制作期的约束,难以呈现高质量人
283
0
0
0
Bytedance视频云技术团队
Bytedance视频云技术团队
ICME 2025 | 火山引擎在国际音频编码能力挑战赛中夺得冠军
大模型视频云实时音视频视频服务
音频编码器是多模态大模型的重要组件,优秀的音频编码器在构建多模态系统中至关重要。在此背景下,小米集团、萨里大学与海天瑞声联合主办的 ICME 2025 Audio Encoder Capability Challenge,吸引了 Alibaba、CMU、NTT 等知名企业和院校参与。该赛事从多个维度评估音频编码模型的 特征提取 能力,评估领域覆盖语音、环境声音和音乐,包含 20+ 项细分任务,如语
419
0
0
0
Bytedance视频云技术团队
Bytedance视频云技术团队
迁的越多,送的越多!火山引擎 veImageX 推出图片迁移活动
音视频实时音视频图像处理图像识别
在 AIGC 驱动的爆炸性内容增长时代,企业将面对海量且持续激增的素材,传统分散、手动化的管理方式效率低下且成本高昂,因此,灵活、高效的图像、文档等素材上传、托管、智能处理与分发的一站式解决方案至关重要。火山引擎 veImageX 基于字节跳动的图像领域最佳应用实践,是面向 AIGC 时代的图像智能处理、素材托管、分发等一站式解决方案。企业可借助 veImageX 的上传、托管、智能处理和分发能力
378
0
0
0
Bytedance视频云技术团队
Bytedance视频云技术团队
CVPR 2025 | 火山引擎获得NTIRE 视频质量评价挑战赛全球第一
音视频视频云大模型
近期,在计算机视觉领域最具影响力的「国际竞赛 CVPR 2025 NTIRE」中,火山引擎多媒体实验室团队同学组成“SharpMind”小组,在NTIRE 2025 Short-form UGC Video Quality Assessment Challenge-Track1-VQA赛道以显著优势夺冠。基于能力强大的多模态大模型,团队方案成功构建了评估精度、计算效率俱优的画质评价模型,为大模型能
1955
0
0
0
Bytedance视频云技术团队
Bytedance视频云技术团队
共探 AI 硬件未来图景,火山引擎“智变浪潮”技术沙龙圆满落幕
大模型视频云RTCAIGC
4 月 2 日,由火山引擎与英特尔联合主办的 AIoT “智变浪潮”技术沙龙在深圳成功举行。活动聚焦 AI 硬件产业的技术落地与生态协同,吸引了芯片厂商、技术方案商、品牌方及投资机构代表等 700 多位嘉宾参会。围绕“破解 AI 硬件落地与增长密码”的主题,活动通过十余场专题演讲与两场圆桌论坛,从大模型+多模态交互如何重塑硬件智能革新、AIoT 产业链、AI 硬件商家如何通过抖音实现倍速增长、AI
446
0
0
0
Bytedance视频云技术团队
Bytedance视频云技术团队
详解veImageX助力卓特视觉智能、高效生成设计素材
AI技术解析最佳实践
设计素材行业为设计师和创意工作者提供丰富的视觉和创意资源。数字媒体和互联网的迅猛发展,促使这一行业市场规模不断扩大,用户对设计素材的个性化和定制化需求与日俱增。卓特视觉,作为Adobe Stock中国区官方合作伙伴,自2014年成立以来,始终致力于推动中国创意产业的繁荣发展。在AI的技术浪潮中,卓特视觉选择与火山引擎veImageX(一站式图片解决方案)携手合作,旨在通过AIGC加成,更加智能和高
449
0
0
0
Bytedance视频云技术团队
Bytedance视频云技术团队
火山引擎veImageX助力谱时智能云深耕照片直播赛道
音视频图像识别
照片直播作为一种新兴的影像传播方式,正在逐渐改变人们记录和分享美好瞬间的方式。无论是个人活动、婚礼庆典,还是企业会议、产品发布,照片直播都能实时记录并分享每一个精彩瞬间,共享美好时刻。“谱时”照片直播作为行业领先的照片直播服务商,服务全球超过2400000名影像从业者及企业客户,选择和火山引擎veImageX(一站式图片解决方案)强强联手,深耕照片直播赛道。★谱时图片直播是承影互联(北京)旗下品牌
1013
1
0
0
Bytedance视频云技术团队
Bytedance视频云技术团队
儿歌点点携手火山引擎,共创儿童成长AI伙伴
音视频Agent
随着人工智能时代的到来,儿歌点点正积极致力于探索 AI 技术与儿童启蒙的融合之道,旨在为孩子们提供更加个性化且丰富的内容资源以及更加多元有趣的互动体验。儿歌点点(萌宝旗下产品),是国内领先的幼儿娱乐启蒙音视频内容平台,提供包括10W+集知名儿歌、动画片、故事、绘本等内容。该 App 已超过3.5亿次下载量,月覆盖1,300万中国家庭,持续创作推出不同类型的启蒙内容。01.与动画明星互动聊天AI伙伴
437
0
0
0
Bytedance视频云技术团队
Bytedance视频云技术团队
豆包大模型支持实时语音通话了!
大模型实时音视频ChatGPT
生成式人工智能正以令人惊叹的速度实现突破,像与 ChatGPT、豆包这类 AI 智能助手对话,不再局限于文字,也可以通过语音通话进行实时、生动的交流。语音是人类最自然便捷的沟通方式,语音交互大幅降低与 AI 对话的门槛。人们只需说出需求,AI 就能快速理解并反应,无需复杂的操作,都在简单的话语中。在这一趋势推动下,诸多领域出现 AI 实时语音创新应用,如 AI 社交陪伴、AI 口语学习、游戏 AI
7245
2
2
0
Bytedance视频云技术团队
Bytedance视频云技术团队
业内首家!火山引擎通过中国信通院超低延时直播性能卓越级评估
音视频直播
随着直播行业快速发展,如何让直播内容更快、更清晰、更保真、更流畅地抵达用户,成为直播服务提供商重点关注的问题。超低延时直播通过极低延时和兼顾直播体验的特性,成为众多直播场景下的重要技术解决方案。如何评估一个超低延时直播服务质量好不好?好在哪里?有多好?中国信通院联合头部直播服务厂商经过4个月十余个标准版本的打磨,形成 《音视频 超低延时直播性能及服务质量分级评估模型》 标准,向业界提供参考。本标准
554
0
0
0
Bytedance视频云技术团队
Bytedance视频云技术团队
CVPR 2024 满分论文 | 基于可变形3D高斯的高质量单目动态重建新方法
音视频视频云
项目主页:https://ingra14m.github.io/Deformable-Gaussians/论文链接:https://arxiv.org/abs/2309.13101代码:https://github.com/ingra14m/Deformable-3D-Gaussians单目动态场景(Monocular Dynamic Scene)是指使用单眼摄像头观察并分析的动态环境,其中场景中
2682
0
0
0
Bytedance视频云技术团队
Bytedance视频云技术团队
CVPR 2024 | 模块化无参视频质量评估
音视频视频云
无参视频质量评估 (Blind Video Quality Assessment,BVQA) 在评估和改善各种视频平台并服务用户的观看体验方面发挥着关键作用。当前基于深度学习的模型主要以下采样/局部块采样的形式分析视频内容,而忽视了实际空域分辨率和时域帧率对视频质量的影响,随着高分辨率和高帧率视频投稿逐渐普及,特别是跨分辨率/帧率视频转码档位画质评估场景中,这种影响变得更加不可忽视。在本文中,我们
2478
0
0
0