We're sorry but react app doesn't work properly without JavaScript enabled. Please enable it to continue.
文档
备案
控制台
登录
立即注册
首页
文章
问答
视频
活动
下载资源
团队号
镜像站
发布
慢慢学 AIGC
文章
专栏
问答
慢慢学 AIGC
DeepSeek R1: 理解 GRPO 和多阶段训练
AI
大模型
向量数据库
机器学习
点击下方 卡片 ,关注“ 慢慢学AIGC ”前言人工智能随着 DeepSeek R1 的发布迈出了重要的一步,这是一款开源模型,在高级推理任务上对 OpenAI 的 o1 发起了挑战。 DeepSeek R1 采用了一种创新技术——群体相对策略优化(Group Relative Policy Optimisation,GRPO),并结合多阶段训练方法,在数学、编程和通用推理等领域树立了新的基准
5
0
0
0
慢慢学 AIGC
理解推理 LLM:构建和改进推理模型的方法与策略
AI
大模型
向量数据库
机器学习
介绍了 DeepSeek R1 推理模型构建过程和一些相关工作
3
0
0
0
慢慢学 AIGC
【DeepSeek AI】Janus-Pro: 数据与模型扩展的统一多模态理解与生成
AI
大模型
向量数据库
机器学习
点击下方 卡片 ,关注“ 慢慢学AIGC ”内容来源:DeepSeek 论文作者:DeepSeek-AI项目页面 : https://github.com/deepseek-ai/Janus摘要在本研究中,我们提出了 Janus-Pro ,这是之前工作 Janus 的高级版本。具体而言,Janus-Pro 引入了以下改进:优化的训练策略 ;扩展的训练数据 ;更大模型规模的扩展 。通过这些改进,
84
0
0
0
慢慢学 AIGC
深度求索:探寻风暴之眼
AI
大模型
向量数据库
机器学习
AI 成本控制领域的领导地位、真实的训练成本、闭源模型利润率如何影响英伟达 H100 定价飙升、补贴推理定价策略、出口管制政策与 MLA 解析
24
0
0
0
慢慢学 AIGC
DeepSeek-R1:通过强化学习激励大语言模型的推理能力
AI
大模型
向量数据库
云通信
点击下方 卡片 ,关注“ 慢慢学AIGC ”内容来源: DeepSeek R1 论文摘要我们介绍了我们第一代推理模型:DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,在没有监督微调(SFT)作为初步步骤的情况下,展现出了显著的推理能力。通过强化学习,DeepSeek-R1-Zero 自然地形成了许多强大而有
328
0
1
0
慢慢学 AIGC
如何提取 ChatGPT 的训练数据
AI
大模型
数据安全
机器学习
随着我们继续推动 AI 可以实现的边界,保持警惕并致力于保护这些卓越技术背后的数据的完整性和隐私至关重要。
83
0
0
0
慢慢学 AIGC
RTX 5090 硬件参数详解
AI
向量数据库
大模型
机器学习
老黄 PPT 里的数字陷阱,你注意到了吗?
699
0
0
0
慢慢学 AIGC
火鸿 AI-HPC:深度学习的高性价比软硬件协同设计
AI
大模型
向量数据库
机器学习
在本文中,我们分享了在部署和维护配备 10,000 个 PCIe A100 GPU 的 Fire-Flyer 2 AI-HPC 系统过程中获得的经验和见解。
64
0
0
0
慢慢学 AIGC
MI300X vs H100 & H200 基准测试对比
AI
大模型
机器学习
GPU
训练性能、用户体验、可用性、英伟达、AMD、通用矩阵乘法(GEMM)、注意力机制、网络连接、InfiniBand(无限带宽)、Spectrum-X以太网、RoCEv2以太网、SHARP(可扩展分层聚合和减少协议)、总拥有成本
272
0
0
0
慢慢学 AIGC
AI 扩展定律的演进
AI
大模型
向量数据库
机器学习
O1 Pro 架构、推断训练基础设施、Orion 和 Claude 3.5 Opus “失败”原因
77
0
0
0
慢慢学 AIGC
运行本地 AI,GPU/NPU 还是刚需吗?
AI
大模型
容器
GPU
随着性能更强的 7B 至 70B 模型的出现,在本地机器上运行大语言模型的推理正变得越来越流行。现代 AI 软件真的需要 GPU 吗?本文将为你释疑。
403
0
0
0
慢慢学 AIGC
深度学习中的 FP8 格式详解
AI
大模型
向量数据库
机器学习
本文提出了一种 8 位浮点(FP8)格式,包括两种编码方式:E4M3 以及 E5M2。在各种图像和语言任务中验证了 FP8 格式的有效性,其效果与 16 位训练所达到的结果质量相当。
94
0
0
0
慢慢学 AIGC
Allegro:揭开商业级视频生成模型的黑箱
AI
大模型
向量数据库
视频服务
本文介绍了Allegro,一种在质量和时间一致性方面表现卓越的高级视频生成模型,提出了一种用于训练高性能、商业级视频生成模型的方法,涵盖数据、模型架构、训练流程和评估等。Allegro优于现有的开源模型和大多数商业模型,仅次于海螺和可灵。
80
0
0
0
慢慢学 AIGC
内存墙:DRAM 的过去、现在与未来
AI
大模型
向量数据库
数据库
本文将从 DRAM 的背景和历史探讨内存墙的问题及解决方案,如延展 HBM 路线图,以及存内计算(CIM)、新型存储器如铁电RAM(FeRAM)或磁性 RAM(MRAM),以及即将到来的 4F2 DRAM 和 3D DRAM。
162
0
0
0
慢慢学 AIGC
探索 M4 Max 在大模型上的性能
大模型
大模型
Apple 刚刚推出了全新的 MacBook Pro,声称其配备的 128 GB 显存和全新 M4 Max 芯片“能够轻松处理拥有 2000 亿参数的大模型”。
722
0
0
0
慢慢学 AIGC
VLM:计算机视觉模型的未来
AI
图像处理
大数据
关系型数据库
本文讨论视觉语言模型(VLM),解释开发多模态神经网络用于图像搜索的基础知识和训练过程,探讨其设计原则、挑战和架构。展示如何使用支持 AI 的搜索产品来处理图像和文本,以及引入 VLM 后的收益。
307
0
0
0
慢慢学 AIGC
ARIA : 开源多模态原生 MoE 模型
AI
大模型
智能应用
数据库
ARIA 开放的多模态原生 MoE 模型,在各种多模态、语言和编码任务中表现一流。ARIA 对每个视觉和文本 token 分别激活了 39 亿和 35 亿个参数。它在多模态任务上超越了 Pixtral-12B 和 Llama3.2-11B。
144
0
0
0
慢慢学 AIGC
AI 新云操作指南与架构分析【技术篇】
AI
GPU
NoSQL数据库
云安全
AI 新云是专注于提供 GPU 计算租赁的新型云计算服务提供商。本文我们将揭开运行新云的各个层面,包括如何制定集群物料清单 (BoM)、应对部署、资金和日常运营的复杂性。我们还将提供关于 BoM 和集群架构的几项重要建议。
124
0
0
0
慢慢学 AIGC
OpenAI o1 有多强?我们用逻辑推理,24 点,中国象棋和《黑神话》来评测下
AI
大模型
关系型数据库
智能语音交互
通过本文几个任务实测,我们体验了 OpenAI o1 强大的推理能力,其思考过程也向我们揭示了更多模型生成答案过程的细节。尽管 o1 还存在一些不足,相信在不久的将来会一一克服。
147
0
0
0
慢慢学 AIGC
运用知识蒸馏(KD)构建小语言模型
技术
火山方舟
向量数据库
大模型
本文将探讨RAG的一些常见缺陷,语言模型微调的挑战,并概述知识蒸馏(KD)的基本概念,同时提供一个实际示例来说明其应用。
187
0
0
0