刘聪NLP
刘聪NLP
大模型大模型向量数据库云存储
话不多说,线上链接: https://huggingface.co/Qwen/QwQ-32B QwQ-32B模型为Dense模型,总参数32.5B,非嵌入参数31B,64层,采用GQA,Q为40,KV为8,上下文长度为131K。 同时,指标很强,在LiveBench、IFEval、BFCL上都超过了DeepSeek-R1-671B模型。如图2。 值得注意的是,QwQ-32B还在推理模型中集成了Agent能力,够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。 其中,QwQ-32B的强化
17
0
0
0
开源大模型容器数据库
昨天Manus太火了,一码难求,知乎热度也高达2000万,某鱼已经吵到了好几万一个邀请码,果然第一批赚钱的是卖Key的。 为了可以吃到这波流量,赶紧分享两个开源复刻Manus的项目OpenManus和OWL。 OpenManus: https://github.com/mannaandpoem/OpenManus OWL: https://github.com/camel-ai/owl OpenManus是MetaGPT的劲宇兄他们花了3小时手搓出来的框架,宗旨直接让 Agent 操作你的电脑,给
15
0
0
0
AI大模型向量数据库机器学习
在用极小模型复现R1思维链失败后的一些感悟。
13
0
0
0
AI大模型向量数据库机器学习
Deepseek-R1-Zero复现的实验细节,有点长,慢慢看
11
0
0
0
开源大模型机器学习数据库
今天凌晨,俊旸兄发x,说下周一定会开源,但现在正在进行更多的RL实验,所以最后开的模型有多强,还不知道,但一定会开源一些东西。 期待一手Qwen开源。 同时值得注意的一点是,现在qwen.ai上的QwQ-max-Preview模型的推理收益,应该更多来自于SFT过程,因为还没有充分进行RL。 QwQ-Max-Preview如果是在Qwen2.5-Max上训练的,那么也会是一个MoE模型。 因为这周太卷了,一直在跟DeepSeek的开源内容,还没来得及给大家实测,下周一定测!!! 最后
34
0
0
0
大模型大模型向量数据库机器学习
重磅通知,应大家要求,“NLP工作站”成立技术交流4群。!加我拉群时,一定一定一定按要求写备注!群里主要讨论一些新的AI技术&搬运一些知乎内容,不限于大模型、传统NLP技术、多模态等。入群后一定进行备注,“昵称-学校(公司)-方向”。备注是为了大家在群内交流时,更快地了解对方。如果没有备注,不熟悉的人可能会被清理掉,我深表歉意。入群后一定要遵循群规,具体如下:禁止聊政治相关话题、与政治相关技术话题
6
0
0
0
AI大模型机器学习算法
这里尝试总结一些近期聊过一些场景,分享一下(纯个人)认为哪些任务上用 RL 收益高,哪些任务其实不是非 RL 不可,希望能够帮助大家理性看待,冷静分析!
15
0
0
0
AI大模型向量数据库机器学习
话不多说,线上链接!! 文本模型: https://huggingface.co/microsoft/phi-4 https://huggingface.co/microsoft/Phi-4-mini-instruct 多模态模型: https://huggingface.co/microsoft/Phi-4-multimodal-instruct Phi-4依旧继承Phi系列的宗旨,将网络筛选数据和合成数据发挥到极致,其中Phi-4参数量为14B,利用9.8T Tokens进行训练,1920块GP
12
0
0
0
开源大模型数据库机器学习
话不多说,直接上链接: https://github.com/deepseek-ai/DualPipe https://github.com/deepseek-ai/eplb DualPipe 是一种创新的双向管道并行算法,在 DeepSeek-V3 技术报告中提出。实现了正向和反向计算-通信阶段的完全重叠,同时也减少了管道气泡时间。 之前还写过,<a href="https://mp.weixin.qq.com/s?__biz=Mzg5MTU1NTE1OQ==&amp;mid=2247492144&
7
0
0
0
AI存储数据库算法
import deepseek as openai 真没想到,最后一天deepseek对存储下手啊! 话不多说,直接上链接: https://github.com/deepseek-ai/3FS 3FS,Fire-Flyer File System,是一种高性能分布式文件系统,利用现代SSD 和 RDMA 网络带全宽的并行文件系统,解决AI训练和推理存储问题。 峰值吞吐量:180个存储节点,每个存储节点配备2×200Gbps InfiniBand网卡和十六个14TiB NVMe SSD。测试使用大
12
0
0
0
云原生向量数据库大模型机器学习
你以为结束了,其实没结束!! 直接上链接: https://zhuanlan.zhihu.com/p/27181462601 周六不让休息是吧,请各位看完再去玩!
7
0
0
0
开源大模型数据库机器学习
今天中午DeepSeek有开源啦,然后里面放出了利润计算,统计包括了网页、APP 和 API 的所有负载。如果所有 tokens 全部按照 DeepSeek R1 的定价计算,理论上一天的总收入为$562027,成本利润率 545%。 然后知乎下面一大堆@尤洋老师的,毕竟他之前说部署R1一个月赔4个亿。 尤洋老师给出了最新回应, https://zhuanlan.zhihu.com/p/27271377737 最后,<a href="https://mp.weixin.qq.com/s?__biz=
24
0
0
0
AIGPU数据库机器学习
话不多说,直接上链接: https://github.com/deepseek-ai/DeepGEMM 今天DeepSeek给大家带来FP8训推加速、稳定的秘籍! DeepGEMM 是一个 FP8 通用矩阵乘法(GEMMs)库,可以用在Dense上,也可以用在MoE上。 该库用 CUDA 编写,安装时无需编译,内置了JIT(Just-In-Time)模块! 注意,依然仅支持Hopper GPU,解决了 FP8 累计计算不精确的情况。该库仅包含一个核心内核函数,大约有 300 行代码,大道至简!
12
0
0
0
大模型大模型数据库容器
DeepSeek API开放平台已重新开放API充值,如图2。 其中,Deepseek-V3模型价格:输入2元 / M tokens,命中缓存的输入0.5元 / M Tokens,输出 8元 / M Tokens;Deepseek-R1模型调用价格:输入tokens 4元 / M Tokens,命中缓存的输入1元 / M Tokens,输出 16元 / M Tokens,如图3。 现在,火山引擎(图4)、硅基流动(图5)、阿里百炼(图6)等价格与官方价格基本一致,如果DeepSeek可以提供稳定的算力
39
0
0
0
大模型大模型向量数据库云通信
本来昨晚想蹲Qwen发布新模型的,太困了,根本坚持不住了! 早起发现,不仅Qwen发了新模型,Anthropic也发布Claude3.7,都卷起来吧! 先说Qwen的QwQ模型,通过http://qwen.ai即可访问,同时马上会以 Apache 2.0协议,开源Qwen2.5-Max、QwQ-Max 及其小模型,例如QwQ-32B模型等。 晚点会给大家带来QwQ-Max的最新评测! 同时说一下http://qwen.ai里面各种Qwen的最新模型免费用,包括Qwen2.5-max、Qwen2.5
39
0
0
0
开源GPU容器数据库
话不多说,直接上链接: https://github.com/deepseek-ai/DeepEP DeepEP 是一个针对混合专家(MoE)和专家并行(EP)的通信库,提高GPU内核之间的吞吐量并且降低延时,同时支持低精度操作(例如:FP8)。 但注意,依然仅支持Hopper GPU(例如:H100、H800等)。 良心DS,白天开源,无需熬夜,老美颤抖吧,哈哈哈哈!vLLM已经开始适配了,马上都能用上啦
18
0
0
0
AIGPU机器学习算法
话不多说,直接上链接: https://github.com/deepseek-ai/FlashMLA FlashMLA 是一款高效的 MLA 解码内核,专为 Hopper GPU 优化,适用于变长序列服务。 在 H800 SXM5 上,使用 CUDA 12.6 时,内存受限配置下可实现高达 3000 GB/s 的带宽,计算受限配置下可达 580 TFLOPS 的算力。
30
0
0
0
大模型大模型向量数据库数据库
言简意赅,火山引擎 DeepSeek-R1 满血版,使用我的注册码注册,就得 15 元代金券、相当于 375 万 tokens,而我也能得到 750 万 tokens! 上周五已经转发一波了,周一继续,没有注册的可以组测一波~~ https://www.volcengine.com/experience/ark?utm_term=202502dsinvite&amp;ac=DSASUQY5&amp;rc=MVC59111 搞点免费的Token,后面给大家更新数据集,哈哈哈。 之前开源的中文满血R1
19
0
0
0
大模型大模型机器学习数据库
DualPipe 是 DeepSeek V3里面infra部分的重头戏,既能减少bubble还能做到通信掩盖,整个编排方式看起来神乎其技。
45
0
0
0
大模型大模型向量数据库机器学习
话不多少直接上链接:https://x.com/i/grok 欢迎评论区讨论,效果如何,本人测试幻觉很重,但幻觉伴随着创造力!
43
0
0
0