We're sorry but react app doesn't work properly without JavaScript enabled. Please enable it to continue.
文档
备案
控制台
登录
立即注册
首页
文章
问答
视频
活动
下载资源
团队号
镜像站
发布
NLP前沿
文章
专栏
问答
NLP前沿
搜索 + RL = DeepRetrieval, 开源!
开源
向量数据库
大模型
数据库
一个新的开源项目,DeepRetrieval论文地址:https://arxiv.org/pdf/2503.00223github: https://github.com/pat-jj/DeepRetrieval咋把RL的思路用到搜索上呢?这个工作做的有点曲折。让LLM对query改写,用改写的query去搜索知识库,比较检索到的doc与真实doc的相似度,并赋予Reward。相当于使用DeepR
3
0
0
0
NLP前沿
bge开源新向量模型了,冲!
开源
向量数据库
大模型
NoSQL数据库
BGE昨天开源了新的多模态向量模型。论文地址:https://arxiv.org/abs/2412.14475项目主页:https://github.com/VectorSpaceLab/MegaPairs模型地址:https://huggingface.co/BAAI/BGE-VL-MLLM-S1多模态的架构意味着它可以,文本+图片 召回 文本/图片。支持图文多模态的检索,三个大小,base版本
0
0
0
0
NLP前沿
Mistral发布史上最强、最好用OCR模型
AI
向量数据库
大模型
数据中台
Mistral AI发布世界上最好用的OCR模型,专注于高精度的文档理解和信息提取,特别适用于 复杂 PDF、图像、表格、数学公式、多语言文档 等多种格式。在严格的基准测试中,Mistral OCR 的性能始终优于其他领先的 OCR 模型。它在文档分析的多个方面都具有出色的准确性,如下所示。按语言目前可以再Le Chat上免费测试,也可以调用 API mistral-ocr-latest,价格10
7
0
0
0
NLP前沿
微软LongRoPE v2:几乎无损的上下文扩展!
AI
大模型
向量数据库
云安全
论文笔记,LongRoPE2: Near-Lossless LLM Context Window Scaling, https://arxiv.org/pdf/2502.20082。 longrope v1的升级工作,应对长度外推的。longrope v1简单回顾,核心思想是非均匀插值+渐进式微调:对比 NTK、YaRN 之类的插值方式,LongROPE 的每个频率都有自己的缩放因子。所以先进行基
16
0
0
0
NLP前沿
DeepSeek开源周,第四弹, 一次性开源3个项目!
开源
大模型
机器学习
数据库
今天连续开源3个项目,地主家的存货真多~DualPipe项目地址:https://github.com/deepseek-ai/DualPipe/blob/main/README.mdDualPipe项目。 是DeepSeek-v3中提及的一种分布式大模型训练测u额。常规的流水线并行是一种常见的加速大规模模型的训练的方式,在分布式训练场景下,把模型分割成多个部分,分别在不同的设备上运行。而Dual
15
0
0
0
NLP前沿
DeepSeek开源周,第五弹, 3fs来袭~
开源
存储
数据库
机器学习
今天是DeepSeek开源周,最后一天,开源的3FS。一个专门为AI训练和推理工作负载设计的高性能,分布式文件系统,中间插播一条OpenAI新闻。 凌晨,GPT 4.5发布,API 价格,价格涨到了75 美元 / 百万 tokens,是 GPT-4o 的 30 倍,是 DeepSeek 的 280 倍。目前整体口碑一般。回到3FS,一个专门为AI训练和推理工作负载设计的高性能,分布式文件系统,特性
14
0
0
0
NLP前沿
DeepSeek开源周,第六弹, R1推理系统设计,API利润率达到545%!
开源
大模型
容器
数据库
deepseek的开源周,还包含周末? 第六天,开源的是DeepSeek-V3/R1 推理系统 的设计和优化的详细概述。甚至把到底赚不赚钱都告诉大伙了,看到最后,只想@尤洋 ,理论利润率达到了545%!DeepSeek-V3/R1 推理系统的优化目标是更高的吞吐量和更低的延迟。为了实现这两个目标,系统采用了跨节点的专家并行(Expert Parallelism, EP)。DeepSeek 在线服务
11
0
0
0
NLP前沿
DeepSeek开源周,第三弹, DeepGEMM来袭~
开源
GPU
数据库
机器学习
今天开源了deepseek-v3中提到的的FP8 GEMM内核。300行代码的暴力cuda美学,看不太懂,但是每天都可以打个酱油~支持普通的矩阵乘法以及 Mix-of-Experts 分组矩阵乘法。使用 CUDA 编写,安装时无需编译,所有内核在运行时通过轻量级的即时编译(JIT)模块动态编译。DeepGEMM设计,避免了对CUTLASS和CuTe的过度依赖,采用了更简洁的设计,核心代码只有大约3
16
0
0
0
NLP前沿
DeepSeek开源周,第二弹, DeepEP来袭~
开源
大模型
机器学习
数据库
众所周知,DeepSeek R1满血版因为参数量太大,所以很多的企业在亏本提供API。而高效部署DeepSeek R1的方式,在论文里边已经些了,专家并行。但是现在目前的开源框架并不支持,导致很多厂商再用暴力部署,亏本赚吆喝。 DeepSeek今天把这个杀手锏开源了!饭喂嘴里了,不许再说“布R1亏xx了”~项目地址:https://github.com/deepseek-ai/DeepEP一个针对
25
0
0
0
NLP前沿
DeepSeek开源周,第一弹, FlashMLA来袭~
AI
GPU
容器
机器学习
Deepseek的openweek, day1的来了来了。
22
0
0
0
NLP前沿
VLM + R1,开源圈又炸锅了?
AI
大模型
向量数据库
机器学习
中午,看到三大顶会推了一个叫VLM-R1的仓库,评测的2个图看起来很漂亮,如下。左图是测试相同领域评测结果,右图是out-of-domain的评测结果。随着训练步骤增加,grpo相比sft都有明显优势,sft更容易过拟合。 看完之后,问题就来了,r1是用的规则奖励函数,而vlm的训练数据,很多是这种格式的: q + image -> a,那vlm是怎么跟r1结合到一起的? 所以笔者去瞧了瞧,简单分
91
0
0
0
NLP前沿
unsloth杀疯了,3090即可训练超长上下文grpo!
AI
大模型
算法
机器学习
用之前10%的显存消耗,实现比其他所有的lora/qlora/flash attention实现的grpo,长10倍的上下文长度。
51
0
0
0
NLP前沿
MoBA vs NSA, Kimi第一个站出来和DeepSeek中门对狙!
开源
大模型
向量数据库
数据库
昨天DeepSeek又开源了,NSA框架,通过稀疏注意力,让大模型的上下文长度可以达到64k,并且性能大幅提升。 随后晚上Kimi也来了,开源MoBA框架,数值更逆天,可以scaleup到10M上下文。今天简单聊聊二者的差异, 2个框架的取名也是一种艺术~。DeepSeek-NSAKimi-MoBA技术报告地址:kimi moba: https://github.com/MoonshotAI/Mo
43
0
0
0
NLP前沿
六小虎之阶跃星辰,加入开源阵营,开源SOTA文生视频!
大模型
大模型
视频服务
数据安全
刚刚,阶跃星辰开源 Step-Video-T2V。 一个30B参数的,文生视频模型。可生产最多204帧的视频,大概8s的样子。提出了一种用于视频的深度压缩 VAE,实现了 16x16 的空间压缩比和 8x 的时间压缩比。在最终阶段应用直接偏好优化(DPO),以进一步提高生成视频的视觉质量。S模型地址:https://huggingface.co/stepfun-ai/stepvideo-t2v项目
28
0
0
0
NLP前沿
阿里左手打右手,Qwen2.5 VL 72B 被自家 34B打败了~
开源
大模型
数据库
机器学习
阿里巴巴 AIDC 团队开源ovis2 多模态 LLM 系列模型。1B/2B/4B/8B/16B/34B模型地址:https://huggingface.co/collections/AIDC-AI/ovis2-67ab36c7e497429034874464特点:通过优化训练策略使小模型,有更高的能力密度,展现出跨层级的领先优势。通过指令调整和偏好学习的结合,显著强化了思维链推理能力。将视频和多
129
0
0
0
NLP前沿
一个可以藏下滕王阁序,DeepSeek都玩懵了~
云原生
向量数据库
大模型
云通信
🚀󠄿󠅠󠅕󠅞󠄱󠄹󠇕󠆠󠅶󠇖󠆄󠆮󠇕󠆔󠆗󠇖󠅻󠆋󠄐󠄷󠅀󠅄󠄝󠄥󠇕󠅵󠅽󠇘󠆤󠆩󠇖󠆇󠆐󠇙󠆉󠆀󠇔󠆭󠆯󠇗󠆄󠆘󠇟󠆬󠆊󠇙󠆒󠅴󠇘󠆞󠆑󠇕󠅷󠆐󠇔󠆨󠆚󠇖󠆌󠅸󠇕󠅶󠅵󠇖󠅾󠆘󠇕󠅷󠆪你以为这只是一个表情吗?不!他其实藏了277个token~这是来自 @Paul Butler 大神的一个发现,实际上,我
24
0
0
0
NLP前沿
推理满血R1,仅需24GB!
开源
GPU
容器
数据库
开源推理框架 KTransformers 支持了24GB推理DeepSeek-R1/V3。(24GB = 4090/3090的显存大小)4090下,prompt预处理速度,可以达到285token/s, 生成速度达到14 token/s。MoE架构相比于Dense模型本身需要大量的存储空间,计算资源会少一些,所以大佬们将GPU、CPU联合推理发挥到极致。另外,推理的是671B-int4量化版本,血
64
0
0
0
NLP前沿
open-r1,代码解析~
开源
大模型
机器学习
数据库
仔细瞅瞅抱抱脸针对R1的开源复现代码。DeepSeek R1训练分为2个阶段。通过课程学习持续优化,第二阶段的数据部分来源于第一阶段。第一阶段纯RL, 第二阶段 SFT + RLR1训练完成之后,通过蒸馏到小模型,可以让小模型获得非常好的推理性能,同时是优于使用小模型直接进行强化学习的。蒸馏复刻,使用 R1 构造推理思维链数据,使用小模型SFT数据集来源包括中国高中数学练习、美国和国际数学奥林匹克
112
0
0
0
NLP前沿
2025年,RAG技术到底进化成啥样了?
AI
向量数据库
大模型
机器学习
RAG 技术持续进化,分享一些最新的技术列表如下:最新RAG技术融合深度分步推理、树状搜索、引用机制、多模态等前沿方法。DeepRAG -> DeepRAG: Thinking to Retrieval Step by Step for Large Language Models (2502.01142)将检索增强推理建模为马尔可夫决策过程,实现策略性检索。动态决策何时检索外部知识,何时依赖参数化
149
0
0
0
NLP前沿
训练自己的R1,仅需7GB显存~
开源
大模型
向量数据库
机器学习
还是Unsloth,优化了GRPO的训练流程。做到了比 Hugging Face + FA2 少使用 80%的 VRAM。也就是说你可以只用 7GB 的 VRAM 即可使用 Qwen2.5(1.5B)重现 R1-Zero 的“啊哈时刻”。跑着玩,还提供了一个colab的jupyter: https://colab.research.google.com/github/unslothai/noteb
46
0
0
0