We're sorry but react app doesn't work properly without JavaScript enabled. Please enable it to continue.
文档
备案
控制台
登录
立即注册
首页
文章
问答
视频
活动
下载资源
团队号
镜像站
发布
ArronAI
文章
专栏
问答
ArronAI
LLM(十七)| 阿里Marco-o1:OpenAI-o1 的开源替代品
AI
大模型
向量数据库
云存储
Marco-o1 YouTube视频介绍:https://youtu.be/R1w145jU9f8一、什么是阿里巴巴的 Marco-o1?例如:想象一下 Marco-o1 是一个超级聪明的问题解决者。大多数模型(如数学、物理或编码)都擅长具有固定答案的问题,例如“什么是 2+2”或“如何修复此代码?这些都很简单,因为我们知道它们什么时候是对的,什么时候是错的。但 Marco-o1 不止于此。它还试
9
0
0
0
ArronAI
RAG等数据增强型LLM应用的4个任务级别
AI
大模型
向量数据库
数据安全
了解RAG应用常见的4个任务级别及其技术应对
8
0
0
0
ArronAI
知乎热议 | 为什么说在中国做科研最忌讳踏实?
云原生
大模型
向量数据库
机器学习
对于很多人来说,写学术论文确实是一个让很多人感到无从下手的任务。学术写作就像是一场探险,你手中握着的是一张张文献地图,而你的目标是找到一条通往知识宝藏的路径。在这个过程中,你可能会迷失方向,不知道从哪里开始。 是先确定研究问题,还是先阅读大量文献?是先搭建论文框架,还是先收集数据? 这些问题像是一团乱麻,让人摸不着头脑。科研者的科研之路确实是困难重重的, 论文一次次被拒,自己找不到方法,也没人指导
7
0
0
0
ArronAI
LLM漫谈(十)| DeepSeek R1 微调指南
AI
大模型
向量数据库
机器学习
在本文中,我们将深入探讨使用 Python 微调 DeepSeek R1模型的过程。一、先决条件:unsloth:可以使 Llama-3、Mistral、Phi-4 和 Gemma 等大型语言模型的微调速度提高了 2 倍,使用的内存减少70%,关键是准确性没有降低!torch:使用 PyTorch 进行深度学习的基本构建块,它提供了一个强大的张量库,类似于 NumPy,但它具有 GPU 加速的额外
15
0
0
0
ArronAI
知乎热议 | 为什么说在中国做科研最忌讳踏实?
AI
大模型
向量数据库
机器学习
对于很多人来说,写学术论文确实是一个让很多人感到无从下手的任务。学术写作就像是一场探险,你手中握着的是一张张文献地图,而你的目标是找到一条通往知识宝藏的路径。在这个过程中,你可能会迷失方向,不知道从哪里开始。 是先确定研究问题,还是先阅读大量文献?是先搭建论文框架,还是先收集数据? 这些问题像是一团乱麻,让人摸不着头脑。科研者的科研之路确实是困难重重的, 论文一次次被拒,自己找不到方法,也没人指导
16
0
0
0
ArronAI
DeepSeek-R1模型架构深度解读(十)从零构建DeepSeek-R1
AI
大模型
向量数据库
数据中台
DeepSeek-R1 模型训练流程代码示例讲解
172
0
0
0
ArronAI
LLM漫谈(九)| DeepSeek NSA论文全文翻译
AI
大模型
向量数据库
机器学习
摘要引言(1)硬件对齐的推理加速 :将理论计算减少转化为实际速度提升,需要在预填充和解码阶段进行硬件友好的算法设计,以缓解内存访问和硬件调度瓶颈; (2)训练感知的算法设计 :通过可训练的操作符实现端到端计算,以减少训练成本,同时保持模型性能。这些要求对于实际应用实现快速长文本推理或训练至关重要。在考虑这两个方面时,现有方法仍存在明显差距。2.1. 高效推理的幻象阶段限制的稀疏性:例如 H2O(Z
36
0
0
0
ArronAI
1天接收!首篇 DeepSeek SCI 已发表,1区高分期刊!
大模型
大模型
向量数据库
机器学习
高执行力是真的能吃到发文红利!DeepSeek官宣开源,说干就干的科研人已经抓住DeepSeek风口发表SCI了!来自意大利的一个研究团队, 通过De epSeek模型在中科院1区6.5分的Resuscitation期刊上,发表了一篇Letter,投稿1天就接收了!图源:Resuscitation期刊在用deepseek写论文的过程中,如果你也遇到了以下的问题:不知道论文怎么写,选题、写作毫无思路
26
0
0
0
ArronAI
20万卡吞金兽Grok-3变身“地球上最聪明的AI”,超越DeepSeek-R1,思维链&深度思考全上齐!
AI
大模型
向量数据库
机器学习
马斯克号称【聪明得吓人】的Grok-3来袭,真的是“地表最强”?
67
0
0
0
ArronAI
LLM(十六)| s1:50美元大模型可以和DeepSeek R1媲美吗?
大模型
大模型
向量数据库
机器学习
本文翻译自: https://medium.com/@florian_algo/s1-explained-can-a-50-llm-rival-deepseek-r1-dc4b30c87837一、s1 真的匹配甚至超越 OpenAI o1 和 DeepSeek-R1 吗?图 1: s1-32B 是一个开放且样本高效的推理模型。如图 1 所示,s1 没有超过 o1 甚至 o1-mini。二、那么 s
40
0
0
0
ArronAI
LLM(十五)| Kimi k1.5:解锁语言模型强化学习新高度
大模型
大模型
向量数据库
机器学习
在设计和训练 Kimi k1.5 的过程中,研究团队做了不少创新:长上下文扩展团队把强化学习的上下文窗口扩展到了 128k。简单来说,就是模型在处理信息时能 “看” 到更长的文本内容。而且,他们还使用了部分滚动(partial rollouts)技术,避免从头生成新轨迹的高成本,提升了训练效率。研究发现,上下文长度是强化学习与大语言模型结合发展的关键因素。 2. 改进策略优化研究人员推导出了基于长
32
0
0
0
ArronAI
LLM(十三)| DeepSeek-R1论文全文翻译
大模型
大模型
向量数据库
云安全
论文题目:《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》论文地址 :https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf以下是论文的翻译内容:摘要第一章 引言1.1 贡献后训练:大规模强化学习在
117
0
0
0
ArronAI
LLM(十四)| DeepSeek-R1概况
大模型
大模型
向量数据库
云安全
一、DeepSeek官网 :https://www.deepseek.com/DeepSeek-R1论文链接 :https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdfDeepSeek-R1新闻发布 :https://api-docs.deepseek.com/zh-cn/news/news250120DeepSeek
129
0
0
0
ArronAI
如何利用AI大模型突破研究瓶颈,提升学术创新效率与成果质量——研究者高效赋能指南
AI
大模型
向量数据库
云存储
中国科学院人才交流开发中心主办“人工智能大模型赋能科学研究效能提升与创新实战高级研修班”,旨在通过系统化的培训,使教师掌握最先进的人工智能技术及其应用场景,特别是在科研和教学中的应用。同时,课程还特别强调实际操作能力和创新能力的培养,通过 案例分析和实战演练 ,确保教师能够将所学知识应用于日常工作中,进而推动整个教育体系向更加智能化、个性化的方向发展。2024年成功举办10期,参加培训人员达200
113
0
0
0
ArronAI
值得一用的长文本训练框架360-LLaMA-Factory及多模态VideoRAG实现思路
大模型
大模型
向量数据库
云安全
360-LLaMA-Factory多模态RAG-VideoRAG实现思路
140
0
0
0
ArronAI
LLM之RAG实战(五十一)| 使用python和Cypher解析PDF数据,并加载到Neo4j数据库
数据库
向量数据库
关系型数据库
NoSQL数据库
一、必备条件:python语言Neo4j数据库python库: neo4j、llmsherpa、glob、dotenv二、代码:三、代码解释3.1 设置导入Neo4j环境变量设置 Neo4j唯一key3.2 初始化Neo4j建立与 Neo4j 的连接并创建必要的约束以确保数据完整性。3.3 提取文档内容抽取PDFsection、块和表格数据使用 Cypher 查询在 Neo4j 图形中创建和链接节
129
0
0
0
ArronAI
LLM之Agent(十三)| 使用 PydanticAI 框架构建多代理LLM 系统(保姆教程)
AI
大模型
向量数据库
云存储
一、Pydantic、GenAI 中的 Pydantic、PydanticAI对比1.1 Pydantic1.2 Pydantic in GenAI1.3 PydanticAI二、为什么是PydanticAI****名称是一个字符串;年龄是一个数字;电子邮件的格式有效;从以下示例可以看出 Pydantic 是如何简化此操作:三、PydanticAI特点开发团队 :由Pydantic背后的团队构建(
134
0
0
0
ArronAI
LLM之RAG理论(十三)| 传统RAG和Agentic RAG比较
AI
向量数据库
大模型
数据库
一、传统RAG接收查询:系统接收用户查询或提示;检索信息: 通常使用矢量搜索引擎从知识库中检索相关信息;生成响应: 检索到的信息与用户查询相结合,并发送到 LLM 以生成响应。此方法对于简单的问答任务非常有效,其中相关信息在知识库中很容易获得。但是,它难以处理需要多步推理或使用外部工具的复杂查询。二、Agentic RAG分析用户查询并规划检索策略;利用各种工具,例如矢量搜索引擎、网络搜索、计算器
131
0
0
0
ArronAI
MLLM(四)| 阿里多模态大模型QVQ-72B-Preview: 以智慧看世界
AI
大模型
向量数据库
云安全
官方博客 :https://qwenlm.github.io/blog/qvq-72b-previewHuggingFace地址 :https://huggingface.co/collections/Qwen/qvq-676448c820912236342b9888ModelScope地址 :https://modelscope.cn/models/Qwen/QVQ-72B-PreviewKag
152
0
0
0
ArronAI
LLM(十二)| DeepSeek-V3 技术报告深度解读——开源模型的巅峰之作
大模型
大模型
向量数据库
机器学习
一、DeepSeek-V3 的核心亮点1.1 高效的架构设计DeepSeek-V3 采用了 Multi-head Latent Attention (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中已经得到了充分验证。MLA 通过低秩压缩技术减少了推理时的 Key-Value 缓存,显著提升了推理效率。DeepSeekMoE 则通过细粒度的专家分配和共享专家机制,
3901
1
0
2