在后Chinchilla时代的研究里边,今年夏天随着BitNet论文的发布,量化相关的热潮达到顶峰。论文里边提出了一个三元量化方案(-1、0、1),也就是1.58比特。哈佛、斯坦福、麻省理工这些高校的大佬最近联合发了一个研究,标题:Scaling Laws for Precision通过465次预训练实验,对Chinchilla扩展定律进行了量化修正,研究发现量化效益在FP6处趋于平稳。一些重要发
论文笔记分享,标题A COMPARATIVE STUDY ON REASONING PATTERNS OF OPENAI’S O1 MODEL》,代码开源:https://github.com/Open-Source-O1/o1_Reasoning_Patterns_StudyOpenAI的o1模型在推理时候花费更多的时间,可以大幅提高LLMs的推理能力。然后呢,这篇文章就以gpt4o为基础,先论
好久没分享过综述了,今天分享一个最新的RAG综述,来自卡内基梅隆大学。标题:A Comprehensive Survey of Retrieval-Augmented Generation (RAG): Evolution, Current Landscape and Future Directions引言
=======检索增强生成技术(RAG)主要由两个关键部分构成:其一是检索组件,主要职责是
论文笔记分享,标题:Meta-Chunking: Learning Efficient Text Segmentation via Logical Perception,代码开源:https://github.com/IAAR-Shanghai/Meta-Chunking/tree/386dc29b9cfe87da691fd4b0bd4ba7c352f8e4ed切块切的好,对下游任务是很有帮助的。
论文笔记分享,标题GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models,来自Apple这篇文章的结论是:LLM 无法进行真正的推理。并做出了一系列的实验论证,大模型仅仅是记住了目标序列。10月份有很多文章在论证这个事情。比如之前写过一篇推文介绍大模型在规划的能力上