余俊晖
余俊晖
AI大模型向量数据库数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
347
0
0
0
AI向量数据库大模型数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
67
0
0
0
AI大模型向量数据库机器学习
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
36
0
0
0
AI大模型向量数据库云存储
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
51
0
0
0
AI向量数据库大模型NoSQL数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
78
0
0
0
大模型大模型向量数据库机器学习
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
63
0
0
0
大模型大模型向量数据库机器学习
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
71
0
0
0
AI大模型向量数据库机器学习
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
85
0
0
0
AI向量数据库大模型数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
278
0
0
0
开源大模型向量数据库云通信
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
102
0
0
0
大模型大模型向量数据库数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
93
0
0
0
AI向量数据库大模型数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
86
0
0
0
AI大模型向量数据库数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
68
0
0
0
AI火山方舟向量数据库大模型
笔者在前期文章中总结了RAG的分块《 RAG常见13种分块策略大总结(一览表) 》,本文介绍一个 语义分段 的工作,该工作解决的问题是文本语义分割,即 将文档分割成多个具有连续语义的段落 。传统方法通常依赖于预处理文档以分段来解决输入长度限制问题,但这会导致段间关键语义信息的丢失。RAG系统中的文本分块方法主要分为基于规则和基于LLM的方法。插入一个思路,其实,语义分段的方式笔者在很早实践过一个思
130
0
0
0
AI向量数据库大模型云存储
来自fans投稿,提出动态参数化RAG,即插即用无缝和RAG结合,减少RAG幻觉的发生,来看看具体思路。检索增强生成(RAG)通过从外部源检索相关文档并将其合并到上下文中来增强大语言模型(LLMs)。虽然它通过提供事实文本提高了可靠性,但随着上下文长度的增长,显著增加了推理成本,并引入了具有挑战性的RAG幻觉问题,这主要是由于LLM中缺乏相应的参数知识造成的。参数化RAG (PRAG)通过离线训练
132
0
0
0
AI向量数据库大模型数据中台
十大PDF解析工具总结PDF解析对于包括文档分类、信息提取和检索在内的多种自然语言处理任务至关重要,尤其是RAG的背景下。尽管存在各种PDF解析工具,但它们在不同文档类型中的有效性仍缺乏充分研究,尤其是超出学术文档范畴。通过使用DocLayNet数据集, 比较10款流行的PDF解析工具在6种文档类别中的表现 ,以填补这一空白。这些工具包括PyPDF、pdfminer.six、PyMuPDF、pdf
127
0
0
0
AI向量数据库大模型数据中台
公式识别是文档智能解析中的重要一环,本文笔者将介绍笔者自己的工作,供参考。关于文档智能的全链路的技术路线,笔者在前期做了大量的技术解析,详细可以看专栏《 文档智能专栏(点击跳转) 》核心问题:当前的数学表达式识别(MER)模型难以处理复杂公式中的层次结构和细粒度细节。数学公式是逻辑的建筑蓝图——它们在求和符号中嵌套分数,在行文中堆叠矩阵,并分支为条件分段函数。然而,尽管数学公式具有复杂的结构,当前
84
0
0
0
大模型大模型向量数据库云存储
Qwen2.5B-VL-32B开源之际,记录一下Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节,仅供参考。系列模型的应用场景:Qwen-VL:基础图像理解和对话。Qwen2-VL:图像+短视频理解,代理任务。Qwen2.5-VL:长视频、复杂文档解析、多语言支持,适用于更广泛的现实场景。模型架构演进一览(其实差不多,模型侧有一些细节改动,系列更多还是数据上的增量训练):| 模
141
0
0
0
AI大模型向量数据库机器学习
本文详细介绍 DeepSeek 模型中的一些创新技术,包括对 Transformer 架构的改进(如 MLA、MOE)、Multi-Token Prediction 提高训练效率、算法、框架和硬件的协同设计、Group Relative Policy Optimization (GRPO) 强化学习算法,以及结合监督微调和强化学习的迭代训练方法。这些技术不仅提高了模型的性能,还显著降低了训练成本。
131
0
0
0
AI大模型向量数据库机器学习
刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型,就看到这个工作,本文一起看看,供参考。先提出问题,仅靠 RL 是否足以激励 MLLM 的推理能力?结论:不能, 因为如果 RL 能有效激励推理能力,Vision-R1-Zero 应该表现出生成复杂 CoT 的能力,并在基准测试中提升准确率 。如下图D和E所示:方法 :从未经专门推理优化的原始 MLLM(例如 Qwen-2.5VL-7B-I
88
0
0
0