余俊晖
余俊晖
AI向量数据库大模型数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
11
0
0
0
AI大模型向量数据库云存储
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
23
0
0
0
AI大模型向量数据库机器学习
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
29
0
0
0
AI大模型向量数据库云通信
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
124
0
0
0
AI大模型向量数据库数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
708
2
1
2
AI向量数据库大模型数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
115
0
0
0
AI大模型向量数据库机器学习
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
84
0
0
0
AI大模型向量数据库云存储
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
100
0
0
0
AI向量数据库大模型NoSQL数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
126
0
0
0
大模型大模型向量数据库机器学习
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
105
0
0
0
大模型大模型向量数据库机器学习
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
123
0
0
0
AI大模型向量数据库机器学习
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
142
0
0
0
AI向量数据库大模型数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
325
0
0
0
开源大模型向量数据库云通信
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
150
0
0
0
大模型大模型向量数据库数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
145
0
0
0
AI向量数据库大模型数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
127
0
0
0
AI大模型向量数据库数据库
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:余俊晖,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
109
0
0
0
AI火山方舟向量数据库大模型
笔者在前期文章中总结了RAG的分块《 RAG常见13种分块策略大总结(一览表) 》,本文介绍一个 语义分段 的工作,该工作解决的问题是文本语义分割,即 将文档分割成多个具有连续语义的段落 。传统方法通常依赖于预处理文档以分段来解决输入长度限制问题,但这会导致段间关键语义信息的丢失。RAG系统中的文本分块方法主要分为基于规则和基于LLM的方法。插入一个思路,其实,语义分段的方式笔者在很早实践过一个思
185
0
0
0
AI向量数据库大模型云存储
来自fans投稿,提出动态参数化RAG,即插即用无缝和RAG结合,减少RAG幻觉的发生,来看看具体思路。检索增强生成(RAG)通过从外部源检索相关文档并将其合并到上下文中来增强大语言模型(LLMs)。虽然它通过提供事实文本提高了可靠性,但随着上下文长度的增长,显著增加了推理成本,并引入了具有挑战性的RAG幻觉问题,这主要是由于LLM中缺乏相应的参数知识造成的。参数化RAG (PRAG)通过离线训练
174
0
0
0
AI向量数据库大模型数据中台
十大PDF解析工具总结PDF解析对于包括文档分类、信息提取和检索在内的多种自然语言处理任务至关重要,尤其是RAG的背景下。尽管存在各种PDF解析工具,但它们在不同文档类型中的有效性仍缺乏充分研究,尤其是超出学术文档范畴。通过使用DocLayNet数据集, 比较10款流行的PDF解析工具在6种文档类别中的表现 ,以填补这一空白。这些工具包括PyPDF、pdfminer.six、PyMuPDF、pdf
173
0
0
0