大家好,我是刘聪NLP。
Qwen在那边跟开源通用大模型磕上了,然后夸克在这边又跟垂域应用大模型磕上了,该说不说,阿里现在有点东西。
说回夸克,前段时间的夸克志愿大模型,想必大家都或多或少的听过,我当时还写了一篇文章,讨论了现在垂域模型是否还有前途,也介绍了当时夸克志愿大模型的做法, 见 Link。
不知道你们用没用上,反正我是真用上了,我当时报考完,还跟夸克的人说,真是帮了我的大忙~
说实话,挺感谢夸克志愿大模型这波在教育上信息平权的,不要钱免费用。(虽然小弟家依然花钱找了人报考,但真没我借助夸克找的全,找的好~)
这次夸克又更新了健康大模型,我必须得来看看是怎么回事儿。
为啥说又更新了,核心是他们在5月份的时候,其实宣传了一波,当时是通过副主任医师考试,然后时隔两个月,它又训练升级了,这次成功通过主任医师笔试考试,也是国内首个。
还是那句话,如果能真正使用的话,那么对于很多人来说还是很有用的。
PS:当然我一直坚信AI不是取代人,而是辅助人,尤其是在健康医疗这种高度专业且强依赖经验判断的领域。
进入正题,
先看夸克健康大模型在医疗场景下跟DeepSeek和o3-mini的效果图,你会直观的发现在初级考试中与DeepSeek-R1通用模型之间只有1.9%的差距,但在主任医师级别,相差近30%。
就是垂域模型相较于通用大模型,在越是刁钻,越是复杂的任务上,差距就越大。因为大部分简单或常见的任务,会被通用数据会慢慢覆盖,这也是为啥总说通用大模型会吃掉垂域大模型的原因。
如果垂域模型做的不够深入,不够垂,在现在超大模型面前真不够看,这也是现在垂域模型越来越少的原因。
而垂域大模型的核心点就是数据积累、以及在领域任务上的深造,
想要做的垂,你的数据就要足够多,有壁垒,
想要做的深,你的任务就要够清晰,有足够的业务属性,说白了就是专业。
在数据上夸克健康大模型做了什么呢?
大模型回答本身就具有不确定性,那么想要回答有依据,回答的准确,知识库是必不可少的。无论你是作为参考资料提供依据,还是对回答结果二次check,都要有一个大而全的知识库。
而夸克的知识库涵盖了6万册教材指南、5000余万中英文文献、20余万药品说明书,构建了一个覆盖度很高、且兼具时效性的专业知识库。
还有一个数据大头,是模型的训练,如何得到高质量的训练数据,是模型训练的前置条件,所以经常说garbage in, garbage out。
夸克为了得到高质量数据,自建数据产线,蒸馏+人工校对
- 大量医学结构化数据,并细致到了2k+急病的诊断样本。
- 专业医生人工标注:由三级医院主治医师以上编辑,然后400多位三甲医院的副主任医师级别以上审核校对
- 复杂任务数据:就是问题-思考过程-答案的推理数据(慢思考数据),核心是提高模型学习复杂决策与因果逻辑推理。
源数据来自书籍、病例、文学、说明书、医生检查过的高质量问题、医学论坛提问、夸克浏览器搜索日志等等等。
就这资源,想想都害怕。不过话说回来,谁又有那么多资源,谁又舍得花这么精力深耕数据呢?
训练就是,以Qwen基模为基础,多阶段多奖励强化学习,其中可验证问题用标准答案评估奖励值、不可验证问题(医疗建议、健康科普)用训练的奖励模型评估奖励值,这里就不过多说了,就是强化学习那一套。
我这里想重点说的是夸克健康大模型训练之后的几个显著特点,也是我使用过程中,感受很直观的几点,
夸克健康大模型的共情能力很强,在现代社会,人文关怀很重要,尤其在医疗这个领域,技术再先进,也需要有温度地落地。
在询问夸克健康大模型时候,并不是直接给出过度诊断,而是先给予用户共情与指导,先告诉你,不用紧张,在逐步回答你结果,可以极度缓解用户焦虑。
毕竟本身我们问一些医疗相关问题,都是心情比较急迫的嘛!
还有就是解题思路模拟医生问诊思路,一般正常通用大模型,是看完题干之后,逐个分析各个选项,然后给出答案;而夸克的思路是先进行病史分析、再进行初步诊断,然后鉴别诊断,再结合选项分析,最后给出答案。 如下:
题干:男,16岁,参加校运会进行800m赛跑,跑步停止5分钟后,即出现呼气性呼吸困难。查体:双肺哮鸣音,心率100次/分,律齐,无杂音;血压正常。下列哪种诊断正确 ( )
A 外源性哮喘
B 急性左心衰
C 过敏性肺炎
D 运动性哮喘
E 神经精神性哮喘
还有就是当模型觉得信息不足时,也会根据提问让用户进行信息补充,就像医生问诊阶段,为了了解更多信息,会询问其他信息一样,再根据提供的额外信息进一步针对性回复。
因为昨天熬夜写Qwen Coder的实测贴,然后忽然胸痛了一下(大家还是要注意身体,别太肝!),问了一下夸克啥情况。
先因为信息可能不足,让我补充了精准信息,然后又进行了二次回复,当然详细的参考资料,最后关键建议,与君共勉~
还有个有意思的事情,就是夸克其实做了用户分享,发现有大量的医学在校生(核心愿意夸克支持拍照解题,很多医学生用来直接解医学考试题),还有一些临床医生。
PS:如果使用记得更新到最新版本,并且选择深度研究进行提问!要不然可能不是最新模型~
整体体验下了,夸克健康大模型给我最大的感受,是细和暖,
细在任务设计,暖在人机交互。
想做好垂类模型很难,好的垂类模型也很珍贵,且行且珍惜!
最后附上现场的一张图,“痔疮不能喝啤酒吗”?我愣了好久,哈哈哈哈!
PS:都看到这里,来个点赞 、在看 、关注 吧。 您的支持是我坚持的最大动力!
欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!