最新开源推理模型 YiXin-Distill-Qwen-72B 开箱实测

picture.image

猴哥的第 161 期分享,欢迎追看

当大家都在热衷于接入 DeepSeek 时。。。

最近一家叫易鑫的金融科技公司,开源了 YiXin-Distill-Qwen-72B 推理模型。

我看了下,它以 Qwen2.5-72B 为基座,自研迭代式蒸馏和强化学习做训练,

整体感受是对数学、推理任务做了深度优化,一句话总结:小体积,高精度

看官方的评测结果,综合性能媲美 DeepSeek-R1,除了自用,简直是企业级AI落地的福音

  1. 强在哪

YiXin-Distill-Qwen-72B是一个侧重于数学和推理的大模型,参数规模仅72B就达到了开源王者 DeepSeek-R1 的能力。

数学和推理方面代表性的基准评测集有:AIME2024/2025、GPQA Diamond、MATH-500、MMLU-PRO。

不多说了,一图胜千言:

picture.image

接下来我们本地部署并实测一番。

  1. 本地部署

硬件要求:推荐8卡 RTX 3090/4090(24G),可处理8k上下文。显存越大,上下文越长。

部署流程:

1、环境配置:安装 Python 3.10、PyTorch 2.1.0 及 CUDA 12.1

2、下载模型:

  
export HF\_ENDPOINT=https://hf-mirror.com # 引入镜像地址  
huggingface-cli download --resume-download YiXin-AILab/YiXin-Distill-Qwen-72B --local-dir ./ckpts/qwen-72b  

3、安装sglang推理框架:

  
pip install uv   
uv pip install "sglang[all]>=0.4.4.post1" -i https://flashinfer.ai/whl/cu124/torch2.5/flashinfer-python  

4、模型加载,并启动服务:

  
python3 -m sglang.launch\_server --model YiXin-AILab/YiXin-Distill-Qwen-72B --trust-remote-code --tp 4 --port 8000  

5、测试请求:

  
curl http://localhost:8000/v1/chat/completions \  
    -H "Content-Type: application/json" \  
    -d '{  
    "model": "YiXin-AILab/YiXin-Distill-Qwen-72B",  
    "messages": [  
        {"role": "system", "content": "You are a helpful and harmless assistant.You should think step-by-step."},  
        {"role": "user", "content": "8+8=?"}  
    ]  
}  

6、为了方便测试和使用,可以用Gradio搭建前端,让交互更友好,首先安装Gradio:

  
pip install gradio  

7、创建一个python文件,命名为run.py,用来启动前端服务:

  
import gradio as gr  
import openai  
client = openai.Client(base\_url=f"http://127.0.0.1:8000/v1", api\_key="None")  
def predict(message, history):  
    history.append({"role": "user", "content": message})  
    stream = client.chat.completions.create(messages=history, model="YiXin-AILab/YiXin-Distill-Qwen-72B", stream=True)  
    chunks = []  
    for chunk in stream:  
        chunks.append(chunk.choices[0].delta.content or "")  
        yield "".join(chunks)  
chatbot = gr.Chatbot(type="messages",label='YiXin-Distill-Qwen-72B')  
demo = gr.ChatInterface(predict, chatbot=chatbot)  
if \_\_name\_\_ == "\_\_main\_\_":  
    demo.launch()  

8、启动服务

  
python run.py  

9、打开浏览器,输入 127.0.0.1:7860 即可看到前端页面:

picture.image

  1. 效果实测

3.1、逻辑推理题

• 只有在下雨天,我才会带伞。今天我带了伞。今天下雨了吗?

picture.image

• 一个农夫需要运两只鸡过河,一次可以运一人+两只动物,最少需要过几次河?

picture.image

这道农夫过河的题目曾让很多大模型打脸,YiXin 毫无压力。

• 有一个小偷费劲力气进入到了银行的金库里。在金库里他找到了一百个箱子,每一个箱子里都装满了金币。不过,只有一个箱子里装的是真的金币,剩下的 99 个箱子里都是假的。真假金币的外形和质感完全一样,任何人都无法通过肉眼分辨出来。它们只有一个区别:真金币每一个重量为 101 克,而假金币的重量是 100 克。在金库里有一个电子秤,它可以准确地测量出任何物品的重量,精确到克。但很不幸的是,这个电子秤和银行的报警系统相连接,只要被使用一次就会立刻失效。请问,小偷怎么做才能只使用一次电子秤就找到装着真金币的箱子呢?

picture.image

这道题非常考验数学和推理能力,就问问你花了多久?

3.2、物理题

• 假设我从月球发射一道激光到地球,那么地球上的人大概多久能接收到?

picture.image

• 以下物理常识题目,哪一个是错误的?

A.在自然环境下,声音在固体中传播速度最快。

B.牛顿第一定律:一个物体如果不受力作用,将保持静止或匀速直线运动的状态。

C.牛顿第三定律:对于每个作用力,都有一个相等而反向的反作用力。

D.声音在空气中的传播速度为1000m/s

picture.image

上点难度:清华大学的物理期末考试计算题 👇

picture.image

picture.image

反正我是不会,YiXin 成功搞定!

3.3、数学题

2024年考研数学 :已知函数f(x,y)=x^3+y^3-(x+y)^2+3,设T是曲面z=f(x,y)在点(1,1,1)处的切平面,D为T与坐标平面所围成的有界区域在xOy平面上的投影. 求T的方程:

picture.image

picture.image

考研真题,推理过程有点长,不过回答完全正确。

• 在三棱锥 P−ABC 中,若 PA⊥ 底面 ABC,且棱 AB, BP, BC, CP 的长分别为1, 2, 3, 4,则该三棱锥的体积为?

picture.image

picture.image

几何问题,依然干的漂亮!

总席位为奇数的三个不结盟的派别在会议中实行半数通过方案,任意一派席位不过半数。 尝试用数学证明:三派分别占有的席位和他们在表决中的权重是什么关系?

A. 正比

B. 反比

C. 无关

picture.image

picture.image

picture.image

这道题几乎国内外大模型都会翻车,但 YiXin 搞定了,尽管推理过程较长,有点出乎我意料。

3.4 语文题

• 你是一个小学数学科老师,要教小学生异分母分数加减的单元,提出跟这个单元的概念有关的同理性问题、推论性问题、评论性问题、价值性问题,各5个,请以小学生能懂得且有兴趣的语言来说。

picture.image

picture.image

• 仿《过秦论》的风格写一篇《过美利坚论》

picture.image

picture.image

思考不长,但精彩绝伦,连注释都贴心给你了。

不过,我发现代码能力还差点意思:

  
有以下数据:[{“table\_name”:“sy\_cd\_me\_buss\_std\_gjbzjh”,“param\_info”:[{“param\_name”:“#{issueDate}”,“value”:[2009,2010,2011,2012]},{“param\_name”:“#{projectStat}”,“value”:[“正在征求意见”,“已发布”,“正在审查”]}],“explanation”:“输出标准名称projectCnName、计划号、项目状态”}] ,请写sql查询年份为#{issueDate}年项目状态为#{projectStat}状态计划发布的国家标准有哪些?  

picture.image

picture.image

像模像样地错了,正确答案应该是:

  
SELECT DISTINCT planNum, projectCnName, projectStat   
FROM sy\_cd\_me\_buss\_std\_gjbzjh   
WHERE   
`planNum` IS NOT NULL   
AND `dataStatus` != 3   
AND `isValid` = 1   
AND projectStat=#{projectStat}   
AND DATE\_FORMAT(`issueDate`, '%Y')=#{issueDate}  

写在最后

本文带大家本地部署并实测了 YiXin 最新开源的推理模型 YiXin-Distill-Qwen-72B

体感非常棒,强烈推荐有需求的朋友去试下~

效果媲美主流大厂模型,推理方面甚有超越。

此外,72B 的尺寸很好平衡了通用能力和推理能力,作为垂直领域应用的基座模型,基于私有数据进行微调,香的很!

关于模型微调,可回看上篇文章:

我用 Unsloth 微调了一个DeepSeek专家

注:Yixin-Distill-Qwen-72B 的开源协议是非常 open 的 Apache 2.0👇

传送门:https://huggingface.co/YiXin-AILab/YiXin-Distill-Qwen-72B

全文完,如果对你有帮助,欢迎点赞收藏 备用。


为方便大家交流,新建了一个 AI 交流群,公众号后台「联系我」,拉你进群。

👇 关注猴哥,快速入门AI工具

picture.image

# AI 工具:

本地部署大模型?看这篇就够了,Ollama 部署和实战

盘点9家免费且靠谱的AI大模型 API,统一封装,任性调用!

免费GPU算力本地跑DeepSeek R1,无惧官方服务繁忙!

# AI应用** :**

弃坑 Coze,我把 Dify 接入了个人微信,AI小助理太强了

我把「FLUX」接入了「小爱」,微信直接出图,告别一切绘画软件!

202K 下载!最强开源OCR:本地部署,邀你围观体验

阿里开源TTS CosyVoice 再升级!语音克隆玩出新花样,支持流式输出

借 WeChatFerry 东风,我把微信机器人复活了!

成本不到50的AI对话机器人,如何自建服务端?自定义角色+语音克隆

0
0
0
0
评论
未登录
暂无评论