SLM 哪家强?实测 Stable LM vs Tiny LLama vs Mini CPM vs Qwen 1.5

云通信智能应用办公安全

点击下方 卡片 ,关注“ 慢慢学AIGC ”

picture.image

小型语言模型之战

小型语言模型(SLM)已经成为人们关注的焦点。几乎每天都会发布不同的模型,旨在达到与大型语言模型(LLM)相当的结果。然而,在计算和内存成本方面,SLM 已经领先了一步。它们曾一度被认为只是 LLM 的小版本,但现在情况已经发生了变化。SLM 日益强大,其结果在某些方面与 LLM 相当。现在问题来了:哪个SLM是最好的?为了回答这个问题,我比较了这些小型语言模型(Stable LM、Tiny LLaMA、Mini CPM 和 QWEN 1.5)的性能。为了进行公平的比较,每个模型都被提交到一系列基准测试中,这些测试包括 情感智能评估、代码生成、文本摘要和叙事创作 。通过查看评估结果,我发现有一个模型在所有任务中表现最佳,而另一个则表现最差。剩下的两个模型的表现相当,并生成了类似的响应。

这篇博客是我和我的同事赛义德·哈桑共同完成的。

SLM 的优势

在跳到 SLM 的比较之前,有必要了解 SLM 相对于 LLM 的优势。虽然优势很多,但最重要的方面包括:

  • 较低的计算需求 :SLM 通常比 LLM 占用更少的资源,要求更少的内存和计算能力。这使得它们可以在资源有限的设备上使用,也适用于计算资源有限的环境。
  • 更快的训练时间 :由于训练过程中需要优化的参数较少,SLM 通常比 LLM 收敛更快,从而导致更快和更好的迭代。
  • 成本节约 :小模型的成本通常低于大模型的训练和使用成本。许可证费用可能会降低,或者小模型可以以极低的成本部署和维护。
  • 在终端设备上部署 :SLM 在资源受限的硬件设备上更为有效,需要优化计算以使界面对用户更具吸引力。智能手机、可穿戴设备和物联网设备就是这类设备的例子。

测试条件

在对小型语言模型(SLM)进行比较分析之前,满足了几个先决条件以确保一致性和公平性。具体条件包括:

  1. 所有模型以对话格式(聊天模型)实例化,能够与人类进行对话。
  2. 每个 SLM 的总参数数量不超过 20 亿(<2B),从而专注于真正紧凑的架构。
  3. 每个模型在每个任务中都提供相同的提示,没有任何先前的对话历史或上下文。此方法旨在尽量减少偏见,并确保每个 SLM 的响应仅取决于给定的输入。

遵循这些条件可能会导致 SLM 的无偏响应。由于没有任何东西是完美的,所以用“可能”这个词。

四小模型对比

现在,我们将比较这四个 LLM:

  • Stable LM-2 1.6 B
  • Tiny LLaMA chat 1.1B
  • QWEN-1.5 chat 1.8B
  • MiniCPM-2B

我们将根据不同的提示评估它们的响应,并为每个响应提供评分和理由。评估将基于情感智能、代码生成、文本摘要和叙事创作。

情感智能评估

我们将使用 3 个提示进行情感智能评估。这些提示是:


          
提示 1:检查以下电影评论摘录中表达的情感和情绪:“表演非常出色,但情节可预测且乏味。”确定该声明传达的整体印象是更偏向正面、负面还是中立。
          
提示 2:描述两个理解客户情感显著有助于改善业务结果的场景。为每种情况提出一个涉及情感检测技术的潜在解决方案。
          
提示3:根据下面描述的天气状况,预测说话者可能的情绪:“一片厚厚的云层覆盖了天空,将曾经充满活力的城市景观笼罩在一种阴郁的灰色之中。雨点有节奏地敲打窗户,形成一种单调的交响曲,回荡着居民们的忧郁心情。”
      

以下是一些截图:

picture.image

picture.image

  • Stable LM-2 1.6 B:在所有三个提示中,Stable LM 生成的响应评分为9/10。主要原因是它在响应中保持一致,适当地解析了提示,并且回答有深度。
  • Tiny LLaMA chat 1.1B:该模型生成的响应得分为 8/10。它提供了准确的答案,但过于简单,缺乏情感智能中重要的深度。
  • QWEN-1.5 chat 1.8B:其响应评分与 Stable LM-2相同,即 9/10。它提供了非常详细和精确的答案,并保持了平衡的观点。
  • MiniCPM-2B:对于第一个提示,该模型表现不佳(评分 7/10),但对于其余两个提示,结果相当,并获得了 9/10 的评分。第一个提示评分较低的原因是论据模糊,模型对其响应缺乏信心。

叙事创作/故事写作

我们根据一个提示进行了评估,并根据每个响应中包含的故事情节和细节对其进行评分。


        
            

          提示:在一个万籁俱寂的小镇上,普通市民一夜之间开始拥有非凡的能力——一位年长的妇女获得了心灵感应,一名学童获得了超级力量,而一个胆小的女孩突然变得隐形。随着每个人都在努力应对他们的新能力,紧张局势加剧,邻里之间的恐惧和偏见也在增加。写一个感人至深的故事,探索在这个神奇环境中的接受、变化和社区主题。
        
      

以下是一些响应的截图:

picture.image

picture.image

  • Stable LM-2 1.6 B:评分 9/10。节奏一致,情感与行动的平衡良好,对主题的探索扎实。
  • Tiny LLaMA chat 1.1B:评分 8/10。感人至深地描绘了接受、变化和社区的主题。虽然有些情节可预测,但仍然引人入胜,描述性和复杂性有待提高。
  • QWEN-1.5 chat 1.8B:评分 6/10。语气存在差异,情感成长与更好的社区问题之间没有联系。
  • MiniCPM-2B:评分 8/10。冲突解决、角色发展和主题整合良好,使作品引人入胜。使用细微和复杂性可以在揭示超能力之前创造悬念。

代码生成

对于代码生成,我们评估了模型在两个提示上的表现


          
提示1:使用 Go 或 Rust 编写一个轻量级微服务,使用 OpenCV 或任何其他计算机视觉库将传入的 JPG 图像调整为指定尺寸。优化解决方案以实现最低延迟和内存占用。
          
提示2:给定一个包含两个表的数据库架构:“Orders”(OrderID int PRIMARY KEY,CustomerName varchar(50))和“OrderDetails”(DetailID int PRIMARY KEY,OrderID int,ProductName varchar(50),Quantity int,UnitPrice decimal(18,2)),编写一个 SQL 查询以检索每个下订单客户的总收入。输出格式如下:CustomerName,TotalRevenue,其中 TotalRevenue 表示该客户订购的所有产品的价格乘以数量的总和。也显示零销售的客户。按客户姓名按字母顺序排序最终结果集。
      

以下是一些响应的截图:

picture.image

picture.image

  • Stable LM-2 1.6 B:评分 9/10。Stable LM 大部分生成了正确的代码,但在某些实例中为用户留出了填写主要逻辑的空间。
  • Tiny LLaMA chat 1.1B:评分 6.5/10。它在两个编码任务上都表现不佳,尤其是在 SQL 查询方面。
  • QWEN-1.5 chat 1.8B:评分 7/10。该模型在 SQL 查询上生成了最差的响应,但在 Go 微服务上表现相对较好。
  • MiniCPM-2B:评分 8.5/10。在两个提示上表现良好。对于 Go 微服务提示生成了稍好的响应。

文本摘要

在这个任务中,我从网上选择了一篇大约 4500 个 tokens 的随机文章《关于植入式脑芯片的伦理评估》,原文见:

https://www.bu.edu/wcp/Papers/Bioe/BioeMcGe.htm

以下是一些响应的截图:

picture.image

picture.image

  • Stable LM-2 1.6 B:评分 7/10。它触及了原文的几乎所有重要点,但遗漏了一些关于技术潜在社会影响的细微差别。
  • Tiny LLaMA chat 1.1B:评分 8/10。它涵盖了所有相关话题,并为原文中提出的一些问题添加了有价值的背景。
  • QWEN-1.5 chat 1.8B:评分 0/10。由于模型的固定上下文长度(2048),未生成文本。(模型支持 32K 上下文,应该是原文作者没有正确设置参数导致)
  • MiniCPM-2B:评分 9/10。该模型生成的响应最为强劲,全面地讨论了植入式脑芯片的伦理和社会影响,并提供了深刻的评论。

结论

在对 Stable LM-2、Tiny LLaMA、MINI CPM 和 QWEN 1.5 进行比较评估和性能测试后,发现 Stable LM-2 表现最佳。其在情感智能、代码生成、文本摘要和故事写作能力方面都展示了卓越的能力 。(然而笔者实测中文能力太差)

在另一端, Tiny LLaMA 在大多数任务中表现不佳,几乎在每个任务中都落后于竞争对手 。虽然有一些闪光点,但总体表现仍是最不理想的模型。(社区自发主导项目都有这个问题)

至于 MINI CPM 和 QWEN 1.5 ,研究表明它们 在大多数测试中的表现相当 。虽然它们未能超越 Stable LM-2,但 在某些领域表现出色 ,因此可以 根据用户的具体需求或资源的可用性选择使用这两款模型 。(笔者体感 Qwen 1.5 更胜一筹,已集成到本地聊天机器人,详见《Whisper + Qwen1.5 + ChatTTS 实现完全本地语音聊天机器人》)

要查看每个提示的完整响应和详细的评估结果,请访问分析报告(关注公众号,后台回复“SLM”获取完整报告)。

感谢阅读!

作者简介

picture.image

Zain ul Abideen,来自巴基斯坦的小哥,机器学习工程师,抱抱脸(HuggingFace)上已经发布 20+ LLM/SLM 模型。

推特/X:https://x.com/zaynismm

领英:https://www.linkedin.com/in/zaiinulabideen/

抱抱脸:https://huggingface.co/abideen


点击下方 卡片 ,关注“ 慢慢学AIGC ”

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
IDC 大模型应用落地白皮书
大模型技术已深度融入业务实践,各企业期望其释放更大商业价值。 但大模型落地之路面临许多挑战和顾虑。 如何精准对接业务需求与发展蓝图,制定切实可行的大模型落地策略? IDC发布首个大模型应用策略与行动指南 一为您揭晓一
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论