上6休3上3休2上5休1上2休7再上5休1...，国内 AI 集体大翻车，调休安排有多离谱 - 文章 - 开发者社区

picture.image

点击上方蓝字关注我们

picture.image

好消息！

假期就要来了！

近日

中秋放假需要调休的话题

冲上了热搜第一

picture.image

这一情况引发了网民的普遍困惑。许多人表示：

"计算过于繁琐，难以理解"

"能否有人直接说明实际增加的假期天数？"

"这解释的冗长程度，让人想起电商促销时那些令人眼花缭乱的优惠规则"。

既然大家都感到迷惑，不妨借助 AI 的力量。我们可以求助于在各个领域都有出色表现的AI大模型，到底能不能算明白这次“烧脑”的调休安排。

提示词统一为：我们即将迎来中秋节和国庆节，以下是从2024年9月9日（周一）到10月13日的放假调休安排：上6休3上3休2上5休1上2休7再上5休1。请你告诉我，扣除本就应该休息的周末（周六和周日），请你一步步思考，我因为放假多休息了几天？

正确答案为：4天。

国外大模型

picture.image

关于国外大模型我一直在使用的是 ChatGPT 和 Claude, 本次测试也只测试了 ChatGPT4 和 Claude 3.5 Sonnet 两款大模型。

虽然测试样本少，但是结果很完美，思路很清晰，过程流畅，100%正确率。

ChatGPT

ChatGPT思路很清晰，先计算出了总的工作日和休息日，然后在计算周末天数，最后进行相减，正确计算出了答案。

picture.image

Claude

Claude依旧是最稳定的选手，思路清晰，先算出实际休息天数，再减去正常周末天数即可。也得出了正常答案。

picture.image

国内大模型

picture.image

国内共测试了Kimi, 文心一言，通义千问，豆包，元宝5款比较火的大模型，结果不出意外，全军覆没~~~，除了通义千问，其他给我的感觉就是不会变通，俗称“犟种”!!!

Kimi

首先登场的是Kimi，看到打印出来这一长串的逻辑，已经能想到结果了，毫无意外的在国庆出错了，算出来了7天。

picture.image

文心一言

文心一言我使用的3.5，因为没钱开会员，哈哈。也不知道怎么算的，最后少了1天，结果还算比较接近的。

picture.image

通义千问

通义的思路和claude类似，但计算错了正常周末天数，可惜，就差一点。

picture.image

豆包

感觉乱计算一通，不做评价。

picture.image

元宝

元宝没有任何计算思路，直接输出了0，挺怪。

picture.image

从这次测评结果来看，尽管AI技术正迅速发展，但在处理复杂的实际问题时，国内大模型仍有很大的提升空间。

最后，借用一位网友令人茅塞顿开的分析， “假期虽复杂，但生活要简单！积极点，毕竟放假还是放假嘛！”

picture.image

点击下方公众号获取更多学习及项目资料：

大家好，我是呈予贝，专注于C/C++、Python、自动驾驶开发。探索AI在自动驾驶领域的新应用，并致力于分享有关AI和AIGC（人工智能生成内容）的相关知识。