上6休3上3休2上5休1上2休7再上5休1...,国内 AI 集体大翻车,调休安排有多离谱

picture.image

点击上方蓝字关注我们

picture.image

picture.image

好消息!

假期就要来了!

近日

中秋放假需要调休的话题

冲上了热搜第一

picture.image

这一情况引发了网民的普遍困惑。许多人表示:

"计算过于繁琐,难以理解"

"能否有人直接说明实际增加的假期天数?"

"这解释的冗长程度,让人想起电商促销时那些令人眼花缭乱的优惠规则"。

既然大家都感到迷惑,不妨借助 AI 的力量。我们可以求助于在各个领域都有出色表现的AI大模型,到底能不能算明白这次“烧脑”的调休安排。

提示词统一为:我们即将迎来中秋节和国庆节,以下是从2024年9月9日(周一)到10月13日的放假调休安排:上6休3上3休2上5休1上2休7再上5休1。请你告诉我,扣除本就应该休息的周末(周六和周日),请你一步步思考,我因为放假多休息了几天?

正确答案为:4天。

国外大模型

picture.image

关于国外大模型我一直在使用的是 ChatGPT 和 Claude, 本次测试也只测试了 ChatGPT4 和 Claude 3.5 Sonnet 两款大模型。

虽然测试样本少,但是结果很完美,思路很清晰,过程流畅,100%正确率。

01

ChatGPT

ChatGPT思路很清晰,先计算出了总的工作日和休息日,然后在计算周末天数,最后进行相减,正确计算出了答案。

picture.image

02

Claude

Claude依旧是最稳定的选手,思路清晰,先算出实际休息天数,再减去正常周末天数即可。也得出了正常答案。

picture.image

国内大模型

picture.image

国内共测试了Kimi, 文心一言,通义千问,豆包,元宝5款比较火的大模型,结果不出意外,全军覆没~~~,除了通义千问,其他给我的感觉就是不会变通,俗称“犟种”!!!

01

Kimi

首先登场的是Kimi,看到打印出来这一长串的逻辑,已经能想到结果了,毫无意外的在国庆出错了,算出来了7天。

picture.image

02

文心一言

文心一言我使用的3.5,因为没钱开会员,哈哈。也不知道怎么算的,最后少了1天,结果还算比较接近的。

picture.image

03

通义千问

通义的思路和claude类似,但计算错了正常周末天数,可惜,就差一点。

picture.image

04

豆包

感觉乱计算一通,不做评价。

picture.image

05

元宝

元宝没有任何计算思路,直接输出了0,挺怪。

picture.image

从这次测评结果来看,尽管AI技术正迅速发展,但在处理复杂的实际问题时,国内大模型仍有很大的提升空间。

最后,借用一位网友令人茅塞顿开的分析, “假期虽复杂,但生活要简单!积极点,毕竟放假还是放假嘛!”

picture.image

点击下方公众号获取更多学习及项目资料:

大家好,我是呈予贝,专注于C/C++、Python、自动驾驶开发。探索AI在自动驾驶领域的新应用,并致力于分享有关AI和AIGC(人工智能生成内容)的相关知识。

0
0
0
0
评论
未登录
暂无评论