点击上方蓝字关注我们
好消息!
假期就要来了!
近日
中秋放假需要调休的话题
冲上了热搜第一
这一情况引发了网民的普遍困惑。许多人表示:
"计算过于繁琐,难以理解"
"能否有人直接说明实际增加的假期天数?"
"这解释的冗长程度,让人想起电商促销时那些令人眼花缭乱的优惠规则"。
既然大家都感到迷惑,不妨借助 AI 的力量。我们可以求助于在各个领域都有出色表现的AI大模型,到底能不能算明白这次“烧脑”的调休安排。
提示词统一为:我们即将迎来中秋节和国庆节,以下是从2024年9月9日(周一)到10月13日的放假调休安排:上6休3上3休2上5休1上2休7再上5休1。请你告诉我,扣除本就应该休息的周末(周六和周日),请你一步步思考,我因为放假多休息了几天?
正确答案为:4天。
国外大模型
关于国外大模型我一直在使用的是 ChatGPT 和 Claude, 本次测试也只测试了 ChatGPT4 和 Claude 3.5 Sonnet 两款大模型。
虽然测试样本少,但是结果很完美,思路很清晰,过程流畅,100%正确率。
01
ChatGPT
ChatGPT思路很清晰,先计算出了总的工作日和休息日,然后在计算周末天数,最后进行相减,正确计算出了答案。
02
Claude
Claude依旧是最稳定的选手,思路清晰,先算出实际休息天数,再减去正常周末天数即可。也得出了正常答案。
国内大模型
国内共测试了Kimi, 文心一言,通义千问,豆包,元宝5款比较火的大模型,结果不出意外,全军覆没~~~,除了通义千问,其他给我的感觉就是不会变通,俗称“犟种”!!!
01
Kimi
首先登场的是Kimi,看到打印出来这一长串的逻辑,已经能想到结果了,毫无意外的在国庆出错了,算出来了7天。
02
文心一言
文心一言我使用的3.5,因为没钱开会员,哈哈。也不知道怎么算的,最后少了1天,结果还算比较接近的。
03
通义千问
通义的思路和claude类似,但计算错了正常周末天数,可惜,就差一点。
04
豆包
感觉乱计算一通,不做评价。
05
元宝
元宝没有任何计算思路,直接输出了0,挺怪。
从这次测评结果来看,尽管AI技术正迅速发展,但在处理复杂的实际问题时,国内大模型仍有很大的提升空间。
最后,借用一位网友令人茅塞顿开的分析, “假期虽复杂,但生活要简单!积极点,毕竟放假还是放假嘛!”
点击下方公众号获取更多学习及项目资料:
大家好,我是呈予贝,专注于C/C++、Python、自动驾驶开发。探索AI在自动驾驶领域的新应用,并致力于分享有关AI和AIGC(人工智能生成内容)的相关知识。
