在之前的文章里,有人让大模型认钟表里的时间来测试大模型。
现在挑战进阶,一个名为AI World Clocks项目让9个大模型根据下面的提示词生成时钟,并且每分钟更新一次,以观察生成的稳定性。
创建显示${time}的模拟时钟HTML/CSS。可包含数字,需有CSS动画秒针。保持响应式设计并使用白色背景。仅返回HTML/CSS代码,不要markdown格式。
经过长期观察,国产模型表现突出,特别是Kimi K2是目前唯一能相对长期稳定保持表盘正确并且指针正确平滑转动的模型,而其他模型,即便是gemini 2.5和gpt-5都难以稳定保持。
生成一个看似简单的时钟,需要模型理解圆形布局、数字顺序、指针运动逻辑等多重概念。这个测试直观的显示不同AI模型在空间理解和时间概念上的能力差异。
Kimi K2的稳定表现说明它在这些基础认知任务上具有明显优势,让人欣喜。
值得注意的是,所有模型都被限制在2000个token内完成代码生成。这意味着模型需要在有限资源下做出准确判断,进一步考验了其代码生成效率和逻辑一致性。
网址:https://clocks.brianmoore.com/
关注公众号回复“进群”了解更多实时资讯。
