从3月份AI爆火至今,各个大厂都相继推出了自己的大模型,很多人都想体验最先进的chatGPT,但碍于实际情况,不得不选择国内的GPT,只是国内的大模型实在是太多了,一一对比也不太实际,所以这次就拿出六个大模型进行比拼:文心一言、通义千问、讯飞星火、智谱清言、混元助手、字节豆包,我们分别从对聊天对话、文生图、代码生成这三个方面作对比。
聊天对话
GPT聊天对话的幻觉方面,同样我们问:鲁迅和周树人分别是谁?以及林黛玉倒拔垂杨柳的相关问题,看看他们有什么区别:
文心一言
通义千问
讯飞星火
智谱清言
混元助手
字节豆包
小结:除了文心一言GPT3.5依旧存在数据幻觉,其他的大模型基本都没有出现过于离谱的回答,而智谱清言基于ChatGLM中英双语大模型开发,通过万亿字符的文本与代码预训练,其得到的结果相对丰富而详细,在自证内容方面提供了更加强有力的证据。
文生图
当下最好用的文生图工具莫过于stablediffusion以及midjourney,那我们的大模型肯定不能落伍,现在我们让GPT生成一幅雪山图,看看生成图片的内容丰富程度、关联程度和像素有什么差别?
文心一言
通义千问
讯飞星火
智谱清言
混元助手
字节豆包
内容丰富程度:文心一言生成的内容不止生成雪山,还生成了人物场景,不过图片的风格偏向动画;智谱清言和豆包都是举一反三,生成了多张图片,不过智谱清言的图片风格多样化,豆包的风格比较同意;混元助手在图片的内容色彩方面相对丰富,或许是腾讯多年来做动漫和游戏的缘故,训练的内容也相对充足而得到的结果吧;讯飞星火在这方面对比前几个来说,只能说比较一般吧。
关联程度:内容基本都能紧扣主题,这方面几个GPT都不相上下。
像素:百度和混元助手生成的图片像素属于常规大小【500500】,智谱清言和字节豆包的图片相对高清【800800】,唯独讯飞星火的图片不能点击查看大图。
注:通义千问是直接不支持文生图的,在此略过。
小结:文生图方面,智谱清言更胜一筹,因为智谱清言在文生图指令方面有更加清晰的模板和提示语,这是其他GPT没有的。不过如果想选择内容比较丰富、更具想象力的可以选择混元助手或者文心一言,平常生成图可选择豆包或者讯飞星火以及文心一言。
代码生成
作为开发人员,最最看重的就是GPT的代码生成能力,这是提升工作效率的关键,我们这次就挑一个最基础的,让GPT生成一段冒泡排序的代码
文心一言
通义千问
讯飞星火
智谱清言
混元助手
字节豆包
小结:文心一言在代码生成方面依旧一般,讯飞星火更是简洁扼要,或许这两个GPT一开始就没有编程解决方案的相关定位吧;通义千问、智谱清言、混元助手这三者回答内容几乎没有很大区别,不过后两者会针对性把代码中调用的函数名称标明,这是很好的用户体验;字节豆包在生成解决方案的同时还列举了几个相关联的问题,这是挺让我眼前一亮的。
总结
通过对比以上六个GPT,通义千问在所有的PK中劣势比较明显,只是在处理回答问题的幻觉方面强于文心一言GPT3.5(文心一言GPT4没有在此列中),在此,我对文心一言是比较失望的,因为当时是最开始上场的,最终却落后于其他,或许文心一言本来就是作为一个通用问题回答的工具,通用的数据量试超级庞大的,这么想来还是可以理解的。
而智谱清言在所有方面,几乎碾压其他GPT,算作众望所归,因为智谱清言一开始就做开源处理,可以说是开源者得天下吧。
不过值得一提的是讯飞星火和字节豆包,讯飞星火将丰富的插件摆在桌面,在用户使用方面更加友好。
最最最让我意外的是豆包,豆包是我最后才知道的GPT,我刚开始使用的时候,他给我的使用体验比较一般,经过这段时间的迭代能够走到这个水平让我很是意外。
而。
至于混元助手,除了图片内容的丰富程度稍微高于其他GPT,其他的表现平平,不过值得一提的是,腾讯不愧是走在互联网的大佬,在产品方面做得还是可以的,混元助手的界面很是扁平、简洁,个人看着感觉就是舒服、解压。
总体推荐:智谱清言>讯飞星火>豆包>混元助手>文心一言>通义千问
注:这里只是排列了个人的整体体验排名,每个GPT都有自己的强项和弱项,我觉得还是需要给国内GPT一些时间吧,毕竟就算chatGPT再厉害,那也不是咱们自己的,好东西要掌握在自己手中才心安。