迟来的腾讯 HunYuan-T1 效果实测

大模型向量数据库机器学习

大家好,我是刘聪NLP。

上周一开始看腾讯混元发了个x,以为 HunYuan-T1要开源 。结果是新模型产品上新。

特点:首个超大Hybrid MamBa模型,推理速度快,效果(Benchmark上)不错。

本来是周五晚上23点的发布会,当时只顾着看 Qwen3的Moe代码 来着,没注意。给大家带来一份迟来的测试。

太长不爱看版本:

  • 快,确实很快,体感很舒服;
  • API价格是便宜的,输入28K,输出64K,但是我在网页版测试时,有些问题回答会截断;
  • 弱智吧问题回答的都很好,不知道是不是专门优化过;
  • R1满血测试题没回答对,大数计算同样也不行;
  • 代码生成SVG这一块,细碎,Claude还是SVG的神;
  • 文采一般,我个人不是十分满意。

下面开始测试用例:

  • 将“I love HunYun-T1”这句话的所有字母反过来写picture.image说明:回答的很不错
  • 依旧弱智吧
  • 生蚝煮熟了叫什么?picture.image说明:回答的我是太满意了
  • 用水来兑水,得到的是浓水还是稀水picture.image说明:回答的我是太满意了,PS还有其他很多弱智吧的例子,回答的都很好,就没贴了。
  • 依旧小红、依旧老鹰
  • 小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹picture.image说明:对了,别跟我battle了,小红就是女生,狗头!
  • 未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是picture.image说明:没对,老鹰依旧不会飞~
  • 依旧做题
  • 2024年高考全国甲卷数学(理)试题picture.image说明:对了

  • 一个长五点五米的竹竿,能否穿过一扇高四米,宽三米的门?请考虑立体几何picture.image说明:对了能穿过
  • R1满血测试题,在平面四边形ABCD中,AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。将\triangle ACD沿AC翻折至\triangle ACP,其中P为动点。 求二面角A - CP - B的余弦值的最小值。picture.image说明:没回答出来,测了五六遍,不知道是最大生成长度超了还是怎么样,反正没返回最终答案。
  • 大数计算:178939247893 * 299281748617等于多少?picture.image说明:没对,答案是53553251005627872913981
  • 依旧生物、伦理
  • 有一天,一个女孩参加数学考试只得了 38 分。她心里对父亲的惩罚充满恐惧,于是偷偷把分数改成了 88 分。她的父亲看到试卷后,怒发冲冠,狠狠地给了她一巴掌,怒吼道:“你这 8 怎么一半是绿的一半是红的,你以为我是傻子吗?”女孩被打后,委屈地哭了起来,什么也没说。过了一会儿,父亲突然崩溃了。请问这位父亲为什么过一会崩溃了?picture.image说明:对一半,回答出了红绿色盲,但是没回答出不是亲闺女!
  • 依旧SVG代码画图
  • 借鉴江树的case,用黑白手绘风格说明什么是机器学习的本质,用SVG+CSS实现,所有代码放到一个HTML中。picture.image说明:太差了,都没有QwQ-32B画的好,还画了几个也不太行。其他代码能力没测试,本人不擅长。
  • 创作
  • 仿照《过秦论》的风格写一篇《过美利坚论》picture.image说明:个人感觉写的不太行,内容有点混乱了
  • 用贴吧嘴臭老哥的风格点评大模型套壳现象picture.image说明:味道还行,但是为啥大模型套壳就一定是套OpenAI呀,现在是2025年了,哈哈哈,感觉是训练数据的问题,个人不是太满意。

写在最后

虽然T1没开源,不过腾讯最近也是开源了一些模型的,那个HunYun3D-2.0就满有意思的。

希望大模型越来越好吧~

还有最近在思考,如何让自己变得更有趣~大家有什么建议吗?

PS:看到这里,如果觉得不错,可以来个 点赞在看关注 。 给公众号添加【星标⭐️】不迷路!您的支持是我坚持的最大动力!

欢迎多多关注公众号「NLP工作站」, 加入交流群 ,交个朋友吧,一起学习,一起进步!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
VikingDB:大规模云原生向量数据库的前沿实践与应用
本次演讲将重点介绍 VikingDB 解决各类应用中极限性能、规模、精度问题上的探索实践,并通过落地的案例向听众介绍如何在多模态信息检索、RAG 与知识库等领域进行合理的技术选型和规划。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论