八大中文AI大模型超级评测:表现最佳不是文心一言?
科技
科技 > 人工智能 > 正文

八大中文AI大模型超级评测:表现最佳不是文心一言?

时间转瞬来到8月底,在接近半年的酝酿后,国内第一批通过审核的AI大模型正式上线,首批上线的AI大模型来自八家不同的公司:百度(文心一言)、抖音(云雀大模型)、智谱 AI(GLM 大模型)、中科院(紫东太初大模型)、百川智能(百川大模型)、商汤(日日新大模型)、MiniMax(ABAB 大模型)、上海人工智能实验室(书生通用大模型)。

八个AI大模型中有不少都是大家所熟悉的“老面孔”,也有一些对普通人而言颇为陌生的名字。在通义千问、讯飞星火和文心一言等AI御三家中,文心一言倒是速度最快的,不过据小雷了解,通义和星火也已经通过审核,估计近期就会上线。

在第一批上线的AI大模型中,有不少都是面向企业市场的产品,同时也不缺乏面向普通用户的产品,比如大家最熟悉的文心一言,除了全面开放网页端入口外,还同步上线了手机APP,可以在安卓和iOS上使用。

此外,抖音、百川、商汤、智谱等AI大模型都提供了网页和APP的双端使用方法,从内测到公测,国内的AI大模型前进速度超出了不少人的预料,对于普通用户而言,面对如此多的AI大模型,估计也是挑花了眼。

图片

图源:智谱清言

目前的AI大模型,从功能上来说都颇为相似,只不过基于模型优化程度和训练参数大小,AI大模型之间的体验差距并不小。如文心一言等国内科技领域巨头的AI大模型,其表现已经接近国际主流水平,在对中文语言的理解和处理上甚至优于ChatGPT等海外的AI大模型。

时隔半年,文心一言正式上线,不禁让我好奇它与初期版本到底有多大区别?

01 真正的AI助手离你不远

在所有的AI中,小雷最熟悉的莫过于文心一言,作为小雷测试的首个AI大模型,即使是初期版本都给我留下了不错的印象,当然,印象最深刻的还是那个奇怪BUG。

图片

图源:雷科技 注:文心一言初期意外触发的BUG

不过,这个BUG很快就被百度修复,在两周后我再测试同一个问题时,文心一言就已经可以给出正确的回答,只是字数往往无法达到要求。现如今在经过数个月的迭代后,能力更是明显提升,再问它一样的问题,已经能够洋洋洒洒给出一大篇文字回复。

图片

图源:雷科技

虽然没有细数,但是从篇幅来看,500字肯定是有的。

文心一言作为国内最早上线以文绘图的AI大模型之一,早期的表现虽然算不上差,但是在理解能力上还是有些许欠缺,比如我当时要求它以毕加索的风格画一幅优化,生成的画作风格却与毕加索风格大相径庭。

图片

图源:雷科技

那么在6个月后的今天,文心一言的表现又会如何呢?

图片

图源:雷科技

确实是“毕加索”风格,如果可以更抽象一些,那就更像了。

此外还有一个提问是我当时耿耿于怀的。

图片

图源:雷科技

当时的文心一言给了我一幅与提问毫无关系的图画,那么现在的文心一言又能否正确理解我的要求呢?

图片

图源:雷科技

这次,文心一言给出了让我满意的图画。

经过几个月的锻炼,文心一言的各项能力都有着非常明显的提升,在右上角的指令中心里,更是标出了文心一言目前能够提供的服务,从基础的问答写作,到编程辅助、数据分析,多样化的功能已经能够满足大多数人的日常工作、学习等需求。

图片

当然,更让人惊喜的是文心一言的APP也同步上架,不需要电脑即可直接体验到文心一言的各种功能。

图片

图源:文心一言

既然有这么多的AI大模型同日开放,那么不免让人好奇到底哪个更好用一些,所以,小雷对他们进行了一些简单的测试。

首先以一个简单的问题作为开头:我想去北京旅游,帮忙规划一个三天的旅游路线。

图片

注:文心一言

图片

注:抖音豆包

图片

注:智谱清言

图片

注:商量

图片

注:百川大模型

总体而言,各个大模型面对这种简单的问题,基本上都能给出正确的答案,只是详细程度有所不同。而且,基本上都会为你规划出各个活动的时间段,方便你安排时间。

接下来给他们上点难度。

提问:一斤棉花和一斤铁,哪个更重。

一个非常常见的脑筋急转弯,以目前的AI水平而言,分析并给出正确答案应该不难,但是测试结果倒是让我颇为意外,首先说结论,五个AI中有四个都给出了正确的回答,只有一个认为铁更重,但是却给出了一个让人惊讶的解释。

首先是常规组:文心一言、豆包、智谱清言都给出了正确且常见的回答。

图片

注:豆包

图片

注:文心一言

图片

注:智谱清言

接下来是两个不正常画风的AI,商量(SecseChat)和百川大模型,他们也给出了正确的结论,但是却做了不少的延伸解读。

比如商量在给出结论后,居然开始从“重”的词义和人的直观观感方面进行解读,最后甚至来了一句“哲学”话语:“总的来说,一斤棉花和一斤铁哪一个更重,取决于你如何定义“重”。”

图片

注:商量

恁是让我思考了一段时间,觉得你这个AI说得好像还怪有道理的诶。

咳咳,不得不说,在看到几个相似的回答后,商量的回答确实让我眼前一亮,虽然有些强词夺理,但是却也更具“人性化”一些。

然后是百川大模型,这个AI尝试从物理学的角度来严谨的分析,到底是一斤铁还是一斤棉花更重,从物质密度到地球引力,AI尝试证明在现实环境中,一斤铁是比一斤棉花要重的。

图片

注:百川

从物理学的角度来说,百川的回答其实并没有错的,如果将引力、空气浮力等因素考虑进去,因为棉花的疏松多孔结构,一斤棉花在实际称量时如果不进行压缩并抽真空,它的称重结果会低于真实重量,再将引力因素考虑其中,受密度影响,确实会出现微小的重量差异。

说实话,百川和商量的回答都让我感到意外,同时也让我对AI大模型的未来发展有了更多的信心,随着各个公司的AI大模型研发推进,我们会看到面向不同领域、具有不同风格、拥有不同特长的AI出现在市场上,他们并不是千篇一律的产品,而是会随着训练数据和算法逻辑,产生不同结果的产品,或许,这才是人工智能真正的未来。

02 AI大模型,移动是未来

在众多关于AI大模型的使用场景设计中,移动场景都是最吸引人的,当然不是指一边通勤一边工作这样的“社畜”场景,而是当你来到一个陌生的地方,你可以通过AI迅速了解周围的情况,比如评价最高的酒店、最好的饭店等,还有诸如叫车、订票等各种生活服务,AI大模型都可以更轻松的了解你的要求并执行。

前段时间,小雷就受邀参加了钉钉的AI发布会,会上演示的钉钉APP已经接入了AI大模型,可以对接阿里旗下的各个软件生态, 比如饿了么。通过AI助手功能,只需要简单几句话就可以完成外卖的点单、付款等操作,AI会自动为你寻找符合要求的店铺和餐点,整个流程除了付款阶段,几乎都不需要用户接触手机,如果是iPhone的话,更是能够直接通过Face ID付款,做到真正的无接触点单。

在我看来,与手机等移动智能终端高度整合的AI大模型,所能够带来的体验与PC上是截然不同的,如果说PC的AI大模型侧重于工作等生产力,那么移动智能终端上则是侧重于生活,能够给用户带来更具冲击的功能。

图片

图源:文心一言

想象一下,无需复杂的设置,你的手机AI助手就可以根据你的喜好、位置,为你推荐合适的餐厅;当你想寻找最近的洗手间时,它可以连接在线地图,为你提供最近的洗手间定位;当你快回到家时,它可以根据你预先输入的喜好,自动为你设定空调温度、灯光亮度、色温、窗帘开关、音乐、水温等,通过简单的对话,你就可以遥控周围的一切智能家居设备,就像有个看不见的管家在帮你操劳一切。

懒,是科技的推动力之一。试问谁不想让自己的生活变得更轻松、更简单一些呢?在过去,很多事情我们都需要自己亲力亲为,不管那些事情是多么的枯燥、乏味,重复,现在,有了AI大模型的帮助,许多重复性的文字工作都可以交给AI完成,你需要做的只是输入指令,然后等待结果。

或许对于普通人而言,AI大模型的出现暂时还没有对生活造成太大的影响,但是对我而言,AI大模型已经对我的生活、工作产生了不少的正面效应,比如更有效率的收集资料,更轻松的总结概括一段资料。

实际上,AI大模型对我们的影响已经逐渐显现,比如短视频平台的推荐算法,比如OPPO、vivo、小米等主流手机品牌纷纷上线的AI建议,背后都已经开始使用AI大模型来分析用户的日常行为,并且给出更符合用户要求的结果。

从工作到生活,AI大模型正在改变一切,适应AI、驾驭AI,将让我们在未来的生活变得更加轻松。

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载