
百度的文心大模型,肯定算得上是中国AI大模型第一梯队的代表之一了。并且,国内第一梯队AI大模型厂商,目前应该屈指可数——包括了百度、字节跳动、科大讯飞、智谱AI,等等。说不好的话,科技大厂做通用大模型有着天然的优势(长期目标是通用人工智能AGI),在数据、资金、人才、场景、信誉等多方面占优,而初创公司若是不能像OpenAI那样实力超群、出类拔萃,尽可能快人一步、占得先机,那么最终很可能会被市场淘汰出局,从资本那里融来的钱也大概率会打水漂。
10月17日,百度发布了文心大模型4.0,号称“是迄今为止最强大的文心大模型,综合能力与GPT-4相比毫不逊色”。百度透露,文心大模型3.5自从8月31日向全社会开放以来,用户规模已经达到了4500万。再结合第三方提供的数据来估计,相比其他国产大模型,百度文心一言在国内的用户总数应该暂时处于领先地位。
11月1日,百度又一次抢跑国内其他AI大模型厂商,正式推出文心一言会员付费的服务模式。用户要想使用文心一言4.0,只能开通付费使用。用户可选的付费方案有三种:一是连续包月会员,每月费用49.9元;二是单月购买会员,每月费用59.9元;三是文心一言会员+文心一格白银会员,每月费用99元。
众所周知的是,OpenAI的GPT-4是当前全球技术最为领先、功能最为丰富、实用性最强的大模型,每月向用户只收取20美元的费用。如果按照人民币与美元的汇率换算,那么20美元约合146元人民币,文心一言4.0收费显然要比GPT-4便宜了不少。但是,如果按照美国货币购买力是中国的3倍来算,那么20美元相当于60元人民币,于是文心一言4.0收费并不比GPT-4便宜多少,甚至还要比GPT-4更贵——文心一言会员+文心一格白银会员,每月费用99元。
理论上,AI大模型的商业前景和市场潜力是非常诱人的!若是文心一言4.0现在就能全面匹敌甚至超越GPT-4,那么仅在中国就非常有希望赢得数千万甚至上亿人开通会员付费——全年为百度创造收入上百亿元人民币乃至更多,是完全可能的。就以百度自己公布的数据为例,当4500万用户都选择连续包月付费的方案使用文心一言4.0时,则一个年头下来百度将可以获得会员收入大概是270亿元人民币,在百度总营收中占比至少20%。再进一步,百度将文心一言4.0大力推向海外市场,同样能够获得许许多多的付费用户,同时伴随收入规模的扩大。因为,既然文心一言4.0都能媲美GPT-4了,那就意味着能给人们带来实实在在的帮助,人们自然觉得这样的付费是值得的。
接下来该讨论的问题是,百度文心一言4.0值得广大用户付费使用吗?对此,不妨将文心一言4.0和GPT-4放在一起对比。考虑到文章的篇幅不宜过长,就让文心一言4.0和GPT-4在图像生成、代码编写、文案创作和数理运算共四个方面进行比较。
首先是图像生成。对于很多行业的人来说,让AI大模型将文本生成图像,在现实中有着很大的需求。AI大模型仅是将文本生成图像的功能做到足够强大,就必定可以赢得很多很多用户的青睐和付费——前提是定价尽可能亲民。
让文心一言4.0和GPT-4分别生成图像,文本提示为:
1)一只名叫阿悟的小熊猫兴奋地站在一片花丛中,眼睛闪着光芒,耳朵竖立,注视着一群蜜蜂在花间飞舞。蜜蜂的细节被突出显示,一些正忙碌地采蜜,而一条蜜蜂飞行的轨迹引领着阿悟的视线朝向一个未知的方向。
2)一个夏天的早晨,一只可爱的大熊猫在厨房烹饪蛋糕。
文心一言4.0
GPT-4
对比的结果是:对于第一个文本提示,可能是因为“有点复杂”,文心一言4.0直接说自己无法生成图像;对于第二个相对简单的文本提示,文心一言4.0就能生成相应的图像,只是图像的质量和效果等很难令人满意。相比之下,无论是复杂的文本提示,还是简单的文本提示, GPT-4+DALL-E 3组合都生成了高度契合文本提示的图像,而且图像的质量和效果等都足够好。
尤为值得补充的是,GPT-4+DALL-E 3组合还解决了生成图像一致性问题,使得文本生成图像的实用价值提升到了新的层次。换句话说,用户可以选择某张由GPT-4生成的图像,通过询问GPT-4该图像的“种子”,基于该图像的“种子”继续生成带有相似元素的图像。比如,用户觉得某张图像中某个的人物形象很棒,那么就可以用这个人物形象创建新的图片。比如,这个人物形象可以爬山、可以钓鱼、可以滑雪、可以游泳,等等。其他不再举例,用户可以自行举一反三。
GPT-4
其次是代码生成。对于现实中很多人来说,要想跟得上这个时代前进的步伐,计算机编程似乎是一项必须掌握的技能,就像人应该学习语文、数学那样。不一定非要干程序员的工作,但初级的代码编写能力最好是自己要有。能否像专业的初级程序员,或者中级程序员那样根据文本提示编写可以运行的程序代码,是衡量AI大模型能力很重要的指标之一。
Python算是一门比较容易学会的编程语言。所以,这里就以Python编程为例,让文心一言4.0和GPT-4分别编写代码,以实现一个动画。当然这个编程题目是有定难度的,它涉及到了数学模拟等等。文本提示为:
1)编写一个Python程序,使用matplotlib库来创建一个简单的太阳系动画。太阳系模型应包括太阳和至少三个行星(例如地球、火星和木星)。每个行星应围绕太阳按照不同的轨道半径和速度旋转。
要求:
1, 用圆圈表示太阳和各个行星,大小按比例设定。
2, 每个行星的轨道应该是一个圆形,轨道半径根据实际太阳系的比例来设定。
3, 行星围绕太阳旋转的速度也应当根据实际的轨道周期比例来设定。
4, 动画应该是无限循环的,行星在轨道上的运动应该是平滑的。
5, (可选)为动画添加背景,例如星空或其他科幻风格的背景。
文心一言4.0
运行文星一言4.0所写代码后的结果
GPT-4
运行GPT-4所写代码的结果是个动画(截图1)
运行GPT-4所写代码的结果是动画(截图2)
对比的结果非常显著:文心一言4.0编写的代码存在问题(需要人为修改),通过运行它写的代码没能出现符合题目要求的动画。再来运行GPT-4编写的代码,便出现了一个简单的太阳系动画,包括一个太阳和三颗行星,三颗行星都围绕着太阳以不同的速度做圆周运动。事实上,即使让一个学会了Python语言的人来编写这样的代码,也未必能够成功写出足够简单、正确且可运行的代码。
再就是文案创作。目前国内外很多的AI大模型,都能够帮助用户辅助创作文案,只是能力有大小之分、水平有高低之分。用AI辅助创作各种各样的文案/文章,几乎是任何用户都会用到的功能,因为用户使用该功能所需要的知识学历门槛相对很低。
按理说,在文案创作方面,文心一言4.0跟GPT-4相比的差距应该不大才对。让文心一言4.0和GPT-4分别润色同一篇短文,文本提示为:
1)请给以下文章润色!
特斯拉作为全球首屈一指的纯电动汽车大厂,目前为止仍是依靠Model 3和Model Y这两大爆款车型推动生产量和交付量持续增长。而即将在全球发售的电动皮卡Cybertruck很有可能成为特斯拉又一爆款车型。该款电动皮卡在尚未正式交付之前,全球预售订单总量就已经高达惊人的两百万辆左右。
Cybertruck从2019年11月首次亮相以来,便一直是全球最受关注的车辆之一,原因不言而喻。这款赛博皮卡拥有与众不同的不锈钢角形外观,与其他任何车辆都不同。况且,按照特斯拉首席执行官埃隆马斯克所说,该款皮卡具有出众的性能。从互联网上流传的信息来看,预计进入2024年后,Cybertruck才会开始大规模生产。
日前,由一辆Cybertruck牵引着一台猛禽发动机的视频和图片,在社交媒体X平台上传播开来。无论视频还是图片,都能给人带来视觉上的震撼效果。
一方面,Cybertruck的车身长5.88米,宽2米,高1.9米,四电机版本的牵引力达6.8吨,百公里加速时间少于2.5秒,包括拖拽能力和加速性能等等,均大幅超越现行皮卡车。这款带有未来科幻主义风格的Cybertruck,不仅被誉为特斯拉最棒最酷的车型,更是以外骨骼造车理念重新定义汽车制造,推动造车行业突破工程难题。
另一方面,真空版猛禽发动机的长度4.6米、直径2.3米,推力369吨,燃烧室压力350巴,比冲363秒,不仅是全球首款实际量产和发射的全流量分级燃烧循环发动机,更是凭借结构简单、高效复用、造价便宜、超大推力等多重优势,为人类跨越星际时代打开了新的大门。
可以这么认为,此番特斯拉与SpaceX的联动,虽然没有花一分钱的广告费,但确实是一场巧妙的营销策略。正如2018年SpaceX猎鹰重型火箭载着特斯拉轿跑Roadster飞向火星那样,让竞争对手无法模仿和超越。
文心一言4.0
GPT-4
对比的结果是:文心一言4.0帮助润色后的文章,读起来给人的感觉比较生硬。然而,经过GPT-4润色后,该文章整体给人阅读后的效果确实更好了,几乎看不出是AI机器人写的——GPT-4在用词造句、谋篇布局等方面更有讲究、更有技巧。
最后是数理运算。可以预见的是,随着AI大模型持续迭代升级,包括科学家、工程师等在内的专业技术型用户会使用AI大模型帮推理和运算,涵盖经济学、金融学、统计学、数学、物理学、化学、生物学、地理学等极其广泛的知识领域。不可否认的是,尽管GPT-4在进行数理运算时会犯这样那样的错误,有时候它连思考和解决问题的水平还比不上一个聪明的小学生——距离通用人工智能AGI还有着很长的路;但它可以自行调用插件进行推理运算,例如像wolfram alpha这样的计算知识引擎。
因此,这里也就不去过分刁难文心一言4.0和GPT-4,文本提示为:
1)小明和小红是邻居,他们计划一起去附近的农场买新鲜水果。小明决定购买苹果和橙子,而小红只打算购买橙子。农场的苹果和橙子都是按公斤销售的,而且价格不同。
已知:小明购买了2公斤苹果和1公斤橙子,总共花费了70元。小红购买了2公斤橙子,总共花费了50元。
请问苹果和橙子每公斤的价格分别是多少?如果小明使用同样的总金额去购买橙子,他能买多少公斤?
2)计算并绘制函数 f(x)=sin(x)+cos(2x) 在区间 [0,2π] 的图像。
文心一言4.0
通过运行文心一言4.0所写代码得到的函数图像
GPT-4
对比的结果显示:GPT-4因为有可供自己使用的插件wolfram alpha作为辅助,它的优势显而易见。文心一言4.0有努力追赶的必要,通过引入更多的功能插件来扩展自身的能力边界。截至到今天,GPT-4的插件已经有上千款,包括增强网页搜索类插件、工具类插件、算法检索类插件、文件链接阅读类插件、商业金融与投资顾问类插件、生活饮食/住房/出行/购物类插件、音乐/娱乐类插件、小游戏类插件,等等。文心一言4.0拥有的插件就少了太多,只有8款插件可供用户选择使用。
小结:文章尽可能不往长篇幅的方向写,所以免不了以偏概全。之所以这样写,不是为了说国产大模型这不行那不行,而是希望国产大模型加紧追赶。因为作为普通用户之一,GPT-4依然是最好的选择。或者说,国产大模型厂商不能将眼光局限于中国市场以内,而应该向世界数一数二看齐。只有这样,才能赢得广大用户的认可,特别是那些知识学历高、专业技能强的高知/精英用户。





















