大风号

给百度文心一言4.0充钱后，我发现离超越GPT-4还有点距离

2023-11-14 19:59 来自北京

百度的文心大模型，肯定算得上是中国AI大模型第一梯队的代表之一了。并且，国内第一梯队AI大模型厂商，目前应该屈指可数——包括了百度、字节跳动、科大讯飞、智谱AI，等等。说不好的话，科技大厂做通用大模型有着天然的优势（长期目标是通用人工智能AGI），在数据、资金、人才、场景、信誉等多方面占优，而初创公司若是不能像OpenAI那样实力超群、出类拔萃，尽可能快人一步、占得先机，那么最终很可能会被市场淘汰出局，从资本那里融来的钱也大概率会打水漂。

10月17日，百度发布了文心大模型4.0，号称“是迄今为止最强大的文心大模型，综合能力与GPT-4相比毫不逊色”。百度透露，文心大模型3.5自从8月31日向全社会开放以来，用户规模已经达到了4500万。再结合第三方提供的数据来估计，相比其他国产大模型，百度文心一言在国内的用户总数应该暂时处于领先地位。

11月1日，百度又一次抢跑国内其他AI大模型厂商，正式推出文心一言会员付费的服务模式。用户要想使用文心一言4.0，只能开通付费使用。用户可选的付费方案有三种：一是连续包月会员，每月费用49.9元；二是单月购买会员，每月费用59.9元；三是文心一言会员+文心一格白银会员，每月费用99元。

众所周知的是，OpenAI的GPT-4是当前全球技术最为领先、功能最为丰富、实用性最强的大模型，每月向用户只收取20美元的费用。如果按照人民币与美元的汇率换算，那么20美元约合146元人民币，文心一言4.0收费显然要比GPT-4便宜了不少。但是，如果按照美国货币购买力是中国的3倍来算，那么20美元相当于60元人民币，于是文心一言4.0收费并不比GPT-4便宜多少，甚至还要比GPT-4更贵——文心一言会员+文心一格白银会员，每月费用99元。

理论上，AI大模型的商业前景和市场潜力是非常诱人的！若是文心一言4.0现在就能全面匹敌甚至超越GPT-4，那么仅在中国就非常有希望赢得数千万甚至上亿人开通会员付费——全年为百度创造收入上百亿元人民币乃至更多，是完全可能的。就以百度自己公布的数据为例，当4500万用户都选择连续包月付费的方案使用文心一言4.0时，则一个年头下来百度将可以获得会员收入大概是270亿元人民币，在百度总营收中占比至少20%。再进一步，百度将文心一言4.0大力推向海外市场，同样能够获得许许多多的付费用户，同时伴随收入规模的扩大。因为，既然文心一言4.0都能媲美GPT-4了，那就意味着能给人们带来实实在在的帮助，人们自然觉得这样的付费是值得的。

接下来该讨论的问题是，百度文心一言4.0值得广大用户付费使用吗？对此，不妨将文心一言4.0和GPT-4放在一起对比。考虑到文章的篇幅不宜过长，就让文心一言4.0和GPT-4在图像生成、代码编写、文案创作和数理运算共四个方面进行比较。

首先是图像生成。对于很多行业的人来说，让AI大模型将文本生成图像，在现实中有着很大的需求。AI大模型仅是将文本生成图像的功能做到足够强大，就必定可以赢得很多很多用户的青睐和付费——前提是定价尽可能亲民。

让文心一言4.0和GPT-4分别生成图像，文本提示为：

1）一只名叫阿悟的小熊猫兴奋地站在一片花丛中，眼睛闪着光芒，耳朵竖立，注视着一群蜜蜂在花间飞舞。蜜蜂的细节被突出显示，一些正忙碌地采蜜，而一条蜜蜂飞行的轨迹引领着阿悟的视线朝向一个未知的方向。

2）一个夏天的早晨，一只可爱的大熊猫在厨房烹饪蛋糕。

文心一言4.0

GPT-4

对比的结果是：对于第一个文本提示，可能是因为“有点复杂”，文心一言4.0直接说自己无法生成图像；对于第二个相对简单的文本提示，文心一言4.0就能生成相应的图像，只是图像的质量和效果等很难令人满意。相比之下，无论是复杂的文本提示，还是简单的文本提示， GPT-4+DALL-E 3组合都生成了高度契合文本提示的图像，而且图像的质量和效果等都足够好。

尤为值得补充的是，GPT-4+DALL-E 3组合还解决了生成图像一致性问题，使得文本生成图像的实用价值提升到了新的层次。换句话说，用户可以选择某张由GPT-4生成的图像，通过询问GPT-4该图像的“种子”，基于该图像的“种子”继续生成带有相似元素的图像。比如，用户觉得某张图像中某个的人物形象很棒，那么就可以用这个人物形象创建新的图片。比如，这个人物形象可以爬山、可以钓鱼、可以滑雪、可以游泳，等等。其他不再举例，用户可以自行举一反三。

GPT-4

其次是代码生成。对于现实中很多人来说，要想跟得上这个时代前进的步伐，计算机编程似乎是一项必须掌握的技能，就像人应该学习语文、数学那样。不一定非要干程序员的工作，但初级的代码编写能力最好是自己要有。能否像专业的初级程序员，或者中级程序员那样根据文本提示编写可以运行的程序代码，是衡量AI大模型能力很重要的指标之一。

Python算是一门比较容易学会的编程语言。所以，这里就以Python编程为例，让文心一言4.0和GPT-4分别编写代码，以实现一个动画。当然这个编程题目是有定难度的，它涉及到了数学模拟等等。文本提示为：

1）编写一个Python程序，使用matplotlib库来创建一个简单的太阳系动画。太阳系模型应包括太阳和至少三个行星（例如地球、火星和木星）。每个行星应围绕太阳按照不同的轨道半径和速度旋转。

要求：

1，用圆圈表示太阳和各个行星，大小按比例设定。

2，每个行星的轨道应该是一个圆形，轨道半径根据实际太阳系的比例来设定。

3，行星围绕太阳旋转的速度也应当根据实际的轨道周期比例来设定。

4，动画应该是无限循环的，行星在轨道上的运动应该是平滑的。

5，（可选）为动画添加背景，例如星空或其他科幻风格的背景。

文心一言4.0

运行文星一言4.0所写代码后的结果

GPT-4

运行GPT-4所写代码的结果是个动画（截图1）

运行GPT-4所写代码的结果是动画（截图2）

对比的结果非常显著：文心一言4.0编写的代码存在问题（需要人为修改），通过运行它写的代码没能出现符合题目要求的动画。再来运行GPT-4编写的代码，便出现了一个简单的太阳系动画，包括一个太阳和三颗行星，三颗行星都围绕着太阳以不同的速度做圆周运动。事实上，即使让一个学会了Python语言的人来编写这样的代码，也未必能够成功写出足够简单、正确且可运行的代码。

再就是文案创作。目前国内外很多的AI大模型，都能够帮助用户辅助创作文案，只是能力有大小之分、水平有高低之分。用AI辅助创作各种各样的文案/文章，几乎是任何用户都会用到的功能，因为用户使用该功能所需要的知识学历门槛相对很低。

按理说，在文案创作方面，文心一言4.0跟GPT-4相比的差距应该不大才对。让文心一言4.0和GPT-4分别润色同一篇短文，文本提示为：

1）请给以下文章润色！

特斯拉作为全球首屈一指的纯电动汽车大厂，目前为止仍是依靠Model 3和Model Y这两大爆款车型推动生产量和交付量持续增长。而即将在全球发售的电动皮卡Cybertruck很有可能成为特斯拉又一爆款车型。该款电动皮卡在尚未正式交付之前，全球预售订单总量就已经高达惊人的两百万辆左右。

Cybertruck从2019年11月首次亮相以来，便一直是全球最受关注的车辆之一，原因不言而喻。这款赛博皮卡拥有与众不同的不锈钢角形外观，与其他任何车辆都不同。况且，按照特斯拉首席执行官埃隆马斯克所说，该款皮卡具有出众的性能。从互联网上流传的信息来看，预计进入2024年后，Cybertruck才会开始大规模生产。

日前，由一辆Cybertruck牵引着一台猛禽发动机的视频和图片，在社交媒体X平台上传播开来。无论视频还是图片，都能给人带来视觉上的震撼效果。

一方面，Cybertruck的车身长5.88米，宽2米，高1.9米，四电机版本的牵引力达6.8吨，百公里加速时间少于2.5秒，包括拖拽能力和加速性能等等，均大幅超越现行皮卡车。这款带有未来科幻主义风格的Cybertruck，不仅被誉为特斯拉最棒最酷的车型，更是以外骨骼造车理念重新定义汽车制造，推动造车行业突破工程难题。

另一方面，真空版猛禽发动机的长度4.6米、直径2.3米，推力369吨，燃烧室压力350巴，比冲363秒，不仅是全球首款实际量产和发射的全流量分级燃烧循环发动机，更是凭借结构简单、高效复用、造价便宜、超大推力等多重优势，为人类跨越星际时代打开了新的大门。

可以这么认为，此番特斯拉与SpaceX的联动，虽然没有花一分钱的广告费，但确实是一场巧妙的营销策略。正如2018年SpaceX猎鹰重型火箭载着特斯拉轿跑Roadster飞向火星那样，让竞争对手无法模仿和超越。

文心一言4.0

GPT-4

对比的结果是：文心一言4.0帮助润色后的文章，读起来给人的感觉比较生硬。然而，经过GPT-4润色后，该文章整体给人阅读后的效果确实更好了，几乎看不出是AI机器人写的——GPT-4在用词造句、谋篇布局等方面更有讲究、更有技巧。

最后是数理运算。可以预见的是，随着AI大模型持续迭代升级，包括科学家、工程师等在内的专业技术型用户会使用AI大模型帮推理和运算，涵盖经济学、金融学、统计学、数学、物理学、化学、生物学、地理学等极其广泛的知识领域。不可否认的是，尽管GPT-4在进行数理运算时会犯这样那样的错误，有时候它连思考和解决问题的水平还比不上一个聪明的小学生——距离通用人工智能AGI还有着很长的路；但它可以自行调用插件进行推理运算，例如像wolfram alpha这样的计算知识引擎。

因此，这里也就不去过分刁难文心一言4.0和GPT-4，文本提示为：

1）小明和小红是邻居，他们计划一起去附近的农场买新鲜水果。小明决定购买苹果和橙子，而小红只打算购买橙子。农场的苹果和橙子都是按公斤销售的，而且价格不同。

已知：小明购买了2公斤苹果和1公斤橙子，总共花费了70元。小红购买了2公斤橙子，总共花费了50元。

请问苹果和橙子每公斤的价格分别是多少？如果小明使用同样的总金额去购买橙子，他能买多少公斤？

2）计算并绘制函数 f(x)=sin(x)+cos(2x) 在区间 [0,2π] 的图像。

文心一言4.0

通过运行文心一言4.0所写代码得到的函数图像

GPT-4

对比的结果显示：GPT-4因为有可供自己使用的插件wolfram alpha作为辅助，它的优势显而易见。文心一言4.0有努力追赶的必要，通过引入更多的功能插件来扩展自身的能力边界。截至到今天，GPT-4的插件已经有上千款，包括增强网页搜索类插件、工具类插件、算法检索类插件、文件链接阅读类插件、商业金融与投资顾问类插件、生活饮食/住房/出行/购物类插件、音乐/娱乐类插件、小游戏类插件，等等。文心一言4.0拥有的插件就少了太多，只有8款插件可供用户选择使用。

小结：文章尽可能不往长篇幅的方向写，所以免不了以偏概全。之所以这样写，不是为了说国产大模型这不行那不行，而是希望国产大模型加紧追赶。因为作为普通用户之一，GPT-4依然是最好的选择。或者说，国产大模型厂商不能将眼光局限于中国市场以内，而应该向世界数一数二看齐。只有这样，才能赢得广大用户的认可，特别是那些知识学历高、专业技能强的高知/精英用户。

“特别声明：以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布，本平台仅提供信息存储空间服务。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

打开 app 阅读更多精彩内容

热点新闻