大风号

马斯克视频生成模型首次交卷！电影级运镜+音效，免费可玩

量子位

02-03 12:22 来自北京

西风发自凹非寺

量子位 | 公众号 QbitAI

xAI“迄今为止最强大的视频音频生成模型”Grok Imagine 1.0版本，正式全面上线。

模型支持文生视频、图生视频，单次生成时长为10秒，分辨率720P，音频效果实现大幅提升。马斯克第一时间就转发了该消息。

先看效果。Grok Imagine 1.0能精准捕捉用户的创意构想，比如AI版“驯龙高手”，细节丰富且画面连贯：

打开凤凰新闻客户端提升3倍流畅度

音频表现亮眼，角色语音情感饱满、表现力十足，还能与场景节奏完美同步。

像这只毛茸茸的白色小怪兽，玩“躲猫猫”时的互动音效与语气，生动感拉满：

打开凤凰新闻客户端提升3倍流畅度

它也很擅长日常趣味创作，既能让老照片动起来，也能快速围绕当日热点做梗图、短视频。

打开凤凰新闻客户端提升3倍流畅度

把生成的片段串一串，分分钟拼出一部小短片，请欣赏：

打开凤凰新闻客户端提升3倍流畅度

目前官网就能免费开玩。

xAI表示，仅在过去30天的测试期内，Grok Imagine就已生成12.45亿条视频。

视频生成&剪辑性能领先

Grok Imagine的核心能力主要分为视频生成与视频剪辑两大板块。

来看更多官方秀肌肉。

视频生成方面，Grok Imagine具备电影级运镜理解：

画面衔接丝滑不卡顿：

多主体生成表现也很抗打：

且不同主体间互动自然：

Grok Imagine能很好地遵循指令，对用户脑洞的理解相当到位：

竖屏横屏通吃，适配各平台的画面比例。

视频剪辑方面，可以在视频里加对象、删元素：

替换对象也可以。

Grok Imagine还允许用户用自己的动作表演，驱动任意角色生成对应的动画效果：

秋日、冬日、薄雾、日落、阴云，场景氛围随便切：

物体颜色、物件细节也能改：

给现有视频素材换上不同的视觉风格：

静态黑白线稿也能变鲜活动画：

另外，官方表示，Grok Imagine围绕延迟、成本控制等核心维度进行了迭代优化。

AI基准测试机构Artificial Analysis的文生视频排名显示，Grok Imagine综合排名第一，在成本、延迟两项关键指标上表现最优。

Artificial Analysis和LMArena两家机构评估结果对比如下，均显示Grok Imagine在延迟和成本上处于领先位置：

图生成视频方面，Grok Imagine同样保持了高评分+低延迟+低成本的综合优势：

在针对视频编辑能力的人工盲评基准测试中，选取IVEBench数据库作为核心测试依据，该数据库涵盖七个语义维度，能全面考察工具的视频编辑综合实力。

结果显示，Grok Imagine在整体表现、指令遵循度、效果一致性三大维度均领先。

网友脑洞大开

Grok Imagine API已发布，网友们也早就已经在官网开玩了。

有人生成了一段小机器人跳舞的视频，机器人的眼睛还会跟着一眨一眨的：

还有网友还原了汤姆追杰瑞的场面，画风逼真到让人分不清是原版动画还是AI生成：

细腻的表情动作变化，它也能处理得丝滑不生硬：

第一视角的画面同样不在话下：

你觉得效果如何？感兴趣的话可以亲自上手试试。

官网：https://grok.com/imagine

参考链接：

[1]https://x.com/xai/status/2018164753810764061

[2]https://x.ai/news/grok-imagine-api

— 欢迎AI产品从业者共建 —

📚「AI产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库，旨在成为AI行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。

一键关注 👇 点亮星标

科技前沿进展每日见

“特别声明：以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布，本平台仅提供信息存储空间服务。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

打开 app 阅读更多精彩内容

热点新闻