从 Sora 到通用世界模型,有人期待有人措手不及

Sora 无疑是一项革命性的技术, 在我们还在惊叹MidJourneyStableDiffusion 可以通过文本描述生成媲美专业设计师的图形创作时,视频生成的时代好像也已经到了。

记得一个月前制作微信红包封面, 先使用 MidJourney 生成一张应景的图片,然后再通过 Pika 制作几秒的动画, 一个视频红包就完成了,整个过程只需要一点创意和几步操作。

微信红包封面制作流程
微信红包封面制作流程

但不得不说那会视频生成的效果差强人意,时长也只有几秒,无论是 PIKA 还是Runway, 短期都不见得会对短视频行业造成太大冲击。Sora 的出现再次证明了AI技术不是线性发展而是指数飞跃。不要忘了ChatGPT最初的上下文长度只有4k且只能理解文本,但现在GPT-4已支持128k,还能理解图片。而与Sora同期发布的Gemini Pro 1.5(很不幸撞上Sora)的上下文长度已高达100万, 上下文长度限制已形同虚设。

Runway 演示视频
Runway 演示视频
Sora 演示视频
Sora 演示视频

之所以Sora展示的视频让众人惊叹是因为OpenAI借此证明了自己已基本解决视频生成最主要的三个难题:1. 对真实世界的模拟;2. 三维一致性;3. 镜头连贯性和物体持久性。

从公布的视频来看,这些视频包含了细腻的背景,复杂的多角度镜头以及情感丰富的角色,这些都是之前的视频生成技术所不及的。

OpenAI 于 2 月 18 日公布了技术细节1

Sora 技术报告
Sora 技术报告

从技术报告可以一窥其核心逻辑。我们知道大语言模型将所有的文本先转化为 token 再进行训练克服了文本内容差异的问题, 无论什么语言、是文字还是代码亦或数学公式都可以作为训练数据。在视频处理上, Sora 沿袭了这种方式,训练时先用预训练模型把大量的大小不一的视频源文件编码转化统一的 patch 表示,把时空要素提取作为 transformer 的token 进行训练。

将视频编码转化统一的 patches
将视频编码转化统一的 patches

Sora 是一个扩散模型,通过给定输入噪声 patches(以及文本提示等调节信息)进行训练,以此预测原始的patches。Sora采用了扩散 Transformer (Diffusion Transformer)。Transformer 在各个领域的表现都非常出色,包括语言建模、计算机视觉、和图像生成等。

通过噪音 patches 预测原始 patches
通过噪音 patches 预测原始 patches

Sora的训练样本包含了海量的视频数据,当训练数据不再局限于文本,大模型开始通过“眼睛”认识我们的世界,对世界的理解必定会远超文本学习。大语言模型将进化为通用世界模型(General World Model), 这也意味着我们离通用人工智能(General Artificial Intellgience)的实现越来越近。 所以从这一点来讲,Sora传达出来的信息的意义影响广泛且深远,所以有不少业界人士认为我们会比原先的预期更早实现AGI.

通用世界模型
Runway 对 GWMs的介绍2

ChatGPT, MidJourney和 Sora 从文字、图形和视频三个维度颠覆了我们现有的生产方式,沿着这条路走下去,我们大概能看到未来的一些可能趋势。

  1. 人工智能及其相关产业会继续高速发展, 如 GPU、新能源、 液冷、 光模块等;
  2. 无论是文案、图形和视频的创作门槛会进一步降低,制作成本会下降,好的创意将成为核心竞争力。 同样的技术, “飞流直下三千尺,疑是银河落九天”出来的效果肯定就比“一个好大的瀑布”好;
  3. 很多需要一个大团队才能完成的事情,不久一个小团队甚至个人都能完成,个体的价值将被技术杠杆进一步放大;
  4. 一部分人先富裕,然后带动共同富裕的逻辑依然成立,成功利用新技术的组织和个人将获得成本和效率优势.

以下为硬广

技术日新月异,新工具如雨后春笋般层出不穷,我们该怎么应对呢? 置之不理肯定不行,好比在激流中逆水行舟,还没等反应过来就看不见前面的船了。四处报班买课也不可取,除非能分辨好坏,因为市场鱼龙混杂,如果跟热度买课,就算不差钱,浪费了时间和精力也不划算。站在资本的角度人工智能是风口, 作为大众,人工智能是我们必备的工具,所以学习的出发点不应该是追风口,而是要像学习使用Office,搜索引擎一样,为了提升效率 。

三人行必有吾师,与其四处报课,不如阅读权威的信息源,独立思考, 交流学习。 为此我们创建了 Gen Nomad 社区,这是一个大家能够自由交流、分享经验、互相帮助的社区,我们关注科技和商业,但不盲目追逐热点,目的是通过科技和商业模式放大个体的价值,让更多人在人工智能时代闪闪发光。✨

如果你满足以下任意一条,Gen Nomad 欢迎你的加入!

  1. 觉得科技新闻不足以满足你的好奇心;
  2. 有一些想法,但在技术和商业方面不清楚怎么实现;
  3. 愿意分享知识或自己的作品。

为保证内容质量,Gen Nomand 是一个付费社区,这样我们能过滤掉绝大多数的广告推等垃圾内容,收取的费用主要将用于 Gen Nomad 社区的运营。

微信收款码
请确保微信号(不是昵称)填写正确,否则可能导致进群失败

完成支付后会由社区管理员手动添加你到我们的付费微信群,由于这个过程是手动完成所以可能会有点延迟,请耐心等待。如果一天内没有处理你的订单,请私信 [email protected]

Gen Nomad意思是数字游民时代,数字游民最早由前日立公司的CEO牧本次雄在其1997年出版的同名著作中提出, 指的是通过科技(尤其是信息技术)突破物理条件的束缚, 以支持生活和旅行的一种职业选择。 采用这个名字的意义是希望视野和能力不被物理条件限制,同时像游民一样洒脱,不追逐热点,不被焦虑左右。

脚注

  1. https://openai.com/research/video-generation-models-as-world-simulators
  2. http://xhslink.com/r2GCbC