寂静回声 发表于 2024-12-11 14:08:20

openAI正式推出Sora视频大模型

就在刚刚,OpenAI Sora正式登场。
本次发布会延续了“短剧”的快节奏风格,全程20分钟左右,由 CEO Sam Altman、Sora负责人 Bill Peebles等人主持。
OpenAI在 X平台表示,自2月份以来,他们一直在构建 Sora Turbo,后者是一个速度明显更快的模型版本,今天也将其作为独立产品向 Plus和 Pro用户开放。
有趣的是,由于 Sora热度太高,大批用户涌入体验网站,导致该网站一度崩溃,停止注册登录。不给力的服务也让 Altman连连在 X平台安抚用户:
“由于需求超出预期,我们将不得不间歇性地关闭新用户注册,并且生成内容的速度会在一段时间内减慢。我们正在全力以赴!”

https://pic.imgdb.cn/item/67592b37d0e0a243d4e1af56.jpg
类似于 Midjourney(AI绘画工具)的网页界面,Sora同样拥有自己单独的用户界面,用户不仅能够整理和浏览生成的视频,还能查看其他用户的提示词和精选视频。
在“Library”中,用户可以保存自己喜欢或有用的提示词,以便未来使用。并且保存的提示词可以按需查看或修改,对于需要重复创作相似内容的用户,无疑能大大提高效率。
在工作流方面,Sora的编辑功能是区别于其它竞品的重要亮点。
比如说,在 Remix功能中,用户可以利用纯自然语言提示词对视频进行编辑,并通过简单的“strength(强度)”选项和滑块来控制生成的变化程度。
Re-cut功能则能智能识别最佳画面,并支持向任意方向延伸场景。
Storyboard(故事板)功能则类似于视频编辑器,可以将多个提示词串联在一起,生成一个更长的视频,轻松处理复杂的多步骤场景。
搭配 Loop和 Blend功能,用户还能创作出无缝循环的视频,并完美融合不同片段,而 Style presets功能则可以预设和调整生成的风格。
在技术规格上,Sora支持5-20秒的视频生成,并兼容1:1、9:16等主流宽高比。相比早期版本,现在的生成速度有了显著提升。

另外,还有几点细节需要注意。
Sora Turbo采用了灵活的积分制定价策略,需要耗费的积分因分辨率和持续时间而异,如果你已经是 ChatGPT Plus和 Pro会员,那无需额外费用就能使用。
比如生成一个480p、5s的视频就需要25个积分,如果生成480p、20s的视频则需要150个积分。
此外,如果你用 Re-cut、Remix、Blend或者 Loop这些功能,生成的作品超过了5秒钟,那也得额外扣你的积分,多用多花钱,别超时,超时也花钱。
对于订阅用户而言,20美元的 ChatGPT Plus计划提供50个优先视频额度(1000积分),支持最高720p分辨率和5秒时长。
而200美元的 ChatGPT Pro计划则提供最多500个优先视频(10000个积分),支持最高1080p分辨率、20秒时长、5个并发生成和无水印输出。
OpenAI还在考虑为不同类型的用户开发不同的定价模式,将于明年初推出。
对了,Sora暂不支持 ChatGPT Team、Enterprise和 Edu用户,同时也不向18岁以下用户开放。
现阶段,用户可以在所有 ChatGPT可用的地方访问 Sora,但英国、瑞士和欧盟等地区除外。

知名博主 Marques Brownlee提前一周用上 Sora,并在 YouTube上分享了他的使用体验。
他指出这款产品仍存在一些局限性。
在物理仿真方面,模型对物体运动的理解还不够深入,常常出现动作不自然、物体突然消失等问题。特别是在处理带有腿部运动的对象时,经常出现前后腿位置混乱的情况,导致动作看起来不自然。
又或者,某些视频生成结果看起来像是慢动作,而视频的其他部分则以正常速度播放,肉眼很容易察觉这种“别扭”。简言之,Sora还是没能解决老毛病,缺乏对物理世界规律的理解。
另外,Sora没能解决文字生成的问题,导致经常出现文字混乱的现象,而剪辑风格、文字滚动条的运动、新闻主播风格的生成则格外逼真。

不过,Sora也有许多拿捏的场景。
比如说,Sora在风景镜头处理方面表现出色,能生成媲美专业素材的无人机航拍镜头,在卡通和定格动画风格上的表现也差强人意。
性能方面,一个5秒的360p视频通常能在20秒内完成生成。不过,当涉及1080p或复杂提示词时,生成时间可能会延长到几分钟,但随着如今大批用户的涌入,生成速度也大为缓慢。
不少网友也在第一时间上手体验了 Sora。比如网友@bennash想生成一个视频,渲染了22分钟都没能成功,甚至该网站一度停止注册登录。
博主@nickfloats给出的评价是,Sora在将图像转换成视频时,虽然某些特定的视觉特效没有被保留,但整体的转换效果是“清晰和令人满意的”。

Sora System Card也列出了一些值得关注的细节。
OpenAI官方认为,Sora为能够理解和仿真现实世界的模型提供了基础,将是实现通用人工智能(AGI)的一项重要里程碑。
官方博客中提到,Sora是一种扩散模型,它通过从一段看起来像静态噪声的基础视频开始,逐步去除噪声并转变为最终的视频。通过同时处理多个帧,模型成功解决了一个难题:即使目标暂时脱离视野,也能确保其在视频中始终保持一致。
与 GPT模型类似,Sora采用了 Transformer架构。
Sora使用 DALL·E3中的标注技术,该技术为视觉训练数据生成高度描述性的标签。因此,模型能够更准确地根据用户的文本指令生成视频内容。
除了能够仅通过文本指令生成视频外,Sora还能够从现有的静态图像生成视频,准确地将图像内容进行动画化,并保留细节。
为了确保安全部署 Sora,OpenAI基于 DALL·E在 ChatGPT和 API部署中的安全经验,以及 OpenAI其他产品(如 ChatGPT)的安全防护措施进行了强化。
未经他人许可使用他人肖像,并禁止描绘真实未成年人;
禁止创建非法内容或侵犯知识产权的内容;
禁止生成有害内容,例如未经同意的亲密影像、用于欺凌、骚扰或诽谤的内容,或旨在传播暴力、仇恨或使他人痛苦的内容;
创建并传播用于欺诈、诈骗或误导他人的内容。
所有 Sora生成的视频都带有 C2PA元数据,这些元数据能够标识视频的来源,从而提高透明度,并可用于验证其来源。
与此前凭借真实人像出圈的 Flux不同,Sora们对上传包含人物的内容设定了特别严格的审核标准,目前仅作为试点功能提供给少量早期测试者。

大半年前,初试啼声的 Sora赢得互联网一片喝彩。
然而,如果说一年前尚未还能对着一群演示 demo空喊“现实不存在了”,那么在国内外各类视频模型的轮番洗礼之下,我们早已养刁的胃口很难再被同样的产品打动。
这种态度的转变源于一个简单的事实。当 AI要从“勉强可用”进化到“可堪大用”,用户的期待也随之升维,从“能否做到”跃迁至“做得多好”。
好在 Sora并未在掌声中原地踏步,通过与艺术家的深度合作,他们在工作流程领域做出了显著的改进。Re-cut、Remix、Storyboard等功能都相当实用。
甲乙方的存在决定了工作流中的沟通永远是刚需,AI能做的是让这种沟通更有效率,Sora的价值不在于它能做什么,而在于让创作者得以抽身于技术细节,真正回归创意的本质。
与此同时,上周引发热议的200美元 ChatGPT Pro订阅计划,如今也有了更合理的价格锚点,该计划同样支持无限制访问 Sora,这种产品协同效应预计也将激发出远超预期的应用场景和商业价值。
放眼当下,用户的真金白银从不作假。

可灵 AI交出千万级月流水的亮眼成绩单,这片蓝海的潜力已呼之欲出,对于仍在“烧钱”阶段的 OpenAI来说,Sora预计会成为继 ChatGPT之后的另一个下金蛋的母鸡。
当 Sora从“能用”“好用”,再到“妙用”,或许未来某一天,我们会发现,真正不存在的,不是现实,而是人类创造力的尽头。

页: [1]
查看完整版本: openAI正式推出Sora视频大模型