OpenAI发布新型AI

寂静回声 发表于 2024-5-14 14:18:28

美国OpenAI公司于5月13日宣布开发出了新型AI“GPT-4o”。处理速度与此前相比提高一倍，与此同时运行成本下降一半。用语音进行对话时，可以达到人类会话同等的反应速度。
   在克服反应延迟这一弱点后，AI的应用有望进一步扩大。除OpenAI外，其他各家企业也在不断改进生成式AI，技术竞争正变得更加激烈。
   新开发的“GPT-4o”仍采用作为ChatGPT驱动基础的技术，是自2023年11月发布现行的“GPT-4-turbo”后再次更新。名字里的“o”取自“omni”（意为“全部”）的首字母。
   新AI支持包括日语在内的50种语言，可识别文字、图像、声音。除实时翻译外，还能通过智能手机摄像头读取人的面部表情，读取图表。
   新AI对声音的反应速度平均为320毫秒（1毫秒为千分之1秒），快的情况下为232毫秒，达到了人类实际会话时的水平。能读取人的感情，还会开玩笑。OpenAI主张能进行更自然的会话。
OpenAI公司首席技术官（CTO）Mira Murati在发布会上强调，“过去一直致力于提高（AI）模型的智能，而这次在易用性上取得了巨大进步”。
配备新技术后，ChatGPT的基础费用仍保持不变。只有面向文本及图像的部分功能可以免费使用。使用声音的功能率先面向每月20美元的付费用户及法人，在数周内可以使用。为了避免数据使用的负荷，使用次数根据套餐设定限制。
   在生成式AI领域，其他企业也相继推出新技术，包括美国谷歌的“Gemini 1.5Pro”，美国初创企业Anthropic开发的“Claude 3”及美国Meta公司的“Llama 3”等。
OpenAI也在开发制作高清视频的生成式AI“Sora”。该公司将通过增加AI可处理的信息量及种类，提升处理速度，提高使用便利性，凭借1亿多人使用的ChatGPT服务进一步稳固地位。
   ChatGPT支持“应用程序编程接口（API）”。可以在不同系统之间交换数据，因此外部企业也可以在自家软件中引入OpenAI的新型语音会话技术，有利于开发新服务。

下面是今天OpenAI 2024 春季更新的介绍部分，由 OpenAI CTO Mira Murati 主讲
**欢迎致辞**
很高兴你今天来到这里。
**主题介绍**
我今天要谈的主要有三点。就这样。
**产品的重要性与更新**
我们首先讨论为何对我们来说，拥有一个可以自由向大众提供的产品如此重要。我们一直在努力寻找减少使用困难的方法，以便所有人都能在任何地方使用 ChatGPT。所以，今天我们将发布 ChatGPT 的桌面版本，并进行界面的更新，让其使用起来更为简单、自然。

**新旗舰模型 GPT-4o 的介绍**
但是，今天的重头戏是我们即将发布的新旗舰模型，我们将其命名为 GPT-4o。GPT-4o 特别的地方在于，它将 GPT-4 级别的智能带给了所有人，包括免费用户。我们将在今天进行一些现场演示，展示我们新模型的全部能力，并且我们将在接下来的几周中逐步发布它们。

**使命和目标**
我们使命的一个重要组成部分是能让我们的先进人工智能工具面向所有人免费开放。我们认为，人们对技术可以做到什么有直观的理解非常重要。因此，我们希望将其与更广泛的理解结合起来，并始终在努力寻找减少使用难度的方法。最近，我们已经可以不用注册就能使用 ChatGPT。今天，我们为 ChatGPT 引入了桌面应用程序我们希望你能在任何地方都能使用它。

**用户界面更新**
如你所见，它使用起来简单轻松，可以非常顺利地融入你的工作流程。同时，我们也刷新了用户界面。我们知道这些模型变得越来越复杂，但我们希望与之的互动体验能变得更加自然、简便，让你无需专注于用户界面，只需聚焦于与 GPT 的交互。

**技术进步和人机交互的未来**
接下来是重大新闻。今天我们发布了最新的旗舰模型——GPT-4o。GPT-4o 提供了 GPT 4 级别的强大智能，并且运行速度更快，在文本、视觉和音频等方面的能力也有所提升。过去几年里，我们专注于提升这些模型的智能性，现在它们已经表现得相当出色。但这是我们首次在使用便捷性方面实现了重大突破。这一点极其重要，因为我们正在展望人机交互的未来。我们认为，GPT-4o 正在引领我们进入一个新的协作时代，在这个时代，人机交互将变得更加自然、更加便捷。

**语音与多模态交互的挑战与解决方案**
然而，实现这一点其实非常复杂，因为在人与人的交流中，有许多我们习以为常的细节。我们在与人互动时的对话便捷性，背景噪音，一个对话中的多重声音，或者理解声音的语调。所有这些对模型来说都是极其复杂的任务。到目前为止，在语音模式下，我们采用了三种模型共同提供服务。包括：语音转录、智能处理以及文本转语音技术，

这三者协同合作，共同打造了语音体验。但这也带来了大量的延迟，破坏了我们在 GPT 上的沉浸式协作体验。然而，有了 GPT-4o，这一切都能够原生实现。

**广泛的用户接入和新功能**
GPT-4o能够跨声音、文本和视觉进行智能推理。得益于这种卓越的处理效率，我们现在甚至可以将 GPT-4 级别的智能服务提供给免费用户。这是我们一直想要实现的目标，我们非常兴奋终于能把 GPT-4o 带给所有用户。现如今，我们已经有超过 1 亿用户利用 ChatGPT 进行创作、工作和学习。我们有许多高级工具，但以前只有付费用户可以使用。凭借 4o 的高效性，现在我们可以将这些工具提供给所有人。所以，从今天开始，你可以在 GPT 应用商店中使用 GPT。到目前为止，我们已经有超过一百万的用户用 GPT 创造了令人惊叹的体验。这些都是在应用商店中可用的，为特定用途定制的 ChatGPT。现在，我们的开发者们有了更大的受众，大学教授们可以为他们的学生创造内容。或者，播客可以为他们的听众创造内容。你还可以使用视觉功能。因此，现在你可以上传截图、照片或含有文本和图像的文件。并且你可以和 ChatGPT 就这些内容展开对话。你还可以使用记忆功能，这使得 ChatGPT 变得更有用、更有帮助，因为现在它可以记住你的所有对话内容。你还可以使用信息搜索功能，在你的对话中搜索实时信息。还有数据分析功能，你可以上传图表或其他信息，它会对这些信息进行分析。它会给出答案等等。

**多语言支持的提升**
最后，我们也提高了 ChatGPT 在 50 种不同语言中的质量和速度。这非常重要，因为我们希望能把这种体验带给尽可能多的人。所以我们非常激动地将 GPT-4o 带给我们所有的免费用户。对于付费用户，他们将继续拥有超过我们免费用户五倍的容量限制。

**GPT-4o 的扩展到 API**
但是，GPT-4o 不仅仅在 ChatGPT 中可用，我们也将其引入到了 API 中。因此，我们的开发者现在可以开始使用 GPT-4o 来构建了不起的 AI 应用，并进行大规模部署。4o 的速度是 GPT-4 Turbo 的两倍，价格降低了 50%，速率限制提高了五倍。

**面临的挑战与未来展望**
然而，当我们将这些技术引入世界时，如何以一种既有利又安全的方式进行，这是相当具有挑战性的。GPT-4o 在安全性方面为我们带来了新的挑战，因为我们正在处理实时音频和实时视觉。我们的团队一直在努力寻找防止滥用的解决方案。我们继续与各方利益相关者合作，比如政府、媒体、娱乐业、所有行业、红队成员和公民社会，以找出如何最好地将这些技术引入世界。
因此，在接下来的几周里，我们将继续进行迭代部署，向你提供所有的功能。

点评
openai升级AI服务也很正常，因为现阶段AI智能水平实在是太低了。哪怕是chaigpt3.5，还有谷歌AI在回答关于河合千代子这件事上完全的一塌糊涂。

这是讯飞星火大模型的最新回答，这回答简直平行世界。
那个问题是我瞎编的，看生成式AI能不能识别出来。

而通义千问则一言指出你肯定是搞混了。
而同样的问题去问谷歌AI

河合千代子变成了一位日本影星，还有一位导演丈夫牧野正博。

通过查资料指出谷歌AI在胡扯，他立马就改口。
但这个回答仍然是错误的，因为首先这个日本名儿的中文翻译不是藤代雪子，而是轰夕起子。而轰夕起子1967年就去世了，哪活到2009年。
同样的问题再去问chatgpt3.5

这都胡诌些什么？

这个太牛逼把1904年出生的河合千代子说成虚拟人物

一直提示到山本五十六它才反应过来

让它介绍一下轰夕起子，结果同样一个人这次是死于1995年。

把轰夕起子的中文名换成英文名，chatgpt3.5直接就不认识人家了。
在这波关于河合千代子历史的简介中，通义千问可以说是完胜中外各家生成式AI。美国那两家生成式Ai，也不知道是不是对东方电影史有什么偏见。

但仅仅一个牧野省三和牧野正博，二者之间的关系，又直接把通义千问变成了个傻子，可见生成式Ai是根本没有人类逻辑判断性的。

页: [1]

机械荟萃山庄's Archiver

OpenAI发布新型AI