引言

在人工智能领域,OpenAI一直是创新的代名词。2024年5月14日,OpenAI再次以GPT-4o模型震撼了科技界,这款全新的旗舰生成模型不仅免费向公众开放,更以其革命性的多模态交互能力,引领我们进入了一个全新的科幻时代。

春季发布会上(详情见:https://openai.com/index/spring-update/ )OpenAI 的首席技术官 Mira Murati表示

  • 以后 OpenAI 做产品就是要免费优先,为的就是让更多的人能使用。
  • OpenAI 此次发布了桌面版本的程序和更新后的 UI,其使用起来更简单,也更自然。
  • GPT-4 之后,新版本的大模型来了,名字叫 GPT-4o。GPT-4o 的特别之处在于它以极为自然的交互方式为每个人带来了 GPT-4 级别的智能,包括免费用户。

GPT-4o模型的核心特性

GPT-4o(详情见:https://openai.com/index/hello-gpt-4o/) ,o即Omnimodel(全能模型),是OpenAI在GPT-4之后的又一次飞跃。它集成了文本、语音、图像三种模态的理解力,以极为自然的交互方式为每个人带来了GPT-4级别的智能,包括免费用户。
GPT-4o 在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,但在非英语文本上的性能显著提高,同时 API 的速度也更快,成本降低了 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。

它最快可以在 232 毫秒的时间内响应音频输入,平均响应时长 320 毫秒,与人类相似。在 GPT-4o 发布之前,体验过 ChatGPT 语音对话能力的用户能够感知到 ChatGPT 的平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。

这种语音响应模式是由三个独立模型组成的 pipeline:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。但 OpenAI 发现这种方法意味着 GPT-4 会丢失大量信息,例如模型无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。

以下是GPT-4o模型的一些核心特性:

  1. 多模态输入输出:GPT-4o能够接收文本、音频和图像的任意组合作为输入,并实时生成相应的输出,这标志着未来交互方式的重大转变。并且 OpenAI 跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。
  2. 实时语音对话:GPT-4o的实时语音对话能力,允许用户随时打断AI的话,并得到快速响应,这种交互体验与人类交流更为接近。
  3. 情感理解与表达:新模型不仅能够理解人类的情感,还能表现出各种感情,使得交互更加人性化。
  4. 视觉和音频理解:GPT-4o在视觉和音频理解方面表现出色,能够快速响应音频输入,与人类反应时间相似。
  5. 代码交互能力:GPT-4o能够解释代码的功能,甚至以一句话的方式回应所有有关代码输出的问题。

GPT-4o的能力探索

  1. 理解和生成图像

你可以让它帮忙把 OpenAI 的 logo 印到杯垫上:

640.png

  1. 3D 视觉内容生成

6 个生成的图像进行 3D 重建

3d-03.gif
3d-06.gif

  1. 排版为手写

Poetic_typography.png

output.png

更复杂:

input1.png
Poetic_typography_with_iterative_editing.jpg

深色模式

poem-editing-v2-05.jpg

  1. 海报

movie-poster.png

GPT-4o的性能评估

OpenAI 技术团队成员在 X 上表示,之前在 LMSYS Chatbot Arena 上引起广泛热议的神秘模型「im-also-a-good-gpt2-chatbot」就是 GPT-4o 的一个版本。

image1.png

在比较困难的 prompt 集上 —— 特别是编码方面:GPT-4o 相比于 OpenAI 之前的最佳模型,性能提升幅度尤其显著。

image2.png

OpenAI技术团队对GPT-4o进行了严格的性能评估。在多项基准测试中,GPT-4o在文本、推理和编码智能方面实现了与GPT-4 Turbo相匹配的性能,同时在多语言、音频和视觉功能上实现了新高。

  1. 文本评价

gpt-40-02_light.webp

  1. 音频ASR性能

gpt-40-06_light.webp

  1. 情感理解与表达

gpt-40-08_light.webp

  1. 视觉和音频理解

gpt-40-04_light.webp

  1. 代码交互能力

gpt-40-01_light.webp

用户体验的革新

OpenAI不仅关注模型的技术性能,更致力于提升用户体验。GPT-4o的发布,意味着ChatGPT的用户将免费获得更多高级功能,包括但不限于:

  • 体验GPT-4级别的智能
  • 分析数据并创建图表
  • 与拍摄的照片进行对话
  • 上传文件以获取总结、写作或分析方面的帮助
  • 发现并使用GPTs和GPT应用商店

安全性与未来展望

OpenAI在GPT-4o的安全性上下了大力气,通过过滤训练数据和训练后细化模型行为等技术,内置了安全性。同时,OpenAI还创建了新的安全系统,为语音输出提供防护。

随着GPT-4o的发布,OpenAI CEO山姆・奥特曼提出了“全民免费计算”的概念,预示着未来所有人都可以免费获得GPT的算力。这不仅是对谷歌等科技巨头的挑战,更是对整个人工智能行业的一次巨大推动。

结语

OpenAI的GPT-4o模型,无疑将人工智能交互推向了一个新的高度。它不仅提供了强大的功能,更以其免费、易用的特性,让每个人都能享受到人工智能带来的便利。随着技术的不断进步,我们有理由相信,GPT-4o只是一个开始,未来人工智能将更加深入地融入我们的生活和工作,开启一个全新的时代。