OpenAI 发布会第九天:o1 开放 API ,开发者关心的更新有哪些?
打开网易新闻 查看更多视频
OpenAI 发布会第九天:o1 开放 API ,开发者关心的更新有哪些?

OpenAI第 9 天的发布会上,他们带来了一个激动人心的消息:备受期待的 o1 模型终于向开发者开放使用了!

这次更新不仅让开发者能够使用更强大的 AI 模型,还大幅降低了使用成本。比如说,过去需要不少费用才能使用的语音功能,现在价格直接降低了 60%。对于预算有限的开发者来说,他们还特别推出了一个"迷你版"的语音服务,费用只有原来的十分之一。具体更新内容包括:

  • OpenAI o1 模型:API 现已支持功能调用、开发者消息、Structured Outputs 以及视觉识别等功能。
  • 实时 API 升级:集成简单的 WebRTC 功能,GPT-4o 音频价格下调 60%,同时推出 GPT-4o mini,音频费用仅为原来的十分之一。
  • 偏好微调 (Preference Fine-Tuning):新一代模型定制技术,帮助开发者更轻松地根据用户需求和偏好优化模型。
  • Go 和 Java SDK:现已开放测试版,开发者可快速上手集成。

这些进步意味着什么呢?简单来说,就是 AI 应用的开发变得更简单、更便宜,也更容易根据具体需求进行定制了。不管是想开发智能客服、自动翻译,还是其他创新应用,开发者们都能以更低的成本实现自己的想法。

一、API 中OpenAI o1实际应用

全新的 o1 模型,这是一次重要的技术升级。相比之前的版本,新模型不仅变得更聪明,还能更快地回应用户需求。目前,该模型已经向高级开发者开放使用,并计划逐步扩大开放范围。这次升级带来了哪些实际改进?

更快的响应速度

  • 处理速度提升显著,相比旧版本快了整整 60%
  • 开发者可以根据需要调节模型的"思考时间",在速度和准确度之间找到平衡

更强的实用功能

  • 视觉识别:现在可以"看懂"图片,这对工业生产、科研等领域特别有帮助
  • 精准输出:能够按照开发者的要求,生成格式严格统一的内容
  • 个性化对话:支持调整语气和风格,让 AI 的回应更符合具体场景需求
  • 系统集成:可以轻松与其他软件系统对接,实现更复杂的功能

实际应用案例

已经有开发者使用新模型开发出了多个实用的应用,比如:

  • 智能客服:能更好地理解和解决客户问题
  • 供应链优化:帮助企业更好地管理库存和物流
  • 金融分析:协助预测市场趋势

性能测试成绩

在最新的测试中,o1 模型在多个领域都展现出了优秀的表现:

打开网易新闻 查看精彩图片

  • 基础能力测试:准确率达到 75.7%
  • 编程能力:在代码开发测试中达到 76.6% 的高分
  • 数学计算:在某些测试中甚至达到了 96.4% 的惊人准确率

这些进步意味着什么?未来我们使用的各种 AI 应用都会变得更聪明、更快速、更符合实际需求。不管是在线购物时的智能推荐,还是工作中需要的数据分析,都能得到更好的支持。

打开网易新闻 查看精彩图片

目前,OpenAI 正在分批向开发者开放 o1 模型的使用权限。随着更多开发者加入,我们有望看到更多创新的 AI 应用出现在我们的日常生活中。开放访问权限,并计划扩展到更高的使用等级,同时持续提升速率限制。

二、API更低延迟、更低成本与更多灵活性

OpenAI 的 实时 API 让开发者可以构建流畅、自然的实时对话体验,适用于语音助手、实时翻译工具、虚拟导师、交互式客服系统,甚至是你自己的“虚拟圣诞老人”。他们推出了一系列重要改进,包括直接支持 WebRTC、降低价格以及更灵活的响应控制。

1、引入 WebRTC 支持

实时 API 增加了对 WebRTC 的支持。作为一项开放标准,WebRTC 让开发者能够跨平台轻松构建和扩展实时语音产品,无论是浏览器应用、移动端、物联网设备,还是服务器间通信。WebRTC 集成确保在真实网络条件下提供高效、低延迟的交互体验,能够应对网络质量波动,支持音频编码、流式传输、噪音抑制和拥堵控制等功能。

2、低成本和高语音质量

OpenAI 在语音服务领域推出了重大更新,不仅大幅下调了原有服务的价格,还推出了价格更加亲民的"迷你版"服务。原有的 GPT-4o 语音服务在技术层面获得了显著提升,特别在语音识别的准确性方面有了明显进步,尤其是在处理数字语音时的表现更加出色。主要更新包括:

  1. 语音质量全面提升,输入稳定性进一步加强
  2. 价格大幅下调 60%,降至输入80/百万 tokens
  3. 缓存音频价格创新低,降低 87.5% 至 $2.50/百万 tokens

更令人瞩目的是全新推出的 GPT-4o mini "迷你版"服务。这个版本在保持与完整版相同的语音质量的同时,将价格降至原来的四分之一。其定价方案为:

  1. 语音服务:输入20/百万 tokens
  2. 文本服务:输入2.40/百万 tokens
  3. 缓存服务:统一定价 $0.30/百万 tokens

这次价格调整和新服务的推出具有深远的意义。对于开发者而言,显著降低的成本意味着他们可以将更多资源投入到应用的创新和优化上。而对于最终用户来说,这意味着他们将有机会接触到更多、更好的语音交互应用,而且使用成本会更加实惠。

这些更新已经在 OpenAI 的实时 API 和 Chat Completions API 中全面上线,开发者可以立即开始体验这些新功能。这次重大更新无疑将推动语音交互应用的普及,让 AI 语音技术在更多场景中发挥作用。

3、功能更灵活

OpenAI 为实时 API 推出了更多控制选项,帮助开发者实现高效、精准的语音体验:

  • 并发后台任务:可在不影响语音互动的情况下运行内容审核、分类等后台任务。
  • 自定义上下文输入:灵活选择输入内容,例如单独审核用户的最后一句话,或在会话中重用历史响应。
  • 受控响应时机:借助服务器端 语音活动检测 (VAD),开发者可在回复前预先收集所需信息并精准控制响应时机。
  • 延长会话时长:会话最大时长从 15 分钟 提升至 30 分钟,适配更复杂的交互需求。

三、让 AI 更懂你的需求

OpenAI 最新推出的偏好微调(Preference Fine-Tuning)功能,让 AI 模型的个性化定制变得更加简单和高效。这项技术采用了一种叫做"直接偏好优化"(DPO)的创新方法,通过对比不同的 AI 回答,让模型学会识别什么样的回答更符合用户的偏好。

这与传统的模型训练方法有着本质的区别。传统的监督式微调就像是让 AI 按照标准答案来学习,而新推出的偏好微调则更像是让 AI 理解"用户更喜欢哪种回答方式"。这种方法特别适合那些没有标准答案、需要理解用户个人喜好的场景,比如写作风格的调整、对话语气的把握,以及创意内容的生成等。

下方表格展示了 偏好微调 与 监督式微调 的核心区别:

打开网易新闻 查看精彩图片

偏好微调成功案例:Rogo AI 正在开发一款面向金融分析师的 AI 助手,该助手能将复杂的查询任务拆分为子查询。在其专业基准 Rogo-Golden 的测试中,Rogo AI 发现,监督式微调 在处理非分布式查询扩展时表现不佳,例如在 “公司 X 的增长速度如何” 这类查询中,可能遗漏关键指标如 ARR。而通过偏好微调,这一问题得到有效解决,模型性能从基础模型的 75% 准确率 提升至 80%以上。

偏好微调将于今日正式上线,支持 gpt-4o-2024-08-06,并即将拓展至 gpt-4o-mini-2024-07-18。定价将与 监督式微调 保持一致,同时,明年初将支持OpenAI最新发布的模型版本。

四、Go 和 Java SDK 测试版

为了让更多开发者能够方便地使用 OpenAI 的 AI 服务,OpenAI 正式发布了 Go 语言和 Java 语言的官方开发工具包(SDK)测试版。这两个新成员的加入,与已有的 Python、Node.js 和 .NET 版本一起,让开发者可以用自己最熟悉的编程语言来开发 AI 应用。

1、全新的 Go SDK 专门针对高性能场景设计。Go 语言在处理并发任务时表现出色,特别适合构建需要快速响应的在线服务。通过这个 SDK,开发者可以轻松地在他们的 Go 项目中添加 AI 功能,无需复杂的配置过程。

2、Java SDK 的发布则是对企业开发者的重要支持。众所周知,Java 在企业级应用开发中占据重要地位,拥有庞大的用户群体和丰富的技术生态。新发布的 Java SDK 不仅提供了完整的类型支持,还包含了许多实用工具,可以帮助开发者更好地将 AI 能力整合到现有的企业系统中。

这次 SDK 的发布意味着,不管是构建高性能的网络服务,还是开发企业级应用,开发者都能找到最适合自己的工具,轻松地将 OpenAI 的先进 AI 能力融入到自己的项目中。