OpenAI于12天12场发布会的第9天,发布了一系列面向开发者的新工具和功能升级,旨在提升性能、灵活性和成本效益,进一步推动 AI 技术的发展。

打开网易新闻 查看精彩图片

OpenAI o1 模型:推理与效率的革

OpenAI o1 是 OpenAI 最新推出的推理模型,以其高精度处理复杂多步骤任务的能力,正式向开发者推出。作为 OpenAI o1-preview 的继任者,o1 模型已经在简化客户支持、优化供应链决策和预测复杂财务趋势等方面展现出巨大潜力。

打开网易新闻 查看精彩图片

o1 模型的关键功能包括:

1. 函数调用:允许 o1 无缝连接到外部数据和 API,增强了模型的实用性。

2. 结构化输出:生成遵守自定义 JSON 架构的响应,提高了数据的可用性。

3. 开发人员消息:允许定义模型的语气、样式和其他行为指导,增强了模型的适应性。

4. 视觉功能:对图像进行推理,解锁了视觉输入重要的新应用领域。

5. 更低延迟:o1 使用的推理令牌平均比 o1-preview 少 60%,提升了响应速度。

6. 'reasoning_effort' API 参数:允许控制模型在回答之前思考的时间,增加了灵活性。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

实时 API 更新:提升对话体验

OpenAI 还宣布了实时 API 的一系列更新,包括直接 WebRTC 集成、GPT-4o 音频降价 60%,以及以以前音频速率的十分之一支持 GPT-4o mini。这些更新旨在创建低延迟、自然的对话体验,适用于语音助手、实时翻译工具等多种应用场景。

打开网易新闻 查看精彩图片

WebRTC 集成:WebRTC 作为一种开放标准,使得跨平台构建和扩展实时语音产品变得更加容易。OpenAI 的 WebRTC 集成处理音频编码、流式处理、噪声抑制和拥塞控制,提供了流畅且响应迅速的交互体验。

打开网易新闻 查看精彩图片

成本效益提升:GPT-4o 和 GPT-4o mini 实时快照的发布,不仅改进了语音质量,提高了输入效率,还降低了成本。音频代币价格降低至 40 美元/1M 输入代币和 80 美元/1M 输出代币,而 GPT-4o mini 的价格更是降至 10 美元/1M 输入代币和 20 美元/1M 输出代币。

控制响应的新功能:OpenAI 还提供了并发带外响应、自定义输入上下文和受控的响应时间等功能,以便开发者更轻松地提供卓越的语音驱动体验。

首选项微调:个性化模型定制

首选项微调是一种新的模型自定义技术,它使用直接首选项优化(DPO)教模型区分首选输出和非首选输出。

这种方法特别适合于语气、风格和创造力重要的主观任务,能够将性能从基本模型中的 75% 准确率提高到 80% 以上。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

Go 和 Java SDK:扩展开发者生态

最后,OpenAI 推出了两个新的官方 SDK,分别为 Go 和 Java 语言。Go SDK 适合处理并发和构建可扩展的 API 和后端系统。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

OpenAI Java SDK 提供类型化的请求和响应对象,以及用于管理 API 请求的有用实用程序。

打开网易新闻 查看精彩图片

这些 SDK 的推出,进一步扩展了 OpenAI API 的开发者生态,无论开发者选择哪种编程语言,都能轻松使用 OpenAI 的模型。

结语:

OpenAI 的这一系列更新,无疑将为 AI 技术的发展带来新的活力。通过提供更强大的模型和工具,OpenAI 正在帮助开发者构建更智能、更高效的应用程序,推动人工智能技术的边界不断扩展。