微软Azure AI 文档智能：使用生成式 AI 进行字段提取OCR接口|ocr接口|pdf|微软|调用

Azure AI 文档智能是一项 AI 服务，它为你提供了一组简单的 API 和工作室体验，可有效提取内容、结构（如表格、段落部分和图形）以及针对特定文档类型预定义的字段或针对任何文档或表单的自定义字段。使用文档智能 API，你可以有效地大规模拆分、分类、提取任何文档或表单中的字段或内容。

参考链接：https://azureopenai.cloudallonline.com/?zxwwy262
微软 Azure AI 、AI语音、文字OCR等免费试用申请

Document Intelligence 继续为您的文档处理需求提供更多价值。我们最近宣布将自定义提取模型的价格从 50 美元/1000 页降至 30 美元/1000 页，我们还降低了批量折扣承诺层的价格。详细了解这些定价变化以及如何通过使用 Document Intelligence 最大限度地提高您的价值。

我们现在在公共预览中推出了一个新的预览 API，它通过新的和改进的功能增加了新的价值！

使用生成式 AI 提取文档字段

使用生成式 AI 进行文档处理通常涉及 RAG（检索增强生成）模式，用于字段提取等任务。现在，字段提取任务不再需要管理 RAG 的复杂性，例如对文档进行分块和矢量化、构建和管理搜索索引以及快速调整！

借助新的自定义字段提取功能，只需定义您的架构，即可让模型提取您需要的字段。基于生成式 AI 的模型提供了简化的体验，并提供了工具来改进预测结果（如果需要）。构建模型后，您就可以将模型集成到文档处理工作流程中。模型输出包括扎实的结果和置信度分数，提供护栏以确保提取的值与您的业务场景和现有工具和流程保持一致。

立即试用 AI Studio 中基于生成式 AI 的全新字段提取模型。按照快速入门为您的任何文档构建模型。此全新预构建功能目前在美国中北部地区可用。

新的预建模型

虽然自定义模型提供了训练模型以提取您需要处理的任何文档类型的特定模式的灵活性，但预建模型提供了从特定文档类型中提取定义模式的简单性和成本效益。Document Intelligence 继续扩展预建模型，以支持金融服务、税务和抵押贷款场景。借助针对常见文档类型的新模型，包括银行对账单、工资单、支票和抵押贷款表格 1004 和 1005，Document Intelligence 使处理这些常见文档类型变得容易。为所有税务表格添加统一的预建模型进一步简化了对文档进行分类和分析的挑战。尝试Document Intelligence Studio中的任何新预建模型。

可搜索的 PDF 输出

Document Intelligence 的分析结果始终是 JSON，使用当前预览版API，我们现在添加了可搜索 PDF 输出。从 PDF 文件开始，使用预构建的读取模型分析文档并生成可在应用中呈现的可搜索 PDF 响应，支持复制粘贴和搜索。可搜索 PDF 目前仅适用于 PDF 输入文件，将扩展为包含图像。尝试新的可搜索 PDF 响应，但只需在输入请求中添加output=PDF查询字符串参数即可。了解有关可搜索 PDF 的更多信息。

图表和数字的布局更新

此版本增强了图形处理功能，提供了一个从提取图形的每个文档中获取图形的选项。图形遵循点符号，其中每个图形按页面和 ID 进行索引，后跟页面内的图形，因此第一页上的第一个图形为 1.1。查看下面的布局响应，您会看到图形部分。要检索这个特定的图形，您可以再次调用获取结果 API，并将figures/1.1路径添加到 GET 分析响应调用以获取图形对象。当您使用 LLM 处理文档并需要专门处理图形时，这很有用。一种常见的模式是将每个图形（如饼图）转换为 markdown 格式的表格，然后可以将其嵌入回文本中。立即了解有关带有图形的更新布局 API 的更多信息。

批处理 API

新的批处理 API 简化了处理大量文档的过程。通过提供存储位置或要处理的文件列表，批处理 API 可让您通过一次 API 调用轻松处理大量文件。批处理 API 状态可启用，检查是否完成，识别失败或跳过的文件。尝试使用新的批处理 API来简化大量文档的处理。

统一分类和提取，更新模型组合

使用模型组合将多个自定义模型组合成单个模型，您便能够在单个 API 调用中对文档进行分类和分析。通过添加显式模型分类 API，现在只需两次调用，首先进行分类，然后进行分析或提取。新模型组合将其重新组合为单个 API，同时保留了显式分类模型的优势。使用模型组合，您现在可以将输入文件分类并拆分为多个文档，使用适当的分析模型分析每个文档，使用基于置信度的路由，并使用查询字段等附加功能扩展分析调用。更新后的模型组合可以轻松处理包含多个文档的大型活页夹，或者处理您不知道正在处理的文件类型的场景。立即在文档智能工作室中试用更新后的模型组合，或了解有关组合模型的更多信息。

OCR 模型更新

此版本包括对 OCR 模型的更新，以改进各种场景（包括密集表格和分辨率较低的扫描文档）的文本提取。

开始使用预览功能！

预览更新仅在少数几个选定区域可用，包括美国中北部、美国东部、美国西部2和西欧。API 版本为2024-07-31-preview。基于生成式 AI 的字段提取仅在美国中北部可用。