生成式 AI 技术的应用正在加速,这得益于它们在各个行业领域提供的变革潜力。Azure AI使 组织能够根据其需求创建交互式和响应式 AI 解决方案, 在帮助 企业有效利用生成式 AI 方面发挥着重要作用。借助新的自定义字段提取预览,您可以利用生成式 AI 高效地从文档中提取字段,确保标准化输出和可重复的流程以支持文档自动化工作流。
参考链接:https://azureopenai.cloudallonline.com/?zxwwy260
微软Azure AI OCR接口、OpenAI 免费试用申请
使用大型语言模型进行字段提取
要使用大型语言模型 ( LLM ) 或生成式 AI从文档中提取字段, 您 通常需要创建一个复杂的编排工作流,如下所示,其中包括多个服务来管理文本提取、文档分块、矢量化、搜索索引创建和提示工程等任务。
然而,这种方法也带来了一些挑战,
- 提示的大小和复杂性:管理提示以适应变化可能很困难,从而导致大量提示和相关成本。
- 结果不一致:同一文档多次运行后结果可能会有所不同,从而导致可靠性问题。
- 基础:确保准确提取和追踪价值观,以解决幻觉问题。
- 缺乏信心分数:缺乏信心分数使得下游流程的自动化变得困难。
想象一下,无需开发自己的工作流程即可利用生成式 AI 的优势。 借助新的自定义字段提取功能,您只需定义架构,让模型提取必要的字段,并更正任何预测错误。模型训练完成后,您只需调用一次 API 即可将模型集成到文档处理工作流程中。这种方法提供了可靠的结果和置信度分数,提供了保护措施以确保提取的值符合您的业务需求。
Azure AI 文档智能
Azure AI 文档智能是一项 AI 服务,提供一组精简的 API 和工作室体验,可高效提取内容、结构(如表格、段落、章节和图形)和字段 - 无论是针对特定文档类型预定义的还是针对任何文档或表单自定义的。使用文档智能 API,您可以轻松地大规模拆分、分类和提取任何文档或表单中的字段或内容,以满足您的业务需求。 最新的文档字段提取模型 利用生成式 AI 从各种可视化模板中的文档中提取用户指定的字段。这种自 定义提取 模型将文档理解的强大功能与大型语言模型 (LLM) 以及自定义提取功能的严谨性和架构相结合,可在几分钟内创建一个高精度模型。
为什么选择 Azure 文档字段提取?
- 准确性和可靠性:我们的 AI 模型旨在提供准确的数据提取、减少错误并提高效率。
- 可扩展性:轻松扩展您的文档处理能力以满足您不断增长的业务需求。
- 可定制性:根据您的特定要求定制我们的提取模型,确保完美适合您独特的工作流程。
- 扎实的结果:对文档中提取的数据进行本地化,确保响应是从内容中生成的,从而实现人工审核工作流程。
- 置信度分数:利用置信度分数,最大限度地提高自动化工作流程的效率并最大限度地降低成本。
- 成本效益:通过我们的新定价,您只需花费极低的成本即可享受一流的 AI 技术。
构建自定义字段提取 模型
新的字段提取模型可在Azure AI Studio中的AI 服务- Vision + Document下使用。首先创建一个项目来处理您的文档。
- 选择项目后,您现在应该进入“定义架构”窗口。 您上传的文件已列出,您可以使用下拉选项选择文件。您可以通过单击按钮开始添加字段。输入要提取的字段的名称、描述和类型。添加所有字段后,选择屏幕底部的保存按钮。
- Add new field
- 保存架构后,将分析所有上传的训练文档,并自动提取字段值。自动提取的字段标记为。查看预测值。如果字段值不正确或未提取,您可以将鼠标悬停在预测字段上。选择编辑按钮进行更改,并在查看并更正所有训练文档的标签后,继续构建模型。
- Predicted
- 在“构建模型”对话框页面上,提供唯一的模型名称和(可选)描述。选择 以启动训练过程。生成模型立即训练!状态更改为成功后,刷新页面以选择模型。
- Build
- 模型训练完成后,您可以通过选择按钮来测试您的模型。 上传您的测试文件并选择从文档中提取字段值。通过评估每个字段的结果来验证您的模型准确性。
- Test
- Run Analysis
您可以使用REST API或客户端库提交文档进行分析。自定义生成式 AI 模型可以高效地从文档中提取简单字段,而无需标记样本。但是,提供少量标记样本可以显著提高更复杂字段和用户定义字段(如表格)的提取准确率。
业务场景
- 贷款和抵押贷款申请 - 贷款和抵押贷款申请流程的自动化使银行、贷方和政府实体能够更快地处理贷款和抵押贷款申请。
- 金融服务——使用新的自定义字段提取模型,分析财务报告和资产管理报告等复杂文档。
- 合同生命周期管理——建立自定义字段提取模型,从各种合同类型中提取字段、条款和义务。
- 费用管理 - 需要解析来自不同零售商和企业的收据和发票以验证费用。自定义字段提取可以提取不同格式和具有不同模板的文档中的费用。
热门跟贴