表单识别预览文档分类与Azure OpenAI集成

野成大叔了

2023-03-28 21:35 ·北京

表单识别器是一个应用的人工智能服务，可以满足您所有的文档理解需求。在最新的更新中，表单识别器现在添加了新的功能，如文档分类，新的预构建模型，如1098表单(有一些变体)，并使用Azure OpenAI模型来扩展查询的字段提取。

该服务的当前通用版本通过一组新的预览功能得到了增强。

最新预告有什么新内容？

文件分类

随着文档分类器模型的加入，现在这是一个具有一些优点的显式功能。

增加了基于文档类忽略文档的能力。
将一个文件拆分成多个文档
分析包含在文件中的单一类型的所有文档。

Form Recognizer Studio可以在几分钟内轻松训练自定义分类器模型，以消除应用程序需要处理的不同文档之间的歧义。现在就试着在表单识别器工作室提高您的文档处理能力。

查询字段

普通名词

读取和布局中条形码识别

二维码
代码39
代码128
通用产品代码(通用产品代码-A和通用产品代码-E)
PDF417

在中尝试新的条形码提取表单识别器工作室.

附加功能

查询字段是表单识别器API现在支持的一组新功能的一个示例。其他功能包括:

高分辨率图像

一些文档(如工程图纸)需要更高分辨率的输入，以准确提取文本和识别特征。由于增加了对高分辨率图像的支持，这些文档现在在原生高分辨率中受到支持。

字体

通过检测和识别字体，可以根据表单识别器的响应以更高的保真度重新创建文档，这还可以扩展文档的语义分段，这些分段以先前版本中引入的段落和段落角色开始。阅读和布局API提供了字体。

公式

LaTeX是表示数学公式的通用标准，Read和Layout APIs现在生成从文档中提取的公式的LaTeX表示。尝试用Studio中的Read或Layout提取公式。

新的1098预建模型

定制模型

自定义神经模型语言扩展

在大多数情况下，特别是对于非结构化文档，神经模型比模板模型表现得更好。神经模型现在支持其他语言。

西班牙语
德国人
法语
意大利的
荷兰人

自定义神经模型为具有几个不同模板的文档类型提供了单一模型的灵活性，请在表单识别器工作室.

自定义模板模型中的签名检测改进

自定义模板模型能够检测签名的存在，签名检测功能得到了显著改进，可以应对签名格式变化带来的挑战。

人工智能质量和语言覆盖范围的改进

除了所有这些更新之外，所有型号的AI质量都有改进。一些重要的更新包括:

收据模型扩展到热收据。
接收模式扩展到另外10种语言。
IDs模型现在支持澳大利亚钥匙通行证ID。
布局模型中的表格检测和提取改进。
针对单个数字或字符以及日期等常见实体的OCR改进。

以上内容源自Azure 博客-翻译

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴