最近密切接触了8家AI初创团队,我带了一个疑问:人效最高、以一当十的明星创业公司,都是怎么搭企业知识库的?

有个很强的感受:方法可能不同,但越牛的公司,在追求效率上越是不遗余力。

甚至有几个在五道口、知春里的00后founder,早就不止是企业知识库,把自己的日常数据也全面解析了。

用投资人的眼光看,越是早期的草台班子,谁的企业数据库做的越细、越好,越有可能在拼刺刀一样的竞争里,靠细节杀出来。

对有基础的中大型公司,数据系统某种程度上也决定了公司发展的上限和未来。

我学了几招怎么搭企业知识库,给大家看看效果。

大模型时代文本处理的理想引擎:TextIn

乍一看,很多公司都用Dify、ima、扣子等来搭知识库,但我好奇背后的解析能力、context处理、长文本、图片识别等等,都是怎么实现的。

然后发现,很多是基于 TextIn的能力。

TextIn是一个智能文件数据处理平台,“扫描全能王”、“名片全能王”、“启信宝”等等都是他们家的,可以说企业痛点和ToB文档处理经验丰富。

想有高质量数据,首先得文档解析,是知识库数据集的源头,它直接决定了问答的准确性。

特别是在海量文档规模场景下,文档解析服务质量直接决定了知识库产品的终端性能

在知识库交付的过程中,经常会出现这样的问题:

表格错位、公式展示不出来、标题识别错乱,没有层级关系、图文结构信息丢失等。

都会导致后续的分块、检索召回动作都是基于一个错误的数据源基础上错上加错,这也是为什么很多AI模型产品直接用处理不好。

大小公司,都想找到一种相对最优的解析服务,尽可能的提升数据源质量,降低数据治理成本。

下面带大家看看怎么解析数据。

文档解析,一键转Markdown

要想LLM大模型性能更佳,我们需要喂给模型看得懂的高质量数据。

像研报、图表这种,人能看懂,大模型就不一定能理解。

那有没有一种方法,能让我们把各种文档“读懂”,再喂给大模型使用呢?

TextIn用了分区提取的方式,先厘清逻辑,再分别识别转成Markdown,图文对应,数字精准,我用的时候就没发现错。

之前用传统OCR工具,直接从PDF中提取文本,结果经常是乱序、缺失、格式错乱

因为实际文档中常包含公式、表格、手写批注、文字段落等,各种难以提取的元素。

TextIn的表格处理,活很细。

看结果就是格式识别很准确、细节数字很精确,小数点后面再多位、灰色的注释小数字,都能有效提炼。

英文为主的复杂图表,人看了都模糊。

像这个复杂的长文档,放以前我想处理表格数据、验算、转化格式,AI工具很难找到一个能用的。

上百页的表格文件,看右侧解析的效果,把表格就一个一个很清晰摘取了下来。

转Markdown,后面再想加工就容易多了!

即便有日文、格式不统一,处理起来也不在话下。

还有像这样图片歪歪扭扭的,字迹边缘变形。

可以先用“切边矫正”把倾斜的正过来,然后再用“去水印”把覆盖在字迹上的干扰去掉。

单独一个小功能拎出来,都是刚需。

甚至拿来处理图像,都快能当PS来用了。

我自己的产品,“意识永藏”,公司介绍PPT,也可以做系统摘取。

很多时候拿到一个PDF,想引用或者加工,很不方便,有了TextIn解析,再下载成新的可编辑的格式,才是开启了AI的第一步。

海外发票有的密密麻麻让人头疼,解析之后立刻变清爽了!

在TextIn基础上,用扣子搭建企业知识库

再给大家演示一下,企业知识库可以怎么用扣子来搭。

从扣子主页进去后,在“工作空间-资源库”中,我们可以在右上角直接添加资源。

创建知识库成功以后,就可以导入我们想要的文件。

企业里一大痛点是:信息没沉淀、全在人的脑子里,以至于来了新人或者换了人,很多事情就很难接上。

而一个信息齐全、历史线索清晰、数据可检索可复用的数据库,对有目标的团队来说,就太有帮助了。

如果是在扣子直接导入Excel、PDF、PPT、Word等等各种格式的文件,就又回到了开始那个问题:复杂图表数据等可能解析不明白。

这里我就直接导入了TextIn解析过后的Markdown格式,模型再去理解和提取,准确度就高了很多。

这也是为什么很多企业知识库形同虚设的原因——数据太差了,既有的信息没经过加工整理。

点左上角加号➕,再之后我们就可以根据公司需要,用扣子灵活创建智能体了。

比方说,专属自家的人力、财务、法务智能体,接入相关知识库,就像是给原本的智能体接上了细分垂直的检索图书馆。

像这里,为了给公司小白普及技术原理,我就设计了一个技术科普智能体,关联有相关高质量信息和我们自身个性化条件的知识库。

而智能体效果好的前提,就是知识库质量高,而知识库的质量,又源自于TextIn的信息处理。

企业调用API,效率就是性价比

如果你也想给自己、给公司,建设专属的AI知识库,特别是有大量PDF文件、手写资料、复杂表格或多语言文档需要处理——

强烈推荐你试试TextIn。

它可能不只是解决一个技术问题,而是能彻底改变你的工作方式。

即便是AI圈内,也有很多人低估了文档解析的重要性。

但实际上,文档质量决定了AI理解的上限

如果你正在构建RAG、Agent 或知识库系统,也不妨考虑将 TextIn作为你的文档预处理引擎。

调用API也特别方便,而且成本不高。

我们需要的,不只是一个“能跑”的工具,而是一个稳定、准确、快速、可持续迭代的文档理解工具

把公司或者自己的数据,更好保留下来,也将是非常有价值、有意义的一件事吧……

如需体验TextIn,可以扫描下方二维码,添加福利官小助手,获取免费额度;

如需深度测试或大批量处理,也支持本地部署。