打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

一、版本概览

github.com/infiniflow/ragflow 的 v0.25.1 于 2026 年 5 月 2 日发布。
这次版本更新可以说是一次“全面升级”:一方面对 Web API、HTTP API、RESTful 路由进行了大规模统一和重构,另一方面在文档解析、PDF 大文件处理、数据源同步、模型支持、问题修复等方面也有明显增强。

如果用一句话概括这个版本,可以说是:

统一接口、优化解析、增强同步、扩展模型、修复大量升级与使用问题。

下面将按照“Summary、Improvements、Model support、Model providers、Bug fixes、What's Changed”这几个部分,把 v0.25.1 的更新内容完整梳理出来,便于你快速了解这次升级的重点。

二、版本摘要 1)API 重构与统一

本次版本最核心的变化之一,就是API refactoring and unification
官方对各类接口做了标准化处理,把 Web API 统一为 RESTful 风格,同时对文档创建、索引流程进行了统一整合,并且保持了向后兼容。

这意味着什么?
意味着在后续开发、对接、维护过程中,接口风格会更加一致,逻辑会更清晰,使用和扩展的成本也会更低。对于长期集成 ragflow 的用户来说,这类变化通常会显著提升系统可维护性。

2)解析性能优化

本版本新增了OpenDataLoader PDF backend,并且对 PDF 解析做了进一步优化。
尤其值得注意的是:

  • • 对于超过 50 页的大 PDF,新增了lazy loading 和 chunked parsing

  • • 这样可以显著降低内存占用

  • • 对大文件处理的稳定性和效率都有提升

同时,版本里还提到对超过 300 页的大 PDF的解析失败问题做了修复,说明这次在 PDF 处理链路上改动非常集中,也非常关键。

3)数据源同步增强

这次更新还增强了多种数据源的删除文件同步能力,包括:

  • • Bitbucket

  • • Gmail

  • • Google Drive

  • • Airtable

  • • GitLab

  • • Dropbox

  • • Discord

这类能力的增强很实用,尤其适合需要保持知识库内容与外部数据源状态一致的场景。

4)模型支持更新

本版本新增或扩展了多个模型支持与模型提供方支持,其中包括:

  • • DeepSeek v4

  • • UCloud

  • • Astraflow

  • • Minimax

  • • Gitee

  • • SiliconFlow

  • • Aliyun

  • • Google

  • • Volcengine

  • • Moonshot

  • • Paddle 更多模型

这说明 ragflow 在模型生态兼容性上继续扩张,适配范围更广。

5)Bug 修复

官方还修复了多个重要问题,包括:

  • • v0.24.0 到 v0.25.0 升级期间的元数据可见性问题

  • • 重复聊天输出

  • • 文档与 SDK 搜索消息时 user_id 支持问题

  • • 上传流导致文件截断问题

  • • 大量接口、页面、同步、展示、解析相关问题

三、详细更新内容

下面进入重点部分,把本次更新按类别完整展开。

四、API 重构与 RESTful 统一

v0.25.1 的大量提交都集中在 API 重构上,说明这次版本的一个主线就是:把原来分散的接口逐步整合到统一的 RESTful 设计下

1. 文档相关接口统一

本次对以下内容做了统一或迁移:

  • • document get_filter

  • • document infos

  • • document delete api

  • • document create flows

  • • document metadata config update API

  • • file2document

  • • doc metadata update

  • • document upload_and_parse API

  • • document run api

  • • document thumbnails API

  • • doc parse API 的清理

  • • doc batch change status

  • • document upload info used in chat

  • • document metadata config

这表明文档相关链路几乎全线被梳理了一遍,从创建、上传、解析、运行、删除、缩略图、信息获取、元数据更新,到批量状态变更都进行了重构。

2. Chat、Search、Chunk、MCP、Agent 等 REST 化

除了文档链路,本次还对多个系统级模块进行了 REST API 改造或迁移:

  • • chat 和 search 的 restful API 对齐

  • • chunk APIs 迁移为 RESTful routes

  • • MCP APIs 迁移到 RESTful api

  • • agent webhook routes 迁移到 REST APIs

  • • system apis 重构

  • • stats_api 和 plugin_api 重构

  • • artifact API 迁移

  • • user REST API 重构

  • • tenant api 重构

  • • task API 新增

这些变化说明 ragflow 正在系统性地统一整个 API 体系,不只是局部修修补补,而是向着更一致、更规范的服务端接口结构推进。

3. 向后兼容支持

本次还加入了backward compat APIs
这非常重要,因为 API 大规模重构最怕影响旧系统接入,而向后兼容接口的加入,可以帮助已有用户平滑过渡。

4. 其他接口调整

版本中还包括:

  • • restore openai-compatible chat completions api

  • • align list operations and strict mode

  • • search id 或 _id 都可支持

  • • query param type 修复

  • • allow use image2text as chat model

  • • support release in agent update api

  • • fix api user patch verb does not work

这些看似分散,但都属于 API 层面的稳定性和一致性修复。

五、文档解析与 PDF 处理优化

这是本版本另一个非常突出的亮点。

1. 新增 OpenDataLoader PDF parser backend

版本中新增了OpenDataLoader PDF parser backend
这意味着 ragflow 在 PDF 接入和解析后端上又多了一种可用方案。

2. 大 PDF 的懒加载与分块解析

对于超过 50 页的 PDF,新增了:

  • • lazy loading

  • • chunked parsing

这类机制的核心好处是减少一次性加载带来的资源压力,尤其适合大文档、扫描件、长报告、手册类文件。

3. 路由到 native chunking endpoints

版本里还提到:

  • • route docling parsing through native chunking endpoints

说明解析流程和 chunk 处理流程进一步贴近统一的原生分块接口。

4. 删除硬编码页数限制

修复了:

  • • hardcoded page limits causing parsing failures on large PDFs (>300 pages)

这意味着超大 PDF 的解析失败问题得到处理,和前面的懒加载、分块解析形成配套优化。

5. MinerU 相关修复

版本中还包括对 MinerU 解析链路的多个修复:

  • • switch MinerU API endpoint to /pdf_parse

  • • MinerU 3.x output discovery and API contract

说明 PDF 解析后端适配上做了明显调整。

6. 其他解析相关改进

还有这些内容:

  • • manual naive parser position extraction fallback

  • • fix isinstance before len in VariableAssigner _remove_first/_remove_last

  • • fix thumbnail issue in chat

  • • update rootAsHeadingTip

  • • optimize title chunk

  • • docling parse routing

  • • performance improvements for image loading and parse_into_bboxes

整体来看,这一版的解析优化非常系统,既有性能优化,也有兼容修复,还有后端适配。

六、数据源同步能力增强

本版本对“同步删除文件”这个能力做了非常广泛的扩展。

1. 已支持删除同步的数据源

本次支持同步删除文件的连接器包括:

  • • Bitbucket

  • • Gmail

  • • Google Drive

  • • Airtable

  • • GitLab

  • • Dropbox

  • • Discord

2. Google Drive 与 Gmail 的进一步优化

还特别提到:

  • • optimize memory payload and enable sync deletion

  • • google authentication - gmail && google-drive

说明这两个数据源不仅支持删除同步,还修复了认证与内存负载方面的问题。

3. 其他同步相关修复

还有:

  • • skip unsupported files before download

  • • prune deleted doc chunks from retrieval

这意味着删掉的内容在同步、下载、检索链路中会更合理地被处理,避免脏数据继续影响结果。

七、模型支持与模型提供方更新 1. 新增模型支持

本版本新增DeepSeek v4支持。
这是本次模型能力更新里最醒目的内容之一。

2. 新增模型提供方

版本中新增或补充了多个 provider 支持:

  • • UCloud

  • • Astraflow

  • • Minimax

  • • Gitee

  • • SiliconFlow

  • • Aliyun

  • • Google

  • • Volcengine

  • • Moonshot

3. Paddle 相关扩展

版本中还提到:

  • • more model for paddle

  • • add deepseek and moonshot model json

  • • update based on more model support

这表示模型配置和适配层做了扩展,模型选择更加丰富。

4. 其他模型相关修复

还包括:

  • • model in GO refactor

  • • model type to model class

  • • remove model_bundle.go

  • • fix think tags in final chat answer

  • • fix DeepSeek think history

  • • normalize think tags in final chat answer

  • • allow image2text as chat model

这表明模型调用和输出处理链路都进行了整理。

八、聊天、检索、Agent、GraphRAG 等能力调整 1. 聊天功能修复

本版本修复了多个聊天相关问题,其中最典型的是:

  • • 修复了重复聊天输出

  • • 修复了思考模型在聊天页输出重复文本

  • • 修复了chat shared page 中 canvas SSE fetch 导致的 spurious 103 error

  • • 修复了聊天页底部按钮点击无法弹出对话框的问题

  • • 修复了聊天中的 thumbnails 问题

  • • 修复了chat recommendation 和 thumbup API 对齐问题

  • • 修复了widget 页面右下角按钮无法显示弹窗的问题

  • • 修复了duplicate chat output

  • • 修复了final chat answer 中 think tags 的规范化问题

  • • 修复了DeepSeek think history 相关问题

  • • 修复了image2text 可作为 chat model 使用的问题

这些修复说明聊天页面、输出流、推荐交互、缩略图、模型思考历史等多个环节都进行了稳定性处理。

2. 检索与召回调整

本版本还修复和增强了检索相关能力,包括:

  • • 支持search id 或 _id

  • • 修复allow search id or _id

  • • 修复retrieval fallback comments

  • • 修复prune deleted doc chunks from retrieval

  • • 在 GO 中实现retrieval_test

  • • 将chunk retrieval_test 和 knowledge_graph迁移到 REST API endpoints

  • • 修复enable sync deleted file 后对检索的影响

这些更新说明检索链路在 ID 兼容性、删除内容过滤、测试接口、REST 化方面都做了调整。

3. Agent 相关更新

Agent 模块在这一版也有明显动作,包括:

  • • 新增Agent api

  • • 将agent webhook routes迁移到 REST APIs

  • • 修复agent toolcall null response

  • • 修复schema validation

  • • 修复DeepSeek think history

  • • 修复support release in agent update api

  • • 优化agent reset conversation variable defaults

  • • 修复prioritize explore session ID and reset default conversation variables

说明 Agent 的 API、变量默认值、工具调用返回、发布支持、会话优先级等都进行了整理。

4. GraphRAG 相关修复

版本中与 GraphRAG 相关的内容也不少:

  • • 修复GraphRAG entity resolution merges以避免 graph mutation races

  • • 修复delete graphrag raptor

  • • 修复graph task type

  • • 修复delete graph

  • • 修复GraphRAG icon not displaying

  • • 新增persist RAPTOR layer metadata on summary chunks

  • • 新增persist PDF bookmark outline as document metadata

这些改动说明 GraphRAG、RAPTOR、图任务、图删除、元数据持久化和图标展示都经历了较多修复。

九、数据与元数据相关更新 1. 元数据可见性与迁移问题修复

这次版本明确修复了:

  • • v0.24.0 到 v0.25.0 升级期间的metadata visibility issues

  • Recall Test Page Metadata Not Displaying

  • document level auto metadata config missing after save

  • document level auto metadata config

  • metadata parsing regression for upgraded v0.24 datasets

  • metadata config

  • doc metadata update

  • migrate document metadata config update API

  • migrate doc upload info used in chat

  • document level auto metadata config missing after save

这些问题都和升级后的元数据展示、保存、解析、配置迁移有关,属于版本升级中的高频痛点,这次都做了修复和重构。

2. 元数据与数据集操作

版本中还涉及:

  • • dataset management endpoints

  • • visit dataset error

  • • file logs not displayed in dataset ingestion page

  • • dataset: general chunk method 配置选项缺失

  • • fix api and sdk support of searching message with user_id

  • • fix document and sdk support of searching message with user_id

  • • fix query param type

  • • fix preserve infinity available_int zero filter

  • • fix case-insensitive matching for manual meta_data_filter in / not in list values

这说明数据集、消息搜索、过滤条件、日志展示、chunk 配置等也都在同步调整。

3. 数据库与迁移文档

版本还新增了:

  • • database schema and migration guide

这表示官方提供了数据库结构和迁移指引,有助于用户理解升级变化。

十、连接器与数据源同步的进一步扩展

前面已经提到删除文件同步能力增强,这里再完整整理一下本版本涉及的连接器和相关修复。

1. 新增或增强删除同步能力的连接器

这次明确支持同步删除文件的场景包括:

  • • Bitbucket

  • • Gmail

  • • Google Drive

  • • Airtable

  • • GitLab

  • • Dropbox

  • • Discord

2. 额外修复与增强

还包括:

  • • fix blob sync: skip unsupported files before download

  • • fix google authentication - gmail && google-drive

  • • optimize memory payload and enable sync deletion

  • • enable sync deleted files in gitlab

  • • support deleted-file sync in dropbox

  • • enable sync deleted file for Discord

  • • enable sync deleted files in Bitbucket

  • • enable sync deleted files for Gmail && fix google drive issues

  • • enable sync deleted file in airtable

这些条目说明连接器侧的删除同步能力是本版本的重要工作方向之一,而且覆盖面很广。

十一、Go 端与服务端能力更新

这一版在 Go 相关能力上也做了很多补充和修复。

1. 新增和扩展 provider

Go 端新增或扩展了这些模型提供方:

  • • UCloud

  • • Astraflow

  • • minimax

  • • gitee

  • • siliconflow

  • • aliyun

  • • google

  • • volcengine

  • • moonshot

  • • drop instance models

2. Go 端其他更新

还有:

  • • add balance command

  • • update db model

  • • implement provider: Moonshot

  • • implement provider: volcengine

  • • implement provider: MiniMax

  • • fix compilation

  • • update chat URL

  • • update create model instance command

  • • refactor model in GO

  • • refactor model type to model class

  • • simplify Encode

  • • remove model_bundle.go, modify chat_session.go

  • • add new provider

  • • add redis zcard

  • • add missing timeout to ragflow server health check

  • • add executor.shutdown

  • • go: fix compilation

这些内容体现出 Go 端在 provider、编译、健康检查、聊天会话、模型抽象、命令行、数据库、Redis 等方面都有同步维护。

十二、前端、页面与交互修复

本版本的 UI 和页面问题修复也不少。

1. 页面和按钮问题

包括:

  • • chat 页面重复输出修复

  • • widget 页面右下角按钮弹窗问题修复

  • • PaddleOCR dialog 按钮样式问题修复

  • • GraphRAG 图标不显示修复

  • • thumbnails issue in chat 修复

  • • file logs table pipeline column header 显示错误修复

  • • file logs not displayed in dataset ingestion page 修复

2. 其他页面相关修复

还有:

  • • Recall Test Page Metadata Not Displaying

  • • visit dataset error

  • • fix button styles in PaddleOCR dialog

  • • fix widget page dialog display

  • • fix chart or table related display problems

  • • fix v0.24 to v0.25 metadata visibility issues

  • • fix chat shared page SSE fetch error

这些修复说明页面体验、表格显示、对话框、日志、缩略图、图标展示等都在这一版被持续整理。

十三、文档、说明与发布相关内容

本版本还包含多项文档和发布说明更新:

  • • add DeepWiki developer guide page

  • • user-level memory is supported in v0.25.0

  • • v0.25.0 release notes

  • • two PDF parser optimizers are supported as of v0.25.0

  • • fix API key guide typo

  • • updated a 0.25-specific faq

  • • update API document

  • • update version references to v0.25.1 in READMEs and docs

  • • add database schema and migration guide

  • • updated Title chunker references

  • • add shared UI component lock convention to CLAUDE.md

  • • release note update

这些内容说明本版本不仅改了代码,也补充和维护了大量文档、指南、FAQ、版本引用和迁移说明。

十四、安全、稳定性与兼容性修复

这一版还针对不少稳定性和安全性问题进行了处理。

1. 安全相关

包括:

  • • validate URL scheme and resolved IP before crawling to prevent SSRF

这是一个非常关键的安全修复,说明抓取流程对 URL 与 IP 做了更严格校验。

2. 上传与文件处理稳定性

包括:

  • • fix upload stream handling to prevent truncated files

  • • skip unsupported files before download

  • • add executor.shutdown

  • • add missing timeout to health check

这些修复提升了上传、下载、任务执行和健康检查的稳定性。

3. 兼容性与数据处理

包括:

  • • fix Infinity table-not-exist error

  • • preserve infinity available_int zero filter

  • • fix case-insensitive matching for manual meta_data_filter

  • • fix query param type

  • • always return success if no such task id

  • • fix api user patch verb does not work

  • • fix commit override from api-key to api_key

  • • fix create folder does not accept FOLDER

  • • fix allow search id or _id

这些都属于接口行为、参数兼容、过滤逻辑和异常返回方面的

十五、继续整理:更多 API、任务、检索与系统修复 1. 任务与调度相关

本版本在任务管理上也有补充:

  • • 新增task API

  • • 修复always return success if no such task id

  • • 修复add executor.shutdown

  • • 修复add missing timeout to ragflow server health check

这些内容说明任务创建、查询、执行收尾和健康检查链路都更完整了。

2. 系统与基础接口调整

本次还涉及:

  • system apis重构

  • tenant api重构

  • stats_api and plugin_api重构

  • REST API langfuse api-key调整

  • API connectors重构

  • api document更新

  • api refactor: stats_api and plugin_api

  • refactor user REST API

  • fix api user patch verb does not work

  • fix commit override from api-key to api_key

这类工作虽然不直接面向业务功能,但对系统统一性和长期维护很重要。

十六、上传、文件、缩略图与解析链路修复 1. 文件上传与流处理

这次修复了:

  • • upload stream handling to prevent truncated files

这说明上传过程中断文件被截断的问题得到处理。

2. 文件与缩略图

还包括:

  • • thumbnails issue in chat

  • • migrate document thumbnails API

  • • fix thumbnails issue in chat

  • • The GraphRAG icon is not displaying

  • • button styles in PaddleOCR dialog not applying correctly

这些改动涉及缩略图接口、聊天页缩略图展示、图标展示、按钮样式等,属于前端体验与接口联动修复。

3. 文件日志与数据集页面

版本中还修复:

  • • file logs not displayed in dataset ingestion page

  • • FileLogsTable pipeline column header displaying incorrectly

  • • visit dataset error

这些问题都属于数据集和文件日志页面的可视化与可访问性修复。

十七、继续补充:解析器、Chunk、RAPTOR、Title Chunk 等优化

本版本中与解析、Chunk 组织、标题处理相关的条目也很多。

1. Chunk 与标题优化

包括:

  • • optimize title chunk

  • • updated Title chunker references

  • • route docling parsing through native chunking endpoints

  • • migrate chunk APIs to RESTful routes

  • • migrate chunk retrieval_test and knowledge_graph to REST API endpoints

这说明 chunk 处理和标题处理作为文档分析的关键环节,在这一版被集中整理。

2. RAPTOR 与 PDF 元数据

还包括:

  • • persist RAPTOR layer metadata on summary chunks

  • • persist PDF bookmark outline as document metadata

  • • fix delete graphrag raptor

  • • RAPTOR “Generation scope” reset to “Single file” when selecting “Dataset”

这些内容说明 RAPTOR 层的元数据、书签大纲、删除逻辑和生成范围都做了处理。

3. 解析位置与回退逻辑

包括:

  • • manual naive parser position extraction fallback

  • • doc change parser

  • • switch MinerU API endpoint to /pdf_parse

  • • MinerU 3.x output discovery and API contract

这些都是解析后端的细节优化。

十八、继续补充:搜索、过滤、消息与用户 ID

这一版对搜索与消息相关的兼容问题也做了很多修正。

1. 搜索消息与 user_id

包括:

  • • document and sdk support of searching message with user_id

  • • searching message with user_id

  • • allow search id or _id

说明搜索接口在用户维度和 ID 兼容维度上都做了扩展。

2. 过滤条件修复

包括:

  • • preserve infinity available_int zero filter

  • • case-insensitive matching for manual meta_data_filter in / not in list values

  • • fix query param type

这些修复让过滤行为更符合预期,避免因类型、大小写、零值而出现结果偏差。

3. 检索测试与知识图谱

包括:

  • • implement retrieval_test in GO

  • • migrate chunk retrieval_test and knowledge_graph to REST API endpoints

  • • add retrieval fallback comments

说明检索测试和知识图谱相关接口也在 REST 化。

十九、继续补充:数据库、模型、依赖与构建 1. 数据库与迁移

包括:

  • • add database schema and migration guide

  • • update db model

  • • handle Infinity table-not-exist error

  • • preserve infinity available_int zero filter

2. 模型抽象与实现

包括:

  • • model refactor in GO

  • • model type to model class

  • • remove model_bundle.go, modify chat_session.go

  • • more model for paddle

  • • add deepseek and moonshot model json

  • • add drop instance models

3. 依赖与构建

包括:

  • • bump lxml from 6.0.2 to 6.1.0

  • • bump grpc from 1.66.2 to 1.79.3

  • • fix uv.lock

  • • fix compilation

  • • go: fix compilation

这些内容说明本版本也完成了依赖更新和编译层面的维护。

二十、补充:更多连接器删除同步场景

为了更清晰,这里再把本次新增或修复的删除同步能力统一总结一遍:

  • • Bitbucket 删除文件同步

  • • Gmail 删除文件同步

  • • Google Drive 删除文件同步

  • • Airtable 删除文件同步

  • • GitLab 删除文件同步

  • • Dropbox 删除文件同步

  • • Discord 删除文件同步

以及与之相关的修复:

  • • skip unsupported files before download

  • • optimize memory payload and enable sync deletion

  • • fix google authentication - gmail && google-drive

  • • enable sync deleted files for Gmail && fix google drive issues

这部分是本次连接器能力提升的重点之一。

二十一、最终总结:v0.25.1 到底强在哪里

代码地址:github.com/infiniflow/ragflow

综合这次更新可以看到,ragflow v0.25.1 不是一个单点修复版本,而是一个覆盖面非常广的版本,主要体现在以下几个方向:

1. 接口全面统一

Web API、HTTP API、REST API 被大范围统一,文档、聊天、搜索、chunk、MCP、Agent、统计、插件、租户、任务等链路都在收敛到更一致的架构。

2. 解析能力更强

新增 OpenDataLoader PDF backend,支持大 PDF 懒加载和分块解析,修复超大 PDF 解析失败,MinerU 适配也有修正,PDF 处理能力明显增强。

3. 删除同步更全面

多个连接器支持同步删除文件,尤其是 Bitbucket、Gmail、Google Drive、Airtable、GitLab、Dropbox、Discord 等场景,进一步提升了知识库与外部数据源的一致性。

4. 模型生态继续扩展

DeepSeek v4、UCloud、Astraflow、Minimax、Gitee、SiliconFlow、Aliyun、Google、Volcengine、Moonshot 等支持陆续加入,模型选择更丰富。

5. 稳定性修复很多

包括重复聊天输出、元数据可见性、上传截断、检索过滤、页面显示、图标样式、任务返回、健康检查、编译问题等,覆盖了前后端和服务端的多类问题。

6. 文档和迁移信息更完整

版本说明、FAQ、API 文档、迁移指南、数据库 schema、版本引用等都有更新,便于升级和排查。

我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。 欢迎关注“福大大架构师每日一题”,发消息可获得面试资料,让AI助力您的未来发展。