据官方消息,日前,上海人工智能实验室 OpenDataLab 团队、 DeepLink 团队及国产芯片厂家携手,先后完成了升腾、平头哥、沐曦、海光、燧原、摩尔线程、天数智芯、寒武纪、昆仑芯、太初元碁、壁仞等10余家主流国产算力的适配。此举旨在通过软硬件协同的全栈优化策略,深度适配各类算力,全面提升 MinerU 项目的生态兼容性与适应力,赋能更多开发者与企业高效构建大模型语料基石。
打开网易新闻 查看精彩图片
依托自研的VLM模型,MinerU 对 PDF 及复杂网页的元素捕捉准确率可达99%。无论是精密复杂的数学公式,还是嵌套繁琐的结构化表格MinerU 均能实现精准还原与结构化提取。
据了解,MinerU 的核心价值在于其跨行业的普适性与极高的解析精度。对于大模型研发而言,它是高效的语料生产引擎,能够支撑千万级规模文档向 AI-Ready 数据的快速转化;对于政企办公及科研领域,它则是精准的文档解析工具,极大提升了数字化办公的高质量发展。
近期,国内不少主流AI大模型相继推出更新版本,国产AI芯片企业也紧随其后适配新版本大模型。以太初元碁为例,记者向相关负责人了解到,截至目前其已完成包括DeepSeek、千问、智谱、MinerU、文心一言等在内的30多个AI大模型的国产算力适配工作,涵盖了Qwen3 Dense/MoE 系列模型、BAAI Embedding / Reranker系列模型、Qwen-VL、LLaVA等多模态理解系列模型;Stable-Diffusion、FLUX、Wan系列等多模态生成类模型;GLM、Seed-OSS、文心一言等大语言模型;以及MinerU、DeepSeek-OCR 2、Paddle-OCR等主流OCR模型,并将持续更新,加速推动智算与产业融合。
热门跟贴