始智AI wisemodel.cn开源社区
始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。欢迎《》以及《》。wisemodel社区上线,H800/H20等资源上线,价格实惠,灵活方便,支持在线微调训练模型,及模型和,并。
01
GOT-OCR-2.0介绍
阶跃星辰多模态团队最近开源了GOT-OCR-2.0模型,模型也已经发布在了始智AI wisemodel.cn开源社区,wisemodel社区上也为大家准备好了模型的镜像,如果需要对模型进行微调和部署体验,都可以到wisemodel社区进行使用。
https://wisemodel.cn/models/ucaslcl/GOT_OCR2_0
前段时间GOT-OCR-2.0在Hugging Face 上线仅 3 天时,下载量就超过了 100k,一举登上 HF Trending 榜首。现在不用魔法就可以在wisemodel开源社区下载和使用GOT-OCR-2.0模型了。
为什么要推出 OCR-2.0?
视觉的压缩表征一直以来是该团队关注的重要研究方向,即使用多少 token 能够近乎无损的表征一幅图像,OCR 则是测试压缩表征的重要场景之一。通过对图像中密集文字的编、解码,可以非常直观地探索出视觉模型在信息压缩上的能力边界。在 OCR-2.0 项目中,研究团队惊讶得发现模型只需要 256 个 token 即可准确地编码 4000+ 字的 pdf 截图,远低于当前主流方案中依靠上千 tokens 来编解码 pdf 图像的多模态大模型,为未来视觉和多模态模型的研发提供一些新的思路。
GOT-OCR-2.0模型的通用性
通用 OCR 模型需要够通用,体现在输入输出都要通用上。GOT 的通用具体表现为:
在输入方面,模型支持 Scene Text OCR、Document OCR、Fine-grained OCR、More General OCR 等任务。
输出方面,模型同时支持 plain texts 输出以及可读性强、可编辑的 formatted 文本输出,如 markdown 等。
模型的结构和训练方法,采用 vision encoder+input embedding layer+decoder 的 pipeline。
Encoder 主体采用带 local attention的 VITDet 架构,不会让 CLIP 方案的全程 global attention 在高分辨率下激活太大,炸显存。
Encoder 后两层采用 Vary 的双卷积设计方案。整个 Encoder 将1024×1024×3 的图像压缩为 256×1024 的 image tokens,足以做好A4 纸级别的 dense OCR。
GOT-OCR-2.0模型的结构与训练流程
研究团队将整个训练过程分为三个步骤,没有一个阶段锁 LLM,过程中没有存在图像到文本的对齐阶段,进而导致损害 image token 的文字压缩率。
三个训练阶段分别为:
第一阶段:高效预训练 encoder,GOT 在整个训练过程中,没有 A100 级别的卡,为了节省资源,该阶段使用小型 OPT-125M 作为 decoder 为 encoder 提供优化方向,快速灌入大量数据。
第二阶段:联合训练 encoder-decoder,该阶段 GOT 的基本结构搭建完成,为上一阶段预训练好的 encoder,以及 Qwen 团队预训练好的 Qwen0.5B。
研究团队稍稍加大了 decoder 的大小,因为该阶段需要喂入大量 OCR-2. 0的知识,而不少数据(如化学式的 OCR)其实也是带点 reasoning的,不过更小的 decoder 他们未敢尝试。
第三阶段:锁住 encoder,加强 decoder 以适配更多的 OCR 应用场景,如支持坐标或者颜色引导的细粒度 OCR(点读笔可能会用到),支持动态分辨率 OCR 技术(超大分辨率图可能会用到),多页 OCR 技术。该功能主要是为了后续 follower 能更好地训练 Arxiv 这种数据,多页 PDF 直接训练,无须再对 .tex 断页而苦恼!
面对整个 GOT 模型设计中最困难的数据工程环节。研究团队为了构造各种各样的数据,还学习了众多数据渲染工具,包括 Latex,Mathpix-markdown-it,Matplotlib,Tikz,Verovio, Pyecharts 等等。
GOT模型的效果
最常用的 PDF image 转 markdown 能力
双栏文本感知能力
更多符号的OCR能力
02
GOT-OCR-2.0部署教程
通过wisemodel社区上创建开发环境,可以对GOT-OCR-2.0进行微调和部署成在线服务。首先在wisemodel社区“算力”模块创建一个开发环境,由于GOT-OCR2.0推理时对显存的占用不是很大,这里选择用3090或A5000单卡的配置来创建开发环境。填写创建开发环境的基本属性内容,选择通用的基础镜像,以及选择平台上的GOT-OCR2.0的共享模型文件,记录下模型的路径/llm/stepfun-ai/GOT_OCR2_0 ,这些信息都填写好之后,直接点击下一步:
第二步确认一下计费方式,支持按量的计费方式,可以随时手动停止,也可以选择几个小时自动停止,根据具体需要也可以选择包周和包月的计费方式。确认计费方式之后,直接“提交订单”:
开发环境创建就完成了,直接跳转到了开发环境的详情页面,开发环境会进入启动中的状态,通常20-30s左右开发环境就会启动成功。
启动成功之后,可以通过notebook或者ssh登录到开发环境内进行开发工作,红框标出的区域可以获取相应的信息,可以根据需要查看。
我们以ssh访问的方式登录到开发环境内:
先把GOT-OCR2.0的代码拉取到workspace/code目录下,在workspace目录下的文件可以长期保存。
代码下载完成之后,进入到GOT-OCR2.0的目录里面
继续进入到GOT-OCR2.0-master的目录
基础环境准备之后,开始安装一些基础依赖库,执行一下 pip install -e . 系统提示pip命令未找到,下面更新一下系统的基础库,安装上pip的指令集:
然后重新安装基础依赖库pip install -e . 这次可以正常安装和执行了
安装完成之后提示 httpx 版本不兼容的问题,手动更新一下 pip install httpx==0.27.2
手动更新之后,系统还是会报版本兼容性问题,准备暂且先使用已安装好的httpx的版本。
看到GOT目录下面有demo相关的内容,进去具体看了一下是通过命令行的方式来执行,到目前为止可以直接执行demo相关的命令了。同时也看到hf上有一个官方的demo,下面用魔法把hf上官方demo的代码也拉下来。
进入到GOT_online_demo的目录,这是hf上官方demo,然后安装一下requirements.txt的内容。
然后到app.py代码文件里更新一下模型路径,换成服务器端的GOT模型路径,这个路径在开发环境详情的“文件-共享模型文件”下面也可以获取。
以及在app.py代码文件的最后,加上服务的端口号等,wisemodel上为每个开发环境准备了一个公网可以访问的端口号。app.py文件更新之后保存即可。
下面就回到wisemodel开发环境详情“服务端口”处,申请一下端口,直接点击“申请”按钮
平台上返回了端口号和公网可访问到的域名地址
然后再回到开发环境里,启动GOT的在线服务:
GOT服务启动成功之后,再用刚才申请好的公网访问域名地址来访问,可以正常打开gradio的页面,这说说明GOT已经部署完成了。
下面就正常体验一下GOT-OCR2.0的功能,上传一张图片或选择样例中的一张图片,提交之后右侧输出了OCR识别的结果,这也说明部署完成的GOT-OCR2.0模型可以正常工作。
我们把GOT-OCR2.0的模型也制作成了公共镜像,相应的代码文件也放到了/home目录下面,如果需要使用和尝试的也可以在创建开发环境时直接使用GOT-OCR2.0-Deploy-Funetune的镜像。
用GOT-OCR2.0-Deploy-Funetune的镜像直接创建开发环境,等开发环境变成运行中状态时,直接到/home目录下,进入到GOT目录的GOT_online_demo目录里,直接python app.py就可以把GOT-OCR2.0的服务启动。
回到开发环境详情页面申请好端口和域名地址之后,就可以在网页中访问了。如果需要进行微调也可以直接使用这个做好的镜像。如果是希望学习模型的部署,也可以用最基础的镜像按前面的步骤一步一步的执行。
加入用户群
----- END -----
wisemodel相关
系统升级
系列模型:
关于wisemodel更多
1
欢迎持续关注和支持
开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态,
2
欢迎加盟wisemodel开源社区
始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn
3
欢迎投稿优质内容
欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。
4
关于wisemodel开源社区
始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。
向上滑动查看
热门跟贴