MiniGPT-4：无差体验 GPT-4 识图聊天、草图建网站

机器学习与Python社区

2023-04-24 11:32 ·北京

机器之心 & ArXiv Weekly 参与：楚航、罗若天、梅洪源

MiniGPT-4:Enhancing Vision-language Understanding with Advanced Large Language Models

作者：朱德尧、陈军、沈晓倩、李祥、Mohamed H. Elhoseiny
论文地址：https://minigpt-4.github.io/

摘要：来自阿卜杜拉国王科技大学（KAUST）的团队上手开发了一个 GPT-4 的类似产品 ——MiniGPT-4。MiniGPT-4 展示了许多类似于 GPT-4 的能力，例如生成详细的图像描述并从手写草稿创建网站。此外，作者还观察到 MiniGPT-4 的其他新兴能力，包括根据给定的图像创作故事和诗歌，提供解决图像中显示的问题的解决方案，根据食品照片教用户如何烹饪等。

MiniGPT-4 使用一个投影层将一个冻结的视觉编码器和一个冻结的 LLM（Vicuna）对齐。MiniGPT-4 由一个预训练的 ViT 和 Q-Former 视觉编码器、一个单独的线性投影层和一个先进的 Vicuna 大型语言模型组成。MiniGPT-4 只需要训练线性层，用来将视觉特征与 Vicuna 对齐。

示例展示：从草图创建网站。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴