“连错得都一模一样”！斯坦福AI团队承认抄袭中国大模型：将撤下所有相关模型|刘知远|大模型|抄袭|斯坦福ai|源代码|视频生成模型

全文共1268字，阅读大约需要4分钟

面壁智能团队证实，斯坦福大模型项目Llama3-V与MiniCPM一样，可以识别出“清华简”战国古文字，“不仅对得一模一样、连错得都一模一样”。

近日，斯坦福大学AI团队主导的 Llama3-V 开源模型被证实套壳抄袭国内清华与面壁智能的开源模型“小钢炮”MiniCPM-Llama3-V 2.5一事，在网络上引发热议。

5月29日，斯坦福一AI团队发布了一个名为Llama3-V的多模态大模型，宣称只需500美元就可训练出一个性能可与GPT4-V媲美的模型。

Llama 3-V模型的团队成员 Aksh Garg 在社交平台X上发帖介绍了这一模型。该帖很快阅读量便超过30万，Llama 3-V 也很快冲上了全球知名开源社区HuggingFace的趋势榜首页。

6月2日深夜，面壁智能团队证实，斯坦福大模型项目Llama3-V与MiniCPM一样，可以识别出“清华简”战国古文字，“不仅对得一模一样、连错得都一模一样”。这一古文字数据为研究团队花费数月从清华简上逐字扫描并人工标注得来，并未对外公开，证实抄袭事实。

清华简是清华大学于2008年7月收藏的一批战国竹简，为战国中晚期文物。面壁智能CEO李大海及其联合创始人刘知远透露，识别清华简是MiniCPM-Llama3-V 2.5的一项实验功能，训练图像是最近从出土文物中扫描并标注，且尚未公开发布。

对此，刘知远先后发文回应，表示这是一种受到国际团队认可的方式，但希望大家共建开放、合作、有信任的社区环境。目前，该团队已公开道歉，并删除了相关库和官宣推文。

6月3日，Aksh Garg在其社交平台上发文回应了质疑，他艾特另外两名成员Siddharth Sharma和Mustafa Aljadery，并表示：“我们向原作者道歉，也对自己没有尽职尽责地验证其作品的原创性感到非常失望。”

值得注意的是，斯坦福 AI 实验室主任 Christopher David Manning 在社交平台发帖谴责了抄袭行为，同时还对清华的开源模型表达了赞赏。

Llama3-V抄袭风波引发广泛关注的另一面，也在于大模型领域开源、套壳、抄袭由来已久的争议。在接受北京商报记者采访时，香颂资本董事沈萌称，开源就是把源代码公开，公开时都会选择一个遵循的协议，不同协议需遵循不同的规范。套壳还是抄袭的界定，都取决于开源的协议以及对方采取了怎样的动作。

北京商报记者查阅发现，MiniCPM-Llama3-V2.5遵循Apache 2.0开源许可证。根据数据库厂商PingCAPA，Apache许可证鼓励代码共享和最终原作者的著作权，允许源代码修改和再发布，但是需要遵循以下条件，比如需要给代码的用户一份Apache Licence，如果修改了代码，需要在被修改的文件中说明，在衍生的代码中（修改和有源代码衍生的代码中）需要带有原来代码中的协议、商标、专利声明和其他原来作者规定需要包含的说明等。

编辑丨林琴北京商报综合北京商报记者（杨月涵）、第一财经、证券时报、每日经济新闻等

图片丨第一次财经微信公众号、社交平台X 截图、视觉中国