打开网易新闻 查看精彩图片

特别声明:本文内容均引用权威资料结合个人观点进行撰写,文末已标注文献来源及截图,请知悉。

就在最近,大模型圈里传出一个惊天大瓜,斯坦福一AI团队竟然抄袭了!抄袭的还是中国国产大模型开源成果,在结构和代码上高度相似。

事件最后是以两位斯坦福AI团队成员的道歉结尾的,只不过结果是“两人道歉甩锅+一人失踪跑路”。

打开网易新闻 查看精彩图片

但不管在此之前还是之后,这个瓜在外网吵得那叫一个沸沸扬扬。

“不仅对的地方一模一样,连错误的地方也是一模一样,斯坦福真有你的。”

打开网易新闻 查看精彩图片

斯坦福抄袭大瓜

5月29日,斯坦福一AI团队了一款名叫Llama3-V的项目,称只需要500美元,就能基于此项目训练出一个SOTA开源多模态大模型,不仅是尺寸小,性能还比很多同类强。

因为团队成员的名校背景加持,Llama3-V很快就在开源社区上火了起来,甚至还拿下了最大开源AI社区“抱抱脸”前5强的好成绩。

然而就在这时,网上突然爆出其Llama3-V开源模型,其实是套壳抄袭中国清华与面壁智能的“小钢炮”MiniCPM-Llama3-V 2.5。

打开网易新闻 查看精彩图片

这熟悉的配方,这熟悉的味道,这难道不是隔壁清华面壁的东西吗?

甚至有网友跑到面壁的GitHub项目下大喊:“喂喂,你家的大模型被抄袭了!”

不仅是吼两句,网友还贴心地安排上了一堆证据。模型结构、代码、配置文件,不能说一模一样,那也是毫无差别,只是改了一些变量名。

打开网易新闻 查看精彩图片

至于为啥网友选择了“告御状”,费劲地跑到面壁智能那边喊话,其实是因为在此之前,他曾给Llama3-V项目团队留言,只是对方既不回应也不道歉,而是采取了码农必备手段的手段——删库跑路。

不知道这几位斯坦福团队作者代码水平如何,但是从编程入门到删库跑路这一门功课肯定学得不错。

现在的情况就是,不管是GitHub还是抱抱脸,页面全都显示的404,而网友们曾经在Llama3-V页面上提交的质疑,也早就被删得一干二净。

打开网易新闻 查看精彩图片

此前网友曝出的对比证据很长也很全面,已经足以证明Llama3-V项目团队就是抄袭。

另一边,收到网友的喊话提醒以后,清华面壁这边的团队迅速就此事件展开了调查,而他们也随后拿出了更为实质性的证据。

事实证明,Llama3-V在一些尚未公开的实验性特征上与MiniCPM-Llama3-V 2.5有着高度相似的行为,例如识别清华简。

打开网易新闻 查看精彩图片

清华简全名清华大学藏战国竹简,是清华大学在2008年收藏的一批战国竹简,其文字风格主要为楚国文字。

MiniCPM-Llama3-V 2.5团队曾对其中的文字进行了标注,内容尚未公开发布,但令人惊讶的是,Llama3-V对这批竹简文字的识别情况竟然与MiniCPM-Llama3-V 2.5相差无几。

打开网易新闻 查看精彩图片

两款项目的识别重叠率极高,并且还是对的一起对,错的一起错,即便是爱得再深沉的唯粉,也很难替Llama3-V洗白。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

作者回应:对不起,但和我俩没关系

虽然第一时间将相关项目删了个一干二净,但是斯坦福的这支小队还是曾为此做出过一些解释,比如说“我们做得比他们早,但是他们比我们要先实现”。

又比如“我们啥也不知道,是另一个人干的。在盲目相信队友之前,最重要的还是根据此前的经验验证一切”。

对此,网友吐槽表示:“合着你们三人的团队里,你们俩啥也没干,就光给项目吹吹牛逼?这也算项目作者?”

打开网易新闻 查看精彩图片

“Mustafa是作者,干了所有的坏事,那你俩在团队里干啥的,凑人头的?”

Llama3-V团队一共就3人,其中两位斯坦福本科学生还与另一位作者Mustafa切割了,不仅表示二人此前不知道这是抄袭作品,还表示Mustafa在删库以后真的跑路了。

“我们都希望Mustafa出面发表声明,但是从昨天起,我们就一直联系不上他。”

打开网易新闻 查看精彩图片

而被队友盖锅的Mustafa本人,目前个人社交账号已经开启了锁定,需要申请以后才能关注他。

这件事显然败坏了斯坦福的名声,就连其AI实验室的主任都忍不住下场开喷:“就死不承认自己的错误!”

打开网易新闻 查看精彩图片

虽然两位斯坦福本科生道歉了,并且还手一抡将锅甩给了Mustafa,但是他们其实压根没有承认自己的错误,所有发言都在避重就轻,都在为自己推脱。

于是越来越多的网友开始深挖这支团队的瓜,挖到最后竟发现这几人完全就是铁抄袭佬,纯纯一抄袭界惯犯。

打开网易新闻 查看精彩图片

对此,面壁智能的CEO李大海发文称:“技术创新不易,每一项工作都是团队夜以继日的成果,我们希望团队能获得关注与认可,但不是以这种方式。”

打开网易新闻 查看精彩图片

因为“斯坦福抄袭”这个话题,“中国大模型技术成果”被许多海外网友热议,他们提到,中国的大模型似乎正不断刷新着“最强开源”的记录,中国正在快速成长为AI创新行业的关键,而它一直以来都在被忽视。

参考资料:
1.斯坦福Llama3-V抄袭事件始末:套壳面壁智能“小钢炮”,作者团队公开致歉-界面新闻2024-06-04
2.https://github.com/OpenBMB/MiniCPM-V/issues/196
3.https://github.com/mustafaaljadery/Llama3-V
4.https://www.reddit.com/r/LocalLLaMA/comments/1d6f1f3/Llama3-V_project_is_stealing_a_lot_of_academic/
5.https://www.reddit.com/r/LocalLLaMA/comments/1d6f1f3/Llama3-V_project_is_stealing_a_lot_of_academic/?rdt=41696&onetap_auto=true&one_tap=true
6.https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee

打开网易新闻 查看精彩图片