据韩媒报道,韩国政府推进的“国产基础大模型”项目再次被指出并非“完全自主研发”。此次争议的焦点是Naver Cloud的生成式AI模型被发现使用了中国阿里巴巴开源模型的部分组件。

打开网易新闻 查看精彩图片

韩媒称据业内人士透露,Naver Cloud开发的“HyperCLOVA X Seed 32B Sync”模型与中国阿里巴巴大语言模型“Qwen 2.5”的视觉编码器权重相似度极高——余弦相似度达99.51%,皮尔逊相关系数达98.98%。这表明该模型极有可能是基于现有模型进行微调开发的。

此外,其音频编码器甚至未经过微调,疑似直接使用了原始版本。编码器作为由数千万参数构成的AI“理解引擎”,负责将输入数据转换为有意义的分词单元,而并非简单的辅助过滤器。

基于这一使用情况,韩国有批评指出Naver的最新模型在音频与图像处理的核心部分依赖于中国开源技术。

韩国西江大学人工智能系教授张杜松(音)表示:“图像和音频数据相比文本需要更大量的训练数据,因此重用优秀的公开模型是行业常见做法。”但他同时强调:“通常这不会被称作‘完全自主研发’。政府并未明确规定必须‘完全自主开发’,这是评估过程中的加减分判断事项,不能认定Naver存在虚假陈述。”

Naver Cloud也承认使用了Qwen 2.5的视觉与音频编码器,解释称这是“为适应最新全球趋势并优化系统而作出的战略选择”。公司相关人士强调:“模型的核心‘大脑’——语言处理部分为100%自主研发,我们在此领域保持着独特竞争力。”并表示已在技术报告中明确记载了相关信息。