腾讯大模型开源的“冷思考”|大模型|算法|腾讯

本报记者李静北京报道

继腾讯混元文生图模型开源之后，近日，腾讯混元最新的MoE模型“混元Large”以及混元3D生成大模型“Hunyuan3D-1.0”也正式开源，支持企业及开发者精调、部署等不同场景的使用需求，可在HuggingFace、Github等技术社区直接下载，免费且可以商用。

据介绍，腾讯混元Large是目前开源领域参数规模和效果表现都较好的MoE模型（Mixture of Experts，即混合专家模型，是目前国内外主流的大模型结构），而腾讯混元3D生成大模型则是业界首个同时支持文字、图像生成3D的开源大模型。两个模型均属腾讯自研，在架构、算法、数据等方面有独特创新，填补了行业空白。目前，两个模型均已经在腾讯业务场景中落地应用，经过实践的检验，是面向实用场景的应用级大模型

AI大模型浪潮席卷而来之时，腾讯不是冲在最前面的那一波；当市场上关于开源与闭源争论不断时，腾讯也没有着急站队。如今在开源文生图视频模型之后，腾讯又陆续开源了一些模型，在大模型的开闭源上，腾讯混元大模型究竟是怎么考虑的？

“腾讯做大模型一年多时间并没有着急去开源，我们认为很重要的一个原因是开源的结果，其实是自然而然的发展，而且腾讯是在闭源做得比较好之后才做的开源。”腾讯机器学习平台总监、腾讯混元大语言模型算法负责人康战辉在接受《中国经营报》等媒体记者采访时说道。

2023年9月，在2023腾讯全球数字生态大会上，腾讯混元大模型正式亮相，并宣布通过腾讯云对外开放。2024年5月，腾讯混元文生图大模型全面升级并对外开源。

大模型市场上关于开源还是闭源一直都有争论。百川智能在2023年6月15日发布了国内首款开源可商用的70亿参数量大语言模型Baichuan-7B，上海人工智能实验室在2023年7月开源了书生·浦语大模型70亿参数的轻量级版本InternLM-7B，Meta在2023年7月发布了LLaMa 2模型，并在2024年4月发布了Llama-3。

还有一些厂商则是闭源大模型的拥护者。OpenAI的GPT系列、谷歌的Bard、百度的文心大模型都是市场上著名的闭源大模型。

该如何定位大模型是开源还是闭源？康战辉指出，对于头部大型企业来说，业务多且复杂，超级复杂的业务可能就是需要闭源大模型才能解决，虽然成本摊下来更大，但提升的能力更强。开源大模型面对的则是不同的开发者，尤其有大量的中小企业，以及个人开发者，他们对成本的考量更重一些。

腾讯大模型则是在闭源做好之后再逐步对外进行开源。在开源选择上，腾讯混元大模型选择了先开大的后开小的。康战辉解释这一选择背后的原因：“首先，开源理念上先开大的模型，是因为我们开始做的东西都是大的，这是历史原因。另外，我们优先考虑把腾讯内部业务上使用的模型对外开源，后续还会开源一些小的模型，也是延续这个模式。”

以此次开源的腾讯混元Large为例，该模型已经在腾讯内部的AI搜索、AI阅读等业务做过试用，腾讯金融领域、协同办公三件套等业务里面都涉及到腾讯混元Large，有些已经上线使用。

对于腾讯混元大模型开源时间晚于市场上很多的开源大模型厂商，腾讯方面则认为“好饭不怕晚”。

“去年大模型如火如荼，开源大模型也是百花齐放。今天大家来看，大家还是各归各位。”康战辉说道，“底层大模型就是AI时代的一个操作系统、是一个底层基础设施、是一个长期的事情，另外，底层模型不是C端产品，不存在入口、流量问题的困扰，是可以沉下心来长期深耕的事情，所以我们认为多模态大模型真的一点不晚。”

据介绍，现在腾讯混元大模型开源的参数权重，并不涉及到数据和代码，但是接下来会把训练的代码开源出来，同时会把评估期开源。

康战辉表示：“大模型开源数据本身意义不大。”因为大模型不是软件，而是靠大量数据驱动。举一个例子，学界有很多开源的模型、开源的数据，但是开源数据很难被大家共建，因为数据规模太大了，不是写一行代码就能共建的事情。现在的大模型普遍训练的数据都是几万亿tokens，对于业界来讲是很难把数据维护起来去做进一步的挖掘。

（编辑：张靖超校对：颜京宁）