作者 |杨逍
编辑 |苏建勋
10月30日,昆仑万维发布了全面开源的百亿级大语言模型「天工」Skywork-13B系列,并配套开源了600GB、150B Tokens的超大高质量开源中文数据集。
昆仑万维于2008年成立,以游戏起家,目前其业务覆盖AIGC、信息分发、社交娱乐等领域。从2020年开始,昆仑万维布局AIGC领域。除了推出大模型、AI搜索外,昆仑万维还控股了AI芯片公司,布局AI芯片。
此次,昆仑万维「天工」开源了Skywork-13B系列包括两大模型及150B高质量中文数据集。Skywork-13B-Base模型是Skywork-13B的基础模型,由3.2万亿个多语言高质量数据训练,Skywork-13B-Math模型经过专门的数学能力强化训练。他们在中文能力表现不错,可以应用于中文科技、金融、政务等领域。
Skywork-13B系列大模型整体有130亿参数、3.2万亿高质量多语言训练数据,具有生成能力、创作能力和数学推理能力。
Skywork-13B系列模型在CEVAL、CMML、 MMLU、 GSM8K等几大权威评估基准上进行了测试,在同等规模大模型间取得了不错的效果。
此次,除了这两个模型,昆仑万维还配套开源了600GB、150B Tokens的高质量中文语料数据集,Skypile/Chinese-Web-Text-150B。据昆仑万维介绍,这是目前最大的开源中文数据集之一,开发者可以利用这个数据集来进行大模型预训练,和定制自己的模型。
一般开源社区中的中文大模型大多不是完全可商用的,有着复杂的商用授权申请流程,昆仑万维在开源Skywork-13B系列模型时,取消了行业、公司规模、用户等方面的限制,用户无需通过申请,便可以对大模型进行商业用途。
昆仑万维从2020年开始进军AIGC领域,积累近三年的相关工程研发经验,建立了的预训练数据深度处理能力,形成AI大模型、AI搜索、AI游戏、AI音乐、AI动漫、AI社交六大AI业务矩阵。
2023年4月时,昆仑万维发布了国产大语言模型——「天工3.5」,并启动邀请测试。8月,发布AI搜索产品——天工AI搜索。到9月,昆仑万维控股来艾捷科芯,布局AI芯片。
昆仑万维董事长兼CEO方汉是最早参与到开源生态建设的开源老兵,也是中文Linux开源最早的推动者之一。计算机视觉和机器学习领域的国际顶级专家颜水成也加盟了昆仑万维,与昆仑万维创始人周亚辉一起出任天工智能联席CEO,负责前沿技术的研究。
热门跟贴