澜舟科技正式开源孟子3-13B大模型，零商用门槛！|大模型|孟子|澜舟科技|翻译|视频生成模型

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。欢迎《》以及《》。

3月18日，澜舟科技在主题为“创新落地、生态共赢”的大模型技术与产品发布会上，隆重推出了其“一横N纵”孟子大模型系列及产品体系。“一横”的核心——孟子大模型技术，经过高效迭代后，孟子大模型V3版本的Mengzi3-13B也正式开源与大家见面。目前模型已经发布到了始智AI wisemodel.cn开源社区平台，对学术研究完全开放，同时支持免费商用！也期待大家给出更多反馈！

开源地址：

https://wisemodel.cn/models/Langboat/Mengzi3-13B-Base

一、模型简介

Mengzi3-13B模型基于Llama架构，语料精选自网页、百科、社交、媒体、新闻，以及高质量的开源数据集。通过在万亿tokens上进行多语言语料的继续训练，模型的中文能力突出并且兼顾多语言能力。

二、快速开始

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Langboat/Mengzi3-13B-Base", use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("Langboat/Mengzi3-13B-Base", device_map="auto", trust_remote_code=True)
inputs = tokenizer('指令：回答以下问题。输入：介绍一下孟子。输出：', return_tensors='pt')
if torch.cuda.is_available():
inputs = inputs.to('cuda')
pred = model.generate(**inputs, max_new_tokens=512, repetition_penalty=1.01, eos_token_id=tokenizer.eos_token_id)
print(tokenizer.decode(pred[0], skip_special_tokens=True))

相较于今年1月发布的孟子大模型GPT V2系列（包括孟子大模型-标准、孟子大模型-轻量、孟子大模型-金融、孟子大模型-编码），Mengzi3-13B在数据集质量上有了显著的提升。其采用的Mengzi-3数据集规模高达3T tokens，涵盖了网页、代码、书籍、论文等多元化、高质量的数据来源。

三、性能评测

在MMLU、Chinese-MMLU、GSM8K、HUMAN-EVAL等多项公开数据集进行的模型效果评估中，Mengzi3-13B均展现出了卓越的性能表现。在参数量20B以内的轻量化大模型领域，Mengzi3-13B在中英文语言能力方面的成绩尤为突出，具备了出色的实用性和高性价比，能更好的满足企业的商业化需求。

注：以上结果基于5-shot，MMLU / CMMLU / OCNLI 结果来自FlagEval

四、模型微调

微调代码参考代码仓库的finetune_demo文件夹。首先需要准备jsonl格式的微调数据。参考 finetune_demo/example.jsonl，每一行为一条json数据，需满足下面格式：

"conversation": [
"role": "human",
"text": "hello, how are you?"
},
"role": "assistant",
"text": "I am fine."
},

然后运行全参数微调的脚本。

bash finetune.sh

开源大模型无疑是科技界的一次革命性突破，其意义和影响都将是深远的。通过此次孟子大模型V3版本的Mengzi3-13B的开源，澜舟科技期望为中国大模型生态的蓬勃发展贡献一份力量，召唤更多的开发者共同探索、创新和贡献。共同推动大模型生态的繁荣与进步。

澜舟科技成立于 2021 年，是一家业界领先的认知智能公司，致力于以自然语言处理（NLP）技术为基础，为全球企业提供新一代认知智能平台，助力企业数字化转型升级，主要产品是基于“孟子预训练模型”打造的一系列功能引擎（包括搜索、生成、翻译、对话等）和垂直场景应用。

供稿丨澜舟科技

编辑丨赵雅鑫

审核丨成蕴年

----- END -----

欢迎加盟

始智AI wisemodel社区自2023年9月上线以来，取得了积极的进展，初步形成一定的影响力，为了加快公司发展，我们长期需要技术、运营等人才加盟，技术侧重在AI infra、后端开发，熟悉K8S、模型训练和推理等技术，以及熟悉开发者生态运营的成员（根据个人意向可备注“求职”或“创业”），有意加盟的朋友也可以把简历投递到liudaoquan@wisemodel.cn。

wisemodel相关

系统升级

系列模型：

欢迎投稿

欢迎投稿分享人工智能领域相关的优秀研究成果，鼓励高校实验室、大企业研究团队、个人等，在wisemodel平台上分享各类优质内容，可以是AI领域最新论文解读、最新开源成果介绍，也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn，也可以扫码添加wisemodel微信。

持续关注和支持

开源社区建设需要长期坚持和投入，更需要广大用户的积极参与、贡献和维护。期待更多开发者将开源成果发布到 wisemodel.cn 社区，共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信，可以申请加入wisemodel社群，持续关注社区动态。

关于始智AI wisemodel.cn开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立，旨在打造和建设中立开放的AI开源创新社区，将努力打造成“HuggingFace”之外最活跃的社区，汇聚主要AI开源模型和数据集等，欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者，以及政府部门、学会协会、联盟、基金会等，还有投资机构、科技媒体等，共同参与建设AI开源创新生态。