始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。欢迎《》以及《》。

3月18日,澜舟科技在主题为“创新落地、生态共赢”的大模型技术与产品发布会上,隆重推出了其“一横N纵”孟子大模型系列及产品体系。“一横”的核心——孟子大模型技术,经过高效迭代后,孟子大模型V3版本的Mengzi3-13B也正式开源与大家见面。目前模型已经发布到了始智AI wisemodel.cn开源社区平台,对学术研究完全开放,同时支持免费商用!也期待大家给出更多反馈!

开源地址:

打开网易新闻 查看精彩图片

https://wisemodel.cn/models/Langboat/Mengzi3-13B-Base

一、模型简介

Mengzi3-13B模型基于Llama架构,语料精选自网页、百科、社交、媒体、新闻,以及高质量的开源数据集。通过在万亿tokens上进行多语言语料的继续训练,模型的中文能力突出并且兼顾多语言能力。

二、快速开始

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Langboat/Mengzi3-13B-Base", use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("Langboat/Mengzi3-13B-Base", device_map="auto", trust_remote_code=True)
inputs = tokenizer('指令:回答以下问题。输入:介绍一下孟子。输出:', return_tensors='pt')
if torch.cuda.is_available():
inputs = inputs.to('cuda')
pred = model.generate(**inputs, max_new_tokens=512, repetition_penalty=1.01, eos_token_id=tokenizer.eos_token_id)
print(tokenizer.decode(pred[0], skip_special_tokens=True))

相较于今年1月发布的孟子大模型GPT V2系列(包括孟子大模型-标准、孟子大模型-轻量、孟子大模型-金融、孟子大模型-编码),Mengzi3-13B在数据集质量上有了显著的提升。其采用的Mengzi-3数据集规模高达3T tokens,涵盖了网页、代码、书籍、论文等多元化、高质量的数据来源。

三、性能评测

在MMLU、Chinese-MMLU、GSM8K、HUMAN-EVAL等多项公开数据集进行的模型效果评估中,Mengzi3-13B均展现出了卓越的性能表现。在 参数量20B以内的轻量化大模型领域,Mengzi3-13B在中英文语言能力方面的成绩尤为突出,具备了出色的实用性和高性价比,能更好的满足企业的商业化需求。

打开网易新闻 查看精彩图片

注:以上结果基于5-shot,MMLU / CMMLU / OCNLI 结果来自FlagEval

四、模型微调

微调代码参考代码仓库的finetune_demo文件夹。 首先需要准备jsonl格式的微调数据。 参考 finetune_demo/example.jsonl,每一行为一条json数据,需满足下面格式:

"conversation": [
"role": "human",
"text": "hello, how are you?"
},
"role": "assistant",
"text": "I am fine."
},

然后运行全参数微调的脚本。

bash finetune.sh

开源大模型无疑是科技界的一次革命性突破,其意义和影响都将是深远的。通过此次孟子大模型V3版本的Mengzi3-13B的开源,澜舟科技期望为中国大模型生态的蓬勃发展贡献一份力量,召唤更多的开发者共同探索、创新和贡献。共同推动大模型生态的繁荣与进步。

澜舟科技成立于 2021 年,是一家业界领先的认知智能公司,致力于以自然语言处理(NLP)技术为基础,为全球企业提供新一代认知智能平台,助力企业数字化转型升级,主要产品是基于“孟子预训练模型”打造的一系列功能引擎(包括搜索、生成、翻译、对话等)和垂直场景应用。

供稿丨澜舟科技

编辑丨赵雅鑫

审核丨成蕴年

----- END -----

欢迎加盟

始智AI wisemodel社区自2023年9月上线以来,取得了积极的进展,初步形成一定的影响力,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员(根据个人意向可备注“求职”或“创业”),有意加盟的朋友也可以把简历投递到liudaoquan@wisemodel.cn。

wisemodel相关

系统升级

系列模型:

欢迎投稿

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护。期待更多开发者将开源成果发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,可以申请加入wisemodel社群,持续关注社区动态。

关于始智AI wisemodel.cn开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将努力打造成“HuggingFace”之外最活跃的社区,汇聚主要AI开源模型和数据集等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。