始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。欢迎《》以及《》。

概述

XuanYuan-6B系列金融大模型,包含融合了大量中英文语料增量预训练的底座模型XuanYuan-6B-Base,利用高质量指令数据和强化学习进行对齐的XuanYuan-6B-Chat,这两个模型已经发布到了始智AI wisemodel.cn开源社区,并且可以零代码在线部署体验。

打开网易新闻 查看精彩图片

XuanYuan-6B系列金融大模型的发布标志着智能金融领域的一次重要突破,其在日常对话、语言理解、知识应用、内容创作、信息摘要等方面可与70B级别的模型相媲美。XuanYuan-6B将为金融机构、投资者、研究人员提供更准确、及时的信息,助力他们做出更明智的决策,还将成为金融教育和推广的有力工具,向广大民众提供可靠的金融知识和建议。

01

预训练

为保证数据的量级及多样性,XuanYuan-6B预训练数据包含中、英文,涉及7个不同的领域。经过滤和去重后,数据类型及对应的token数量如下:

中文:

内容分享类、对话问答——0.53T

书籍教材类——0.06T

web数据(common crawl为主)——0.93T

知识百科类——0.02T

新闻类——0.052T

论文、期刊——0.04T

金融类——0.1T

英文:

内容分享类、对话问答——0.021T

书籍教材类——0.026T

Web 数据(CulturaX为主)——3T

知识百科类——0.024T

打开网易新闻 查看精彩图片

为保证预训练数据的质量,我们采取了一系列方法对数据进行处理,包括规则清洗、PPL过滤、数据去重和内容安全过滤。

规则清洗

规则清洗主要按照预先设计的一系列规则来对数据进行规范化和过滤。规则清洗速度较快,但只能清洗特定模式的数据,无法深入理解文本内容。主要包括格式规规范化、关键词过滤(篇章级)、长度过滤(行级别)。

PPL过滤

除了衡量大语言模型的文本建模能力外,PPL1也是一个很好的衡量数据内容质量的指标。使用统计语言模型针对PPL过高的文本进行过滤,保留语义流畅的高质量文本内容。

数据去重

使用MinHash2方案进行重复数据过滤,主要包括如下步骤:MinHash生成、构建LSH索引和相似的pair、根据相似的pair求连通图、全局去重。

内容安全过滤

目标是过滤掉垃圾广告、政治敏感、暴力、色情等不符合人类价值观的数据。我们详细制定不同领域的内容标准,人工标注有害和无害样本,训练多个内容有害分类器。再经过人工评估,确定分类器的阈值,在清洗掉有害文本的前提下,避免大量误伤文本。

在预训练中并没有使用全部的数据,而是按照一定的策略从每个领域中采样一定量的数据进行模型训练。采用类似于LLaMA框架的结构,具体配置如下表:

打开网易新闻 查看精彩图片

为确保模型的性能提升,在训练过程中采用动态评估和调整的方法,在每个检查点对模型在特定任务或基准上的性能进行评估,并根据评估结果动态调整不同来源的训练数据配比。通过不断监控模型的训练进展并微调数据分布,不断优化模型训练过程,提升模型的各项能力。

为增强模型的考试能力,利用离线搜索增强技术,根据给定的上下文检索相应的考试题和答案,确保模型在考试场景中能够提供准确的解答。此外,为使模型能够以生成式的方式获取知识,我们将选择题的提示和选项转化为相应的知识点,使得模型能够从具体实例中进行泛化,并在考试和问答环境中灵活应用其所掌握的知识。

下表展示了预训练的超参数配置:

打开网易新闻 查看精彩图片

02

有监督微调

在有监督微调中,数据的质量、数量、配比以及多样性与代表性都扮演着至关重要的角色。质量决定了模型学习的内容,数量影响着模型对任务的适应性,而配比则平衡了模型对通用知识与任务特定知识的利用,多样性与代表性确保模型在真实场景中具有良好的泛化能力。

为了实现这些目标,XuanYuan-6B采用self-QA10方法进行指令微调数据的收集。Self-QA方法利用现有高质量大模型,根据无监督的知识生成微调数据,在没有人工标注的情况下生成大量高质量的问答数据。具体流程如下:

打开网易新闻 查看精彩图片

1、知识引导的指令生成:使用语言模型ChatGPT根据无监督文本生成领域相关的指令。为了确保指令不依赖于参考文本内容,需要提供一些准则。这样就可以获得多个相关的指令,在下一个阶段使用。无监督的知识数据可以是连续文本,如书籍或网页,也可以是经过预处理的非结构化文本数据,如表格或知识图谱。对于这些结构化数据将采用下面的方法转换成非结构化数据:

打开网易新闻 查看精彩图片

在这里使用的prompt如下:

打开网易新闻 查看精彩图片

2、机器阅读理解:在这个阶段,语言模型根据无监督的知识对生成的指令问题进行阅读理解,并生成答案。这里使用的prompt如下:

打开网易新闻 查看精彩图片

3、修剪与过滤:应用不同的启发式过滤器来确保生成的文本符合预定义的准则,并保持正确性和连贯性。经过过滤后的问题和答案可以直接用作指令微调数据。

在模型训练层面使用混合微调训练的方式进行。在微调阶段中巧妙地结合了无监督预训练数据和有监督指令微调数据,以避免灾难性遗忘的发生。无监督预训练数据可以通过从互联网抓取并进行清理和过滤来获取。有监督指令微调数据,我们采用了自我指导和自我问答等方法进行收集。其优势在于,它充分利用了预训练模型在大规模无监督数据上所学到的语言表示能力,并通过有监督指令微调数据提供任务特定的指导。通过混合无监督数据和有监督数据,包括通用和特定领域的数据,模型能够在微调过程中保持对预训练知识的记忆,从而避免灾难性遗忘的问题。这种方法不仅可以提高模型在特定任务上的性能,还能够增强其泛化能力和适应性。

03

强化对齐

基于人类反馈的强化学习(Reinforcement learning with human feedback,RLHF)是对大语言模型(Large language model,LLM)进行对齐的有效手段。参考Instruct-GPT11和LLaMA24中的做法,我们也对指令微调后的XuanYuan-6B进行了RLHF训练,以进一步对齐模型表现与人类偏好,提高模型通用性、安全性及金融能力。

具体而言,RLHF过程一般包括三个步骤:偏好数据构建、奖励模型(Reward model,RM)训练及强化训练。

打开网易新闻 查看精彩图片

数据偏好构建

偏好数据中包含了人类的偏好信息,一条偏好数据一般由4方面构成,即:(X,Y1,Y2,L)

其中 X为prompt, Y1 和 Y2 为prompt X 的两条response, L为偏好标注信息,其标注了 Y1 和 Y2 哪个更符合人类偏好(在给定 X的条件下)。由此可见,要构建偏好数据集,我们要有prompt、prompt 对应的两个(或多个)response,同时还需要对数据进行偏好标注。

RM训练

使用XuanYuan-6B-SFT作为RM的基本架构。偏好数据中的response由XuanYuan-6B-SFT生成,因此XuanYuan-6B-SFT对偏好数据有更好的适配性,可以快速理解偏好数据并进行偏好建模。

强化训练

强化训练中,actor model和reference model为XuanYuan-6B-SFT,critic model和reward model均采用XuanYuan-6B-SFT作为基本架构,critic model用训练好的RM进行初始化。训练中,actor model和critic model需要进行更新,而reference model和reward model则保持不变。

文老师,所谓“知人而善教”。

模型评估

我们聘请了专业的评估人员进行模型评估,评估题目覆盖通用性、安全性、金融垂类等不同范畴。为避免不同评估人员的喜好偏差,每道题目均由三个不同的评估人员进行评估。评估题目对其他人员完全封闭,避免研发人员通过构造类似的评估题目进行训练来获得更好的评估结果。在评估时,我们的对比对象是XuanYuan-6B-SFT,希望经过强化训练后能进一步提升SFT模型的效果。

打开网易新闻 查看精彩图片

04

在线体验

1

创建在线体验

用户登录之后,点击“模型详情”页面的“在线体验”按钮,用户也可以在“体验”空间页面点击“新建体验”按钮后选择相应的模型镜像进行部署和体验。

打开网易新闻 查看精彩图片

2

填写体验基本信息

在部署模型弹窗中填写体验中英文名称和设置相应属性以及选择好镜像和硬件部署,然后直接点击“下一步”按钮。(注:暂时平台上只有A5000-24G的GPU卡可用)

打开网易新闻 查看精彩图片

3

确认计费方式

选择相应的计费方式,支持按量计费、包周和包月的方式,直接点击“提交订单”即可完成模型部署。按量计费的方式用户可以选择自动停止的时间,也可以到“用户中心-我的资源-体验”手动停止。

打开网易新闻 查看精彩图片

4

创建完成,开始试用

下面点击创建好的服务,就可以进行在线体验了

模型地址:

XuanYuan-6B:

https://wisemodel.cn/models/Duxiaoman-XuanYuan/XuanYuan-6B

XuanYuan-6B-Chat:

https://wisemodel.cn/models/Duxiaoman-XuanYuan/XuanYuan-6B-Chat

度小满主页:

https://wisemodel.cn/organization/Duxiaoman-XuanYuan

加入wisemodel社群

----- END -----

wisemodel相关

系统升级

系列模型:

关于wisemodel更多信息

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。