国产ChatGPT发展面临的困境

计算资源和算法挑战:大语言模型需要大量的计算资源和高效的算法支持,以处理海量的数据和复杂的任务。例如,大语言模型需要处理大规模的自然语言处理任务,需要进行大规模的并行计算和优化。

隐私和安全挑战:大语言模型的训练和使用涉及到用户隐私和数据安全的问题,需要进行严格的隐私保护和安全控制。

可解释性和可靠性挑战:大语言模型的结果可能存在不确定性和不稳定性,需要进行更深入的可解释性和可靠性研究。

适用场景限制:大语言模型适用于特定的应用场景,需要根据具体的应用场景进行定制化开发。

国内各大模型盘点

1.百度文心大模型

文心大模型构建了基础-任务-行业三级大模型体系,已实现AI应用场景全覆盖,现阶段包括NLP、CV、跨模态、生物计算与行业大模型:

打开网易新闻 查看精彩图片

文心·NLP大模型:基于知识增强语义理解技术,从海量数据和多源丰富知识中融合学习,具备超强语言理解及语言生成能力,包括文心一言(ERNIE Bot)、鹏城-百度·文心、ERNIE 3.0 Zeus、PLATO、ERNIE-M、ERNIE-Search、ERNIE-Code 等。

文心·CV大模型:基于海量图像、视频数据,面向广泛视觉技术应用场景打造的视觉基础模型,以及视觉任务定制与应用能力,基于百度飞桨深度学习框架开发的生物计算平台,提供AI+生物计算能力,满足新药研发、疫苗设计、精准医疗场景的AI需求。

打开网易新闻 查看精彩图片

包括VIMER-UMS、VIMER-StrucTexT、VIMER-UFO 等。

文心·跨模态大模型:基于知识增强的跨模态语义理解关键技术研制的跨模态理解与生成大模型,可实现跨模态检索、图文生成、图片文档的信息抽取等,包括ERNIE-ViLG、ERNIE-Layout 等。

打开网易新闻 查看精彩图片

文心·生物计算大模型:融合自监督和多任务学习,并融入生物领域研究对象的特性,构建面向化合物分子、蛋白分子的生物计算大模型,包括 HelixGEM、HelixFold 等。

打开网易新闻 查看精彩图片

文心·行业大模型:在通用的文心知识增强大模型基础上,学习行业特色数据与知识,打造行业大模型,已在能源、金融、航天、制造、传媒等多个领域联合发布行业大模型。

2.阿里通义大模型

阿里的通义大模型是一个非常先进的模型,它是阿里巴巴达摩院在大模型领域的最新成果。通义大模型是基于通用语言模型(StructBERT) 和生成式 (PALM) 的基础上发展而来的,它包含了多个模型。

如M6-OFA、AliceMind、StructuredLM-ViLG、多模态 (StructVBERT) 和 mPLUG,可以用于多种任务和场景,如自然语言处理、计算机视觉和文本生成等。

打开网易新闻 查看精彩图片

通义大模型的核心是通用统一大模型(M6-OFA),它是一个10万亿参数的模型,可以同时处理图像描述、视觉定位、文生图、视觉蕴含、文档摘要等10余项单模态和跨模态任务,效果达到了国际领先水平。

此外,通义大模型还采用了通用的统一底座(M6-OFA),它可以在不引入新增结构的情况下,同时处理多项任务,提高了模型的通用性和易用性。

阿里巴巴达摩院一直致力于大模型技术的研究和发展,通义大模型是其在该领域的重要成果之一。该模型的发布标志着大模型技术的突破,为人工智能的发展提供了更加强大的基础设施和更广阔的应用前景。

打开网易新闻 查看精彩图片

4月7日,阿里云宣布其自己研发的大模型“通义千问”发布。模型正在测试阶段,定向邀请企业用户进行体验测试,可以通过官网申请:tongyi.aliyun.com。

3.华为盘古大模型

华为盘古大模型是华为旗下的盘古系列AI大模型,包括NLP大模型、CV大模型、科学计算大模型。

打开网易新闻 查看精彩图片

在自然语言处理领域,盘古大模型能够帮助企业构建自己的模型,通过接入模型即可使用预训练的预测结果,无需自己再去预测,从根本上提升了开发效率,而且模型的性能也得到了显著的提升。

在计算机视觉领域,盘古大模型能够帮助企业完成图像分类、目标检测、分割等任务,并且在图像分类任务上,精度已经达到了业界领先的水平。

在文本领域,盘古大模型能够帮助企业完成文本分类、关键词提取等任务,并且在文本分类任务上,精度已经达到了业界领先的水平。

目前华为盘古大模型主要面向B端用户,没有针对C端类似ChatGPT的产品。

4.腾讯混元大模型

腾讯混元大模型是腾讯开发的一款基于多模态的大规模预训练语言模型,旨在为多模态内容生成、文本生成、图像生成等任务提供更好的性能和效果。

该模型包含了计算机视觉、自然语言处理、多模态内容理解、文案生成、文生视频等多个方向的超大规模AI智能模型,其中多模态内容理解方向的模型规模达到了惊人的1万亿参数。

在跨模态检索方面,腾讯混元大模型也取得了不错的成绩。在MSR-VTT、MSVD、LSMDC、DiDeMo和ActivityNet 五大跨模态视频检索数据集榜单中,该模型先后取得了第一名的成绩,实现了该领域的大满贯。

打开网易新闻 查看精彩图片

在MSR-VTT榜单上,该模型将文字-视频检索精度提高到了55%,领先第二名1.7%,位居行业第一。此外,在CLUE(中文语言理解评测集合)总排行榜、阅读理解、大规模知识图谱三个榜单中,该模型也同时登顶,一举打破三项纪录。

腾讯混元大模型的研发团队由腾讯AI实验室、优图实验室和腾讯优图实验室的研究员组成,致力于推动人工智能技术的发展和应用。该模型的优化和改进工作也是在腾讯AI实验室内部开展,不断进行优化和调试,以提高模型的性能和表现。

此外还有科大讯飞的思念大语言模型、搜狗的文心一言、清华计图的扶摇大模型、中科院计算所的声学所大模型等。

这些大模型在自然语言处理、计算机视觉和文本等领域都有着广泛的应用,并且都有着不同的特点和优势。

总结

尽管国内大模型遍地开花,但这只是一个开始,不管是从硬件还是算法层面,国内Ai行业发展都不容乐观。

硬件方面,英伟达高端GPU被禁运,国内能拿到的高端GPU数量极少。现在虽然可以靠着增加参数和丰富训练经验,投入更多资源来掩盖国内算力不足的情况。但从长远来看,高端GPU的缺失,将会是一把悬在国产Ai发展之路上的铡刀,不知道何时就会落下来。

算法层面,国内Ai也面临极其尴尬的境况,国外Ai不再开源,国内Ai发展怎么走出一条崭新的道路,这才是最困难的地方。至于国产ChatGPT能否真正对标ChatGPT,只能说,我们还有很长的路要走。

如果只是做外面漂亮的包装产品,忽略硬件和算法层面的不足,创造出来的东西也只是一个漂亮的空壳。潮水褪去以后,裸泳的人自然会浮出水面。

注:

GPU是图形处理器(Graphics Processing Unit)的缩写,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。

GPU 的作用

加速训练:大型语言模型的训练过程需要大量的计算资源,例如向量化、矩阵乘法、优化等操作。GPU 可以通过并行计算的方式大大加速训练过程,提高训练速度和准确率。

加速数据处理:大型语言模型需要处理大量的数据,例如预处理、压缩、归一化等操作。GPU 可以通过显卡硬件加速这些数据处理操作,提高数据处理效率。

加速图像处理:GPU 在图像处理方面的性能也非常出色。例如,在图像变换、图像滤波、图像增强等操作中,GPU 可以通过并行计算的方式大大提高计算效率。

提高可扩展性:大型语言模型的训练和应用通常需要较大的计算资源和存储资源,而GPU 可以通过可编程的方式灵活地调整计算资源和存储资源,提高模型的可扩展性。

GPU 在大型语言模型中的意义在于通过并行计算的方式加速训练过程、数据处理和图像处理等操作,从而提高模型的性能和可扩展性。