“狂飙”过后大模型该走向何方|人工智能|何方|大模型|语料

原标题：“狂飙”过后大模型该走向何方

▲ 戳蓝色字关注我们！

自从一年前ChatGPT突然爆火，到不久前文生视频大模型Sora以霸屏之势吸引全球舆论关注，与AI大模型相关的议题越来越多地被大众所讨论。为了抢抓机遇，国内不少科技企业争相上线生成式AI。

有报告显示，截至2023年10月，国内公开的AI大模型数量已经达到238个，仅次于美国。过去5年世界上参数量超过百亿的大模型大约有45个，其中9个出现在中国。

狂热之下不乏担忧，“狂飙突进”的大模型还面临哪些突出问题？有何危害？未来将走向何方？

我国大模型发展势头正猛，很多科技企业有敏锐性，敢于探索和创新，值得肯定。但在一路“狂飙”过后，不难发现其在“野蛮生长”过程中产生的一些乱象。

一味盲目跟风。可以说，质量和数量的矛盾始终伴随着大模型的“井喷式”发展。一些企业一味追逐热点，“能不能用不重要，但首先要拥有”“人工智能时代，没有大模型的科技企业就意味着落伍”，在不具备强大的研发和投资能力的情况下，盲目开发低质量产品，没多久便被用户弃用，落入“昙花一现”的尴尬境地。

研发涉嫌模仿。仍有一些大模型因涉嫌“微调国外底座模型”而备受舆论争议。在这个快速发展但充满不确定性的领域里，一些企业更愿意选择“站在巨人肩膀上”，以降低失败风险。去年，一家公司创办的大模型就曾陷入“套壳”风波。尽管该公司坚决否认抄袭，却承认其使用Meta发布的开源大模型LLaMA架构的事实，称只是在此基础上进行研发。

应用效果欠佳。大模型同质化、缺乏多样性成为饱受诟病的问题。不少大模型采用同样的数据集、训练方法等，输出雷同的问题答案。此外，高质量语料短缺也严重制约着大模型的发展。AI写作、AI设计、AI社交等应用被吹上了天，人工智能看似“无所不能”，然而面对“是谁提出了新三民主义”“最近5年中国的GDP数据是多少”等具体问题时，不少大模型表现欠佳。

图源：视觉中国

有观点认为，任何一项新技术都会经历被质疑被挑战后的冷静思考期，并通过相对较长时间的迭代，才能实现从技术到产品的跨越，大模型也不例外。当前出现的一些乱象和质疑背后，实则有着多方面原因。

一方面，美国不断升级科技制裁，一波操作下来，给国内大模型研发带来的“卡脖子”风险是显而易见的；另一方面，中国在大模型领域起步比美国晚，一些大模型企业生怕错过“风口”，存在投机取巧、走捷径等心理，不愿在基础研究和技术创新方面狠下功夫。加之大模型需要不断投喂语料、反复训练，而互联网上可供爬取的高质量中文语料有限，因而产品的用户体验等方面难免不尽如人意。

尽管我们难以判断“大模型热”将持续多久，但如果不能穿透舆论迷雾，理性看待这股大模型热潮，就难免被卷入潜在风险之中。

缺乏原始创新被“牵鼻子”。有报道称，目前国内外很多大模型训练时都是采用谷歌的Transformer模型，这就好比“在别人的地基上盖房子”。缺乏原创性理论突破和核心技术创新，是我国大模型发展面临的主要瓶颈。上世纪60年代，我国实现原子弹到氢弹的突破，关键就在于“邓-于理论方案”的提出和发现，倘若照抄美国的“泰勒方案”，或是苏联的“萨哈罗夫方案”，奇迹便不会发生。

过度“内卷”造成资源浪费。大模型犹如一只“吞金巨兽”，需要耗费高昂的训练成本，盲目跟风“内卷”势必导致重复投资、资源浪费。近日，有关部门负责人介绍，中国10亿参数规模以上的大模型数量已超100个。通常参数越多意味着模型能力越强，但一定程度上也意味着在训练过程中需要庞大的计算能力来处理这些参数的更新，这就导致对芯片等硬件的过度需求。

大模型滥用带来安全风险。训练数据进入模型后，其内部处理过程类似“黑盒”，用户并不清楚自己输入的数据如何被使用。各类企业一哄而上研发大模型，违规收集数据的风险加大。去年，某款基于生成式人工智能的摄影软件就因存在滥用用户信息的嫌疑引发用户强烈抗议。此外，一些大模型的训练语料库质量不高，包含大量虚假、色情、暴力等有害信息。

图源：视觉中国

大模型作为人工智能发展的重要方向之一，拥有广阔的应用前景和发展前景。其发展是一场比拼耐力、实力的马拉松，跟在别人后面“邯郸学步”难有出路。针对当前国内大模型领域存在的各种问题，我们需要加以重视并积极解决，变“追随”为“领跑”，实现自主、开放、可控。笔者认为，可以从四个方面进行提升。

自主创新才能免于受制于人。不少学者提出，中国必须要研究开发自己的“底座”基础大模型，这就非得加大投入、走自主创新的道路不可。面对“牵鼻子”“卡脖子”等难题，既应保持科技战略上的清醒，也该注重战术上的创新探索，走自己的路，摆脱对西方信息技术的“路径依赖”“方法依赖”“工具依赖”。比如，政策上突出鼓励基础研究和原始创新导向，持续加大技术研发投入，强化生态链建设；设立专项基金，专门用于大模型的研发和训练；构建中国自主知识体系，“用我家笔墨，写我家山水”，在人才培养方面更加强调原创精神、创新意识，在人才评价方面更加强调解决实际问题等。

Sora的横空出世也预示着，未来大模型需要处理更加多样的数据和更加复杂的应用场景，国产大模型只有探索自己的科研创新道路才能摆脱追随式的路径依赖。当然，在这个过程中，不是说要单打独斗、闭门造车。组织科技巨头企业建立联盟，集中全国顶尖人才和优质资源进行攻坚，都有助于形成合力。

垂直大模型或成“更优解”。有人将通用大模型和专用大模型比喻为“通才”和“专才”，前者用一个模型解决人类面临的各方面问题，而后者用于解决特定领域的问题。不难发现，很多大模型在面对写诗等不存在唯一正确答案的问题时，常常表现完美，但在面对一些具体问题时，却错误百出。

对此，一方面，提高语料质量至关重要，使用专用数据库对模型进行专业训练，有望解决一些模型“一本正经地胡说八道”的问题。另一方面，垂直化或成未来大模型发展的必然趋势。与其挤在同一个赛道“重复造轮子”，不如另辟蹊径，让AI真正应用到各行各业，更加精准地匹配产业链中的供给与需求，像比如医疗、交通、教育、金融等特定领域的专业模型可能带来更多发展机遇。

应对安全风险需戴“紧箍咒”。实施强有力的合规监管必不可少。去年以来，《生成式人工智能服务管理暂行办法》等正式施行，配套支撑的《生成式人工智能服务安全基本要求》《信息安全技术生成式人工智能预训练和优化训练数据安全规范》《信息安全技术生成式人工智能人工标注安全规范》等相关标准也已发布，意味着国内大模型的监管已渐成体系。有关部门有必要据此继续加强对大模型的实时监管，对输出违法违规信息内容的大模型开发者依法予以处置处罚。

理性看待“大模型热”。构建大模型是一项成本极高的系统工程，盲目开发低质量大模型不仅浪费资源，且终将被市场淘汰。保持理性客观，因地制宜，不被舆论和资本裹挟，避免“国外炒什么概念，我们就跟什么风”，是科技企业的务实之选。任何一项新技术，只有与国内的发展实际以及产业布局、市场需求等相结合，才会更好生根发芽。

正如习近平总书记所强调：“实现科技自立自强，既要把握当今科技发展的大方向，又要坚持以我为主，突出问题导向和需求导向，提升科技创新投入效能。”理想主义的花朵，最终要盛开在现实主义的土壤里。当“大模型热”退散之后，能够经受市场洗礼的，还是那些拥有原创技术、用户体验好、能落地生花的产品。

各位读者：在下方评论区留言，留言在本文发布的24小时以内得到点赞数最高者，将获赠《话由心生》 一套。您怎么看待“大模型热”？在评论区聊一聊想法吧！

声明：稿件未经授权，不得转载。

“狂飙”过后大模型该走向何方

热搜

热门跟贴