数智化时代，怎样建设符合主流价值观的语料库|价值观|伦理|数智化|翻译|语料库

习近平总书记指出，在移动互联网、大数据、超级计算、传感网、脑科学等新理论新技术的驱动下，人工智能呈现出深度学习、跨界融合、人机协同、群智开放、自主操控等特征，正在对经济社会发展、国家治理、国际格局等产生重大而深远的影响。

在聚力国产大模型创新及其应用场景拓展的背景下，实现网络空间场域价值引领是人工智能发展的重要问题。从技术角度看，人工智能是价值中立的。但从社会意识角度看，人工智能是承载价值的技术。在算法和语料的加持下，人工智能信息交互不可避免地存在价值引领，会潜移默化地对思维与观念产生影响。

新形势下，要在大模型发展竞争中把握价值主导权，必须有规范的语料库为基座支撑。语料库特指经过系统化采集、结构化处理的大规模真实语言数据集合，既包括通用语料库与专用语料库，也包含单模态语料库与多模态语料库。加快建设主流价值观语料库，可以为主流价值观引领提供底层支撑，为意识形态领域风险应对提供安全保障，是推动人工智能技术向善发展的必然要求。

主流价值观语料库建设是加强主流价值观引领的底层支撑——

主流价值观语料库建设可以为大模型创新提供预训练语料。通过构建多来源、多渠道、全模态数据系统化采集体系，全面检索、整理、分类、标注语料，收录与主流价值观相关的图文、音视频等多模态语料，包括经典文献、政策文件、领导人讲话、新闻报道、优质文化产品、优秀网络作品等，运用自然语言处理技术解析语料资源的语法结构和语义特征，形成易于检索和理解的语义单元，再经过信息净化、知识提纯、价值观校准等多层过滤，标注价值标签，构造权威性、多样性、时代性、结构化、涵盖多种媒介和表达形式的语料资源池，为大模型创新与应用提供权威性的、符合主流价值观的预训练语料。

主流价值观语料库建设可以展示国家文化软实力。在大模型创新、传播和应用过程中，语料库所提供的语料可以展示国家的价值理念、道德风尚和文化特色，增强受众的国家认同感和归属感，提升国家形象和影响力。作为话语权竞争工具，主流价值观语料库通过对中华优秀传统文化、新时代主流意识形态话语等语料的吸收，推动场景式、强交互的数字表达，为中国叙事、中国故事提供丰富的素材和案例，使应用场景更具中国文化特色，在价值引领与文化传播中展现出更为显著的优势。

主流价值观语料库构建是应对意识形态风险的安全保障——

大模型承载的价值属性，使其应用存在明显意识形态风险。ChatGPT等大模型的训练数据主要来源于英文语料，原始数据集存在的种族、性别、阶层结构会导致原始偏误的传播，如以男性或白人为主的数据集训练出来的算法会对女性或其他族裔产生歧视，其他歧视性言论、敏感信息等消极、负面语料供给将产生意识形态风险。

主流价值观语料库建设可以提升大模型语料时效性与准确性。主流价值观语料库中经过筛选的语料，可以作为判断信息真伪、辨别思想倾向的重要依据。一方面，通过研发价值观语义分析模型，对文本价值观进行语义分析，识别其中的情感色彩、价值导向等关键信息，帮助系统更准确地理解文本内容。另一方面，通过定期筛选、更新语料库，淘汰过时或低质量内容等方式，确保语料规范、准确，有效提升意识形态领域风险防控的针对性和精准度。

主流价值观语料库建设可以提升网络空间治理的规范性。语料库可以根据与主流价值观契合程度进行量化指标设计，确定分类分级标准，并根据网络信息内容质量进行多维度评估，锁定违反法律法规、破坏社会稳定、煽动民族仇恨等违法和不良信息，助力网络综合治理。同时，语料库内容可以翻译成多国语言，生成多模态内容，以音视频等通俗化、可视化形式呈现，丰富国际传播内容矩阵，打造国际话语传播合作机制，助力中国积极参与国际网络空间治理。

主流价值观语料库建设是推动技术向善发展的必然要求——

主流价值观语料库建设可以解决信息异化问题，规范大模型创新与应用的伦理价值。人工智能要素涉及大量伦理价值，研发人员、预训练数据等都需要遵循人类共同的伦理价值。主流价值观语料库提供的语料，能够引导大模型以积极、健康、正面的方式与用户进行交互，避免低俗、暴力、色情等违法和不良信息传播；通过算法推荐，打破信息茧房，为用户提供多元、平衡的信息源，促进信息生态健康发展，丰富公众信息内容，减少盲目跟风与极端言论的产生。

主流价值观语料库可以通过伦理审查、风险评估等增强教育针对性和实效性。伦理审查、风险评估能够确保算法设计与产品功能符合人类社会的伦理规范和道德准则，推动人工智能技术向更加安全、可信、可靠、有益的方向发展。比如，在具身智能发展过程中，塑造智能体的行为准则和价值取向，确保其不违背伦理原则。通过语料收集、知识标识、价值观校准等工作，形成建设基准及操作手册，使具身智能保持向善的伦理维度。

总之，语料库是包含价值观的数据集合。主流价值观语料库建设应当成为大模型创新发展的题中应有之义。要在加强与完善顶层设计的基础上，明确语料库建设标准，发动政府、社会、市场等多元主体共同参与，构建一体化数据平台，实现语料资源的集中存储、统一管理、高效利用，确保大模型创新发展与应用符合社会主义核心价值观要求，确保朝着有益、安全、公平方向健康有序发展。

（作者分别为上海工程技术大学教授刘志欣、上海工程技术大学中共党史党建研究院研究人员李心怡）

原标题：《数智化时代，怎样建设符合主流价值观的语料库》

栏目主编：王珍题图来源：新华社

本文系国家社科基金项目《紧急状态与常态治理的耦合及其法治化路径研究》【21BFX 045】阶段性研究成果

来源：作者：刘志欣李心怡

数智化时代，怎样建设符合主流价值观的语料库

热搜

热门跟贴