高书生：人工智能在文化产业的应用和未来发展方向|人工智能|大数据产业|文化产业|高书生

关于人工智能在文化产业的应用和未来发展方向，我有三个基本判断：

PART.01

人工智能目前处于未充分发展阶段

人工智能目前正处于发展阶段。自1956年这一术语提出以来，人工智能的发展经历了多次起伏。特别是前年OpenAI公司发布ChatGPT之后，人工智能领域再次迎来高潮。但这并非终点。OpenAI CEO奥特曼认为，ChatGPT只是向通用人工智能（AGI）迈出的第一步，他致力于开发更高阶的通用人工智能。根据他的判断，预计到2030年之前会出现GPT-10，届时它的智商将超越全人类总和，将比世界上所有人加起来都聪明。

我国张钹院士提出，从大语言模型发展到人工智能是一个艰难的过程。但他也坚信，大语言模型将为通用人工智能的发展开辟一条宽广的道路。

朱松纯认为，大模型的成就堪比“登上了珠峰”，但通用人工智能是“探月工程”。攀登珠穆朗玛峰相对容易，但探月工程的复杂性要高得多。他将生成式人工智能研究比喻为“鹦鹉式”，而他的目标是实现“乌鸦式”的人工智能。这意味着即使在数据量有限的情况下，人工智能也应具备目标设定、行动执行、感知和认知能力。在此基础上发展起来的人工智能可能会成为我们未来发展的主要方向。

基于上述分析，我认为，目前人工智能仍处于发展阶段，尚未获得充分发展，应充分把握其阶段性特点。

PART.02

人工智能在文化产业领域尚未进入规模化应用

文化产业各细分领域对人工智能都有感受。在文化生产领域，人工智能提供了全新的创作工具，助力创作者打破传统局限；在文化体验方面，借助虚拟现实和增强现实等技术，用户可以享受到更加沉浸和互动的文化体验；在文化传播领域，AI利用社交媒体等新兴平台扩大文化作品的传播范围，甚至可能催生全新的传播方式。

人工智能赋能文化产业的发展路径已初现雏形。有学者以上海为例予以说明，例如，在新闻服务领域有澎湃新闻；在出版领域有上海阅文信息技术有限公司；在广播电视节目制作领域有上海电影股份有限公司；在设计服务领域有上海风语筑文化科技股份有限公司；在出版发行领域有上海新华传媒连锁有限公司。

应当说，人工智能在文化产业中有应用，但尚未规模化，仍处于点状分布和细分领域的某一方面，在产业化应用的可能性方面探索比较多，还未进入大规模产业化应用阶段。

PART.03

大语言模型是当下人工智能产业化应用的切入点

国内目前正处于“百模大战”的阶段，截至去年8月，我国已累计发布超过156个大模型，其中参数量达到十亿级的大语言模型超过80个。发展速度迅猛，各参与方的竞争力也不断增强。无论是以百度、阿里为代表的互联网大厂，还是以华为、讯飞等为代表的科技行业巨头，甚至是一些创新型企业，都在积极参与。从去年开始，我国的大模型发展已进入一个较高阶段，各方的积极性都非常高。

在当前阶段，大模型的研发主要由科技公司主导。可以说，科技已经发力，但文化不能缺席。我们一直认为，人工智能是文化和科技深度融合的产物，因为算法、算力和数据是人工智能的三要素。我们过去常说，“兵马未动、粮草先行”，现在是“兵马已动、粮草不足”，导致人工智能和大模型的发展受到很大限制。因此，我们坚持认为，文化和科技的深度融合是推进人工智能发展的必要条件，甚至可以说是充分必要条件。

科技应该与文化携手合作。文化数据应转化为语料库，科技公司则利用其算力和算法进行模型训练。然而，大模型开发完成后，仍需依赖文化，因为文化在两个重要方面发挥作用：一是开发大模型，二是构建应用场景。在开发大模型和构建应用场景方面，文化的应用前景非常广阔。

中共中央办公厅、国务院办公厅印发的《关于推进实施国家文化数字化战略的意见》中明确提出，我国的文化数据来源主要包括三个方面：第一是汇集，即汇集全国性的文化资源的普查数据；第二是采集，即中华民族文化基因数据；第三是贯通，即贯通已建或在建的文化专题数据库。

目前，全国性的文化资源普查已积累了大量数据，包括文物、非遗、古籍、美术作品以及各类戏曲剧种，这些数据分布在不同的单位和部门。

在采集方面，近年来也取得了快速发展。例如，故宫博物院的186万件藏品中，已有90万件完成了数据化采集，占比近50%；国家博物馆的143万件藏品中，超过一半已实现数字化采集；中国美术馆的13万件藏品中，有10万件套完成了数字化采集，约占76.9%；国家图书馆的317万件藏品中，有61万册实现了数字化采集。自2020年起，中宣部牵头建设的红色基因库，已对全国78家爱国主义教育示范基地中的红色纪念馆藏品进行了数字化采集，积攒了大量的数据。

在出版界，各类数据库也非常丰富，包括图书、期刊及其他领域的数据库。地方志资源同样丰富且工作体系完整，从中央到县区都设有严密的地方志工作机构。到2020年底，已完成编纂的地方志书超过5000部。此外，还有部门志、行业志、专题志，包括乡镇志、村志等，数量也非常庞大。同时，还有整理出版的旧书地方和数字方志数据库。

中国公共关系协会文化大数据产业委员会从去年开始，在推动建设国家文化大数据标识基地，主要从事数据分类、编录、标引和赋码等工作，目标是把中华民族5000多年的文化资源转化为具有文化内涵的数据，形成文化大数据，增强价值观认同。

去年7月，专委会联合华为云开发文化大模型，目前已完成了公测。文化大模型是基于华为云的盘古大模型和知网的华知大模型这两个基础模型上构建的行业模型（L1模型），各文化单位可以在文化大模型的基础上，开发自己的场景模型，即L2模型。简单来说，盘古大模型相当于高中毕业水平，华知大模型相当于本科毕业水平，而文化大模型则相当于研究生水平。各单位在此基础上进一步开发，就如同博士生水平的工作。实际上，要求每家文化单位都去开发大模型并不现实。

尽管许多机构拥有大量数据，但进行标注的数据却不多。利用文化大模型可以实现数据的自动标注，这将催生新的产业，如数据标注师这一新职业，以及数据的产业链。在这方面，财政部去年发布的关于企业数据资源会计处理的暂行规定，为大模型的开发应用提供了支持。这一规定使得数据资源从今年1月1日起可以计入资产负债表，为文化机构带来了重要机遇。

在过去，推动文化产业发展的过程中，融资难、融资贵的问题一直存在，主要是因为文化单位多为轻资产，缺乏重资产。这使得它们在贷款或上市融资时受到限制。然而，随着数据资源计入资产负债表，我们可以扩大资产规模，提高融资能力，最重要的是增强经营实力。这一问题已引起广泛关注，因此我们计划于本月24日至26日在南京举办一次研讨班，专门讨论如何处理文化企业数据资源入表的问题。

需要强调的是，数据资源入表与数据资产评估是两个不同的概念。财政部文件中提到的是数据资源相关的会计处理暂行规定，即数据资源入表。入表前称为资源，入表后则成为资产。此外，入表时按历史成本计算，而作为资产评估时则需考虑多种因素。不同的业务模式，数据资源入表的过程和会计处理方式也会有所不同，这是一个需要专业处理的重要问题。

因此，文化数字化为推动数据资源入表提供了良好的条件，包括数据标识、确权和交易。最后，我想强调，我们开发大模型的目的是为了构建专业模型，让大家能以较低成本应用AI技术，这是我们需要重点关注的课题。

我认为，文化机构和文化人无需感到自卑。我们手头掌握着数据，如果仅仅依靠出售这些数据来赚取收入，那只是小钱。如果我们拥有数据，我们应当利用它们来开发新产品和提供新服务，这是我们的发展方向。现在大家都在谈论不同的生产方式，从PGC（专业生成内容）到UGC（用户生成内容），再到AIGC（人工智能生成内容）。但我们认为，在进入AIGC阶段后，仍然需要PGC的加持。因此，我们觉得在大模型和应用场景之间应该建立一个训练答案池。在这方面，文化机构具有天然优势。在进入消费端之前，我们必须建立一个隔离带，即专业化的核验。我们首先要面向企业（ToB），然后再面向消费者（ToC），这可能是我们下一步发展的方向。

（这是作者在2024新闻出版单位数字出版工作交流会上的发言）

作者介绍：