作者，你的书正在免费喂养大数据模型AI|书业|人工智能|图书|大数据模型|纸质书|读者

如果总结2023年的年度热词，那肯定莫过于“人工智能”，全球科技巨头都将人工智能视为下一个技术引爆点，纷纷砸入巨额投资展开研发与竞争，由OpenAI开发的ChatGPT尤属顶流；谷歌把人工智能作为未来重大战略，全力开发“谷歌大脑”;Facebook斥巨资成立人工智能实验室;微软推出旨在探索人类大脑奥秘的人工智能系统“Adam”(亚当)，参与抗衡。

人工智能的关键环节，是大数据模型的建立，大数据模型是对大数据集进行建模和分析的方法。它是一种用于揭示数据中隐藏的模式、趋势和关联性的数学和统计模型。大数据模型的目标是从海量的数据中提取有用的信息和知识，以支持决策和预测。

这就需要大量的数据和内容供人工智能的采集、筛选、训练。以ChatGPT为例，2018年以来，大语言模型训练使用的数据集规模持续增长。2018年的GPT-1数据集约4.6GB，2020年的GPT-3数据集达到了753GB，而到了2021年的Gopher，数据集规模已经达到了10,550GB。总结来说，从GPT-1到LLaMA的大语言模型数据集主要包含六类：维基百科、书籍、期刊、Reddit链接、Common Crawl和其他数据集。

01、AI正在吞噬作家的心血

作为人类智慧的结晶的书籍，自然是大数据模型的最佳喂养数据之一。然则，代表最前沿科技能力的大模型数据AI的手段却不太光明：

“据路透社报道，2023年12月20日，11 名非虚构类书籍的作者在曼哈顿联邦法院提起诉讼，指控 OpenAI 和微软滥用自己所著的书籍来训练 ChatGPT 和其他 AI 软件背后的大模型。这些作家包括普利策奖获得者凯·伯德、泰勒·布兰奇、史黛西·希夫，他们曾共同撰写奥本海默传记《美国的普罗米修斯》。”

“彭博社报道，美国多名作家近日向纽约联邦法院提起诉讼，指控 Meta、微软等科技巨头未经许可使用他们的作品来训练 AI 模型。这一作家团体周二提交了拟议集体版权诉讼，文件称 Meta 和微软采用了具有争议的“Books3”（“Books3”数据集包含了成千上万本盗版书。）数据集来训练他们的大模型，告诉大模型如何回应人类的提示和指令。”

这两起事件，代表了作者团体对Ai侵权的抗争。强化机器学习能力离不开对既有内容型作品的大规模获取与利用，其中的作品使用方式多元，可能侵害不同的权利内容：

一是复制权。生成式人工智能需要将受版权保护的作品转换并制作为一份或者多份数字格式文件，存储并形成数据作品库，以便后续的文本和数据挖掘。这种数字化作品过程涉及对原作者复制权的侵犯。

二是改编权。尽管生成式人工智能可能创作出具有独创性的新作品，但如果该作品是在保留他人既有作品的基础上进行的演绎，仍然属于侵害改编权的行为。

三是汇编权。如果生成式人工智能经过自主选择或编排，汇集既有作品或者作品的片段而形成新作品，将会侵害不同作者的汇编权。

四是信息网络传播权。通常而言，生成式人工智能的“机器学习”与“模型创建”位于智能系统内部层面，不与公众发生直接接触；然而，随着信息传输、大数据等计算机技术的广泛应用，数据集合容易在互联网领域得到公开，使得公众在其选定的时间和地点获得相关数字化作品，相关情形可能侵犯原作者的信息网络传播权。

电子书作为web1.0和2.0技术发展的产物，并未给作者、版权方带来多少收益。在web3.0和数字大模型AI到来之际，技术的发展又再一次成为背刺作者、书业的载体。有人说这是文明的退步，也有人说这是道德的沦丧。其实，这只是现代书业在技术驱动下的不得不经历的试错成本。

02、现代书业的2.0版本，无法延续辉煌

现代书业从PC信息时代到移动互联网时代，再到人工智能时代，在短短20年间跨越了3个时代，经历了从最初的探索到繁荣到衰退的过程。究其原因就是时代发展的太快，而技术解决方案跟不上。

如果说，纸质书是现代书业的1.0版本，那么电子书就是现代书业的2.0版本，而数字图书则是现代书业的3.0版本。不同的时代需要不同的技术解决方案来适配。

PC信息时代诞生的电子书，其商业模式在移动互联网时代的弊端暴露无遗，造成了书业整体利益的下滑。行业里更是喊出“别了，电子书”的口号。可以说电子书的技术方案在移动互联网时代就已经落后了。

电子书的商业模式主要采用“信息网络传播权”授权机制，互联网平台与出版社签订授权协议后，书籍内容便可以放在互联网上或免费阅读、或点击阅读，当拥有了用户和流量后，互联网平台便有成千上万种方式变现获利。

看似合理的商业模式，由于出版社和作者没有监管、监测的能力，实则漏洞百出：光明网记者深入调研后在《作家们，你们拿到过数字出版的稿酬吗？》一文中写到“有一大批作家在数字出版方面，要么是签约后得不到任何稿费，要么得不到应有的报酬。”“文学批评家任芙康说，凡熟悉的作家，几乎无一幸免，都曾深受数字出版的困扰。他的记忆中，大约从十来年前开始，作家们（不涉及网络作家）便发现自己的作品在网上传播，被无偿消费。”

互联网平台既然可以通过牺牲书业赖以为生的内容换取流量，在大数据AI时代来临，无限商业利益近在眼前之际，自然也可以拿书籍内容喂养大数据模型，因为这个利益太大了：

在过去的2023年，拥有“知识服务数据库”的上市企业均获得了巨大的收益，以龙版传媒为例，仅是拥有一款对边疆学者研究著作内容进行电子整理后形成的数字阅读网上平台，收集图书不足100册，日均浏览量较小，项目目前暂未实现盈收的“多维边疆知识服务产品数据库”的产品，就让龙版传媒股价两个月涨了将近200%。而作者、书业链条的参与者们获得了什么呢？

可见，以“信息网络传播权”授权为商业模式的电子书解决方案，不能让现代书业在科技的发展下获益。现代书业的2.0版本已经落后了，我们需要新的技术方案以适应Ai人工智能时代的发展。

03、书业如何实现与人工智能的融合发展

人工智能的算力正以每3个月就翻一倍的速度在增长。面对技术的极速进步，书业应该“固步自封”“闭关守国”的退回到现代书业的1.0阶段纸质书时期。还是积极探索新的技术方案与商业模式，实现与AI的融合发展？

行业专家的观点：

作者将数字图书的出版发行权利授权给出版社，出版社将数字图书以与纸质书相同的模式、标准进行出版、发行，读者在完成数字图书的购买后，作者获得了版税，读者也拥有了这本数字图书。读者有权运用AI对数字图书进行内容解析，协助阅读、理解。这是符合各方需求的解决方式。读者在完成数字图书的购买后，作者获得了版税，读者也拥有这本书籍，可以运用AI解析内容，协助阅读、理解。这是符合各方需求的解决方式。

举个例子，好比消费者购买一本纸质书后，可以自己阅读，也可以请“专家”帮忙解读，专家可以提炼书中精华，向消费者解释困惑的地方。但是如果“专家”解读的书没有合法来源，就向消费者提供书中精华内容，是违法的。更不可以向无数来咨询的人“复述”书中的内容。当然，现实中的专家无法做到这些，但这对于AI来说就易如反掌了。

这么做有个前提条件，书籍要以数字的形式按本按册的出版发行出来，形成具有资产属性，可以独立流转的复制件。每一本书在交易完成后，即权利用尽，完成物权的转移。消费者购买了该本书后，取得了该书的所有权，可以占有、使用、处分、获益。

这样的书显然已经不是电子书的权益范畴，而是包含商品属性的数字资产，业界称这样的数字出版物为“数字图书”，即现代书业的3.0升级版本。

数字图书和电子书的核心差异：

交易的对象是否为拥有数字资产属性的商品。数字图书是基于文本复制件的出版发行，交易的是复制件这个商品。而电子书是文本的在线浏览，交易的是浏览服务。

举个例子，比如我们现在打开电脑里一个叫“合作”的word文件，选择另存则生成了一个叫“合作01”的复制件，你把“合作01”这个复制件以10元的价钱卖给我，我就永久拥有了它，我想怎么使用就是我的事情了，而你不能以任何形式来阻止我使用它。这个就是数字图书复制件的销售逻辑。而电子书的逻辑是，你把这个叫合作的word文件，上传到如“腾讯文档”空间，收同样的价格，但对用户仅开放查看权限。这就是这两种书籍在技术和商业模式上的差异。

数字图书和电子书，在著作权适用的法律条例上，作者版权的获益方式上，以及供应方式，流通管控，市场交易规模，结算方式，乃至读者权益，均不相同。

而数字图书与纸质书的商业模式则完全一样，以商品作为交易对象，以版税作为结算方式。这样的出版逻辑使书业在工业时代长盛不衰。而颠覆了出版逻辑的电子书，则水土不服，导致行业逐年下滑。数字图书没有颠覆书业的出版逻辑，而是将书籍的技术解决方案进行升级，使数字文本和纸质书一样，尊重出版的逻辑和商业模式，确保书业的商业利益在不同时代技术背景下的适配。

科技是把双刃剑，可以成就一个行业，也可以摧毁一个行业。只有找到行业的逻辑和规律，才能以恰当的技术解决方案和商业模式来适应时代的发展要求。我们要寻找合理、合法的方式，结合AI技术为书业赋能，书业才能永恒长兴。

AI时代的到来，对于书业从业者而言，拥抱时代的变化已是必然之选，数字图书的技术发展解决了AI侵权的巨大隐患，行业应积极探索与改变，或许能为书业打开新时代发展的新思路。