什么是合成数据？有哪些合成数据的方法？回应来了！|合成数据|大模型|样本|算法|编码器

随着大模型训练持续火爆，按Scaling law（尺度定律）“大力出奇迹”的思路，模型性能提升所需的训练数据量只会越来越多。

但问题在于：可以有效训练的高质量数据已经快消耗殆尽，而很多数据样本因为隐私保护或难以获取，无法投入到模型训练中，赋能实际业务场景。

以上导致的“训练数据荒”，使得高质量数据采集越来越难，也越来越贵，同时制约了大模型应用在各行业的落地。

据知名AI研究机构Epochai预测：到2026年，大模型可用的高质量数据将被消耗殆尽，低质量数据及图像训练数据也将在2030-2060年间被消耗完。

如何有效解决这一难题？合成数据，作为大模型训练数据源的有力补充和替代方案很快被推到台前。

什么是合成数据？它有何特点和优势？如何合成数据？如果你也好奇，下面不妨和司普科技1号解说员小司一起来看看。

合成数据（英文全称：Synthetic Data），简单来说，就是人为通过算法和统计模型创建的数据。

它最早于1993 年由统计学家唐纳德·B·鲁宾 (Donald B. Rubin) 提出，目前被广泛引用，并在金融保险、医疗制药、汽车制造、零售、自动驾驶等领域都有或深或浅的应用。

合成数据的产生原理，很大程度上在于模拟真实数据的分布特征和统计特性，再通过生成模型创建新的数据集，用来辅助真实训练数据样本不足或使用受限情况下（如数据敏感或隐私保护）的模型训练、测试和开发。

广义上，因为合成数据保留了和真实世界数据相同的结构或分布，却不包含原始信息，所以主要被用来代替原始数据用于模型训练和下游任务。

不过在实际应用中，出于数据可用性或真实场景数据对强化模型泛化能力的考虑，也有人基于原始数据样本，通过部分合成的方式（比如利用‌数据填补的方法替换原本的敏感和关键字段，进行局部数据的合成），生成相应的合成数据。所以，在有些分类中，合成数据又包含全部合成、部分合成、混用多种形态。

目前，合成数据在模型训练和数据集增强等场景，尤其在对齐阶段深度的模型训练中发挥着重要作用。

看完上面的介绍，我们不难发现，合成数据有以下特点：

1）数量优势。因为合成数据主要由算法和统计模型创建产生，所以在数量上，合成数据具有天然的优势，能根据实际需求生成海量可训练的数据集。

不过因为合成数据主要基于真实数据样本进行新样本的创建，合成数据的建模质量与多样性，也会受到生成模型、原始数据集质量的影响。

2）成本优势。传统数据采集需经数据获取、标注、脱敏、处理等多道工序，不仅耗时耗力，高质量数据的使用成本更是水涨船高。

而合成数据能模拟真实数据进行语言建模并生成大量可直接使用的数据集，还能通过RLAIF（人工智能反馈强化学习）等，自动对齐人类价值偏好，解决训练数据来源问题，省去了数据标注、处理等环节，所以在使用成本上也更有优势。

3）安全可控。对于医疗、金融等很多数据使用受限或信息敏感的行业，使用真实数据很容易触及客户隐私或数据安全。有些行业则因为能提供的高质量数据样本少、数据资源稀缺或采集困难等，难以推动行业大模型的应用推广。

而合成数据能很好地规避这些点，生成符合行业特定任务要求的训练数据，保护数据和隐私安全的同时，能更好服务于各类使用场景。

随着合成数据越发受到重视，科学家们也在持续创新数据合成的方法。从实际使用看，目前人们主要通过以下方式进行合成数据：

1.随机采样/生成。

简单来说，就是根据现实世界数据中观察到的统计特性（如均值、方差、相关性等），随机生成数据。这种合成方法比较基础直接，适合简单的数据集生成，但面对高维复杂的数据，则存在一定的局限性。

2.基于特定领域规则生成。

顾名思义，就是基于数据集预定义的规则和约束，手动或半自动生成合成数据。这种方式生成的数据，能保持与现实世界复杂场景的一致性，使得生成的合成数据具有一定可解释性，但这种方法在具有明显规律或规则时才较为有效。

3.利用深度学习方法生成。

主要表现在利用生成对抗网络（GAN）、变分自动编码器（VAE）等生成合成数据。

比如视频生成模型Sore就采用了生成对抗网络（GAN）来生成合成数据。在这过程中，生成器负责基于原始数据合成图像，鉴别器负责将原始图像和合成图像分离，当对抗机制达到平衡，就能生成与真实世界图像特征非常相似，但又有所区别的合成图像数据。

变分自动编码器（VAE）则是利用无监督算法，通过编码器（数据降维）和解码器（数据重构）的协作，在原始数据基础上生成新的数据。两者都是合成多模态数据的有效方式。

4.利用合成数据工具生成。

比如利用Python 、Scikit-learn、Datagen、Mostly AI等数据合成工具软件、机器学习库，针对性生成相应的合成数据。

目前也可以直接利用GPT等大语言模型，通过提示词引导，进行数据增强和虚拟数据的合成。

除此之外，通过对现有数据样本进行变换、扩充、匿名等生成更多的训练数据样本，即采用增强数据、匿名数据等方式合成数据也比较常见。只是这种更多属于部分合成数据，真实数据特性保留度高，多样性、丰富性方面也会有一定影响。

虽然合成数据具有诸多优势，但面对特定领域的复杂任务，仍需要一定量的真实世界数据样本作为预训练基础，以提高合成数据可用性及在真实场景中模型的适应能力。

其次，AI合成数据受到合成方式、模型性能、算法等多方面的影响，质量可能参差不齐。为了提高数据质量和训练效果，往往还会搭配Self-instruct、Self-play等方法对其进行微调和优化。

另外，合成数据和真实数据集一样，也可能存在过拟合等问题，导致模型在合成数据上表现良好，但在真实场景中表现不佳。所以提升其在模型中的鲁棒性和在新任务中的泛化能力，同样不可或缺。