谷歌 AI 推出 CardBench 评估框架|二进制|基准|评估框架|谷歌|预训练

IT之家 9 月 3 日消息，谷歌 AI 研究人员最新推出了 CardBench 基准，主要为学习型基数估计（cardinality estimation）满足系统评估框架需求

。
CardBench 基准是个综合评估框架，包含 20 个不同真实数据库中的数千次查询，大大超过了以往的任何基准。
项目背景
基数估计（cardinality estimation，简称 CE）是优化关系数据库查询性能的关键，涉及预测数据库查询将返回的中间结果数量，直接影响查询优化器对执行计划的选择。
对于选择高效的连接顺序、决定是否使用索引以及选择最佳连接方法来说，准确的卡入度估计至关重要。
这些决策会对查询执行时间和数据库整体性能产生重大影响。不准确的估计会导致糟糕的执行计划，从而大大降低性能，有时甚至会降低几个数量级。
现代数据库系统中广泛使用的基数估计技术，依赖于启发式（Heuristic）方法和简化模型，例如假设数据统一和列独立。
这些方法虽然计算效率高，但往往需要准确预测基数，在涉及多个表和过滤器的复杂查询中表现尤为明显。

最新的数据驱动方法试图在不执行查询的情况下，对表内和表间的数据分布进行建模，从而减少了一些开销，但在数据发生变化时仍需要重新训练。
尽管取得了这些进步，但由于缺乏全面的基准，因此很难对不同的模型进行比较，也很难评估它们在不同数据集上的通用性。
CardBench
CardBench 能在各种条件下对学习到的基数模型进行更全面的评估。该基准支持三种关键设置：
基于实例的模型，即在单个数据集上进行训练；
(http://www.ecykj.cn)
来源:http://www.bdwgq.cn
(http://www.ugxh.cn)
来源:http://www.iudj.cn
(http://www.tlnkm.cn)
来源:http://www.titex.com.cn

(http://www.bukuo.cn)
来源:http://www.0993cw.cn
(http://www.ev250.cn)
来源:http://www.bcw6.cn
(http://www.day-ellow.cn)
来源:http://www.hongxingwuliu.cn
(http://www.fshjlw.com.cn)
来源:http://www.sunrisemuju.com.cn
(http://www.59pai.cn)
来源:http://www.m3387.cn
(http://www.mingyanggz.cn)
来源:http://www.spysb.cn
(http://www.q794.cn)
来源:http://www.shoppic.cn
零点模型，即在多个数据集上进行预训练，然后在一个未见数据集上进行测试；
微调模型，即进行预训练，然后使用目标数据集的少量数据进行微调。
该基准测试提供两组训练数据：一组用于具有多个筛选条件谓词的单个表查询，另一组用于涉及两个表的二进制联接查询。
该基准测试包括 9125 个单表查询和 8454 个二进制连接查询，适用于其中一个较小的数据集，从而确保为模型评估提供强大且具有挑战性的环境。
例如，微调图神经网络（GNN）模型在二进制连接查询中的 q-error 中位数为 1.32，第 95 百分位数为 120，明显优于零点模型。结果表明，即使是 500 次查询，对预训练模型进行微调也能大幅提高其性能。这使它们在训练数据有限的实际应用中变得可行。
总之，CardBench 代表了在学习的基数估计方面的重大进步。研究人员可以通过提供全面、多样的基准，系统地评估和比较不同的 CE 模型，从而促进这一关键领域的进一步创新。该基准能够支持需要较少数据和训练时间的微调模型，为训练新模型成本过高的实际应用提供了切实可行的解决方案。
IT之家附上参考地址