通信世界网消息(CWW)数据集质量是大模型性能提升的 关键,目前国内大模型训练主要依赖国 际开源数据集。由于数据开放共享不 足、版权数据使用受限、数据集建设成本高且缺乏统一规范,中文数据集在规模、质量上仍有很大提升空间。为此,本文建议通过建立统一的数据共享平台、完善数据供给激励机制、制定数据 全周期标准体系、优化“政产学研金服 用”协同创新体系,加快高质量中文数据集建设进程,助力国内大模型高质量发展。

点此阅读杂志全文