目前时间序列领域常用的数据集有6个,分别是Electricity、ETT、Exchange、ILI、Traffic、Weather,涵盖了用电量、温度、外汇、流感、交通和天气领域,本文共包含6大类时间序列研究方向,21+论文标准数据集以及支持标准数据集的1份SOTA时间序列完整项目源码,助力时序领域的涨点与创新!
无偿分享给大家,欢迎扫码获取。
1. Electricity
电力数据集包含了320位客户从2016年7月至2019年7月每小时的电力消耗情况,数据集第一列给出了时间戳,其实时间本身也是非常重要的特征,NIPS24就有一篇专门研究时间戳的文章还挺有意思的。
【数据情况】数据集没有丢失的值,每1H的数值以kW为单位,数据时间段为2016/07/01 2:00—2019/07/02 1:00,共26304条数据。所有时间标签都以葡萄牙小时为单位。所有天都有24点数据(24*4)。每年3月的时间变化日(23个小时),凌晨1点到凌晨2点之间的值对所有点都为零。每年10月的时间变化日(25个小时),凌晨1点到2点之间的值合计两个小时的消耗量。
2020 年全年每 10 分钟记录一次天气,其中包含气温、湿度等 21 项气象指标。
【数据简介】Jena Climate时间序列数据集中基于多变量的历史气象数据,对气温变化的趋势进行预测
【数据情况】变量个数:21,时间步:52696 个样本,时间粒度:10分钟,包括2020年至 2021年Weather Station, Max Planck Institute for Biogeochemistry in Jena, Germany的天气要素数据,包括温度、压力、湿度等14个特征指标。
扫码获取数据集
3. ETT
ETT是英文“Electricity Transformer Temperature”缩写,即 “电力变压器温度”,数据集有小时级别ETTh1、ETTh2和分钟级别ETTm1、ETTm2,所以总共四个数据表。ETT时间范围为2016年7月至2018年7月,涵盖电力变压器负载和油温等信息,可用于分析电力变压器运行状态,为研究电力变压器相关问题以及模型训练评估等提供了重要的数据基础。
【数据背景】电力分配问题是指根据其连续使用情况将电力分配到不同区域。然而,预测特定区域的未来需求是困难的,因为它会随着工作日、节假日、季节、天气、温度等因素而变化。然而,目前没有现有方法能够基于超长期真实世界数据进行长期预测,并且具有高精度。任何错误的预测都可能损害电力变压器。因此,目前没有有效的预测未来电力使用的方法,我们搭建了一个真实世界平台,并收集了2年的数据,预测电力变压器的油温并研究极端负载能力。
【字段说明】数据集使用.csv格式保存,共包含8维特征,包括数据点的记录日期、预测值“油温”以及6个不同类型的外部负载值,其中第一行是数据头,包括了"HUFL"、"HULL"、"MUFL"、"MULL"、"LUFL"、"LULL"和"OT",每一列的详细意义如下:
4. ILI疾病数据集
包括 2002 年至 2021 年美国疾病控制和预防中心每周数据。描述了患有流感疾病的患者与患者数量的比率。(WEIGHTED ILI:加权比率,UNWEIGHTED ILI:非加权比率,AGE 0-4:0-4岁患者数量,AGE 5-24:5-24岁患者数量,ILITOTAL:患有流感疾病的患者总数,NUM. OF PROVIDERS:提供人数,OT:患者数量)
【数据情况】金融外汇相关的数据集其实是比较难预测的,这里收集了 1990 年至 2016 年 8 个国家的每日汇率(国家编号从0-6-OT,0:澳大利亚汇率,1:英国汇率,2:加拿大汇率,3:瑞士汇率,4:中国汇率,5:日本汇率,6:新西兰汇率,OT:新加坡汇率)。
扫码获取数据集
6. Traffic
【数据情况】数据集没有丢失值,每1H的数值颗粒度,数据时间段为2016/07/01 02:00—2018/07/02 01:00,共17544条数据,包含 2015 年至 2016 年旧金山高速公路传感器记录的每小时数据,数值描述了不同传感器测量的道路占用率(介于0和1之间)。
周期性非常明显,有些类似“异常值”的点,但是否是异常值并不能直接下结论,因为在特定节假日,确实会出现集中放假,集中外出的情况,所以最近的一些研究就从时间戳的角度做工作,强化这方面的特征。
本文同样整理了80篇时序+扩散模型篇代表性的paper。同样免费,欢迎扫码下载。
热门跟贴