This is a collection of public datasets that can be used for electricity theft detection, which I collected from other papers, data websites and public repositories. This might be work when you have trouble with electricity datasets.
NOTE: This repository exists for navigation only and DOES NOT directly provide source datasets.
这是一组可以用于窃电检测的公共数据集集合,由我从窃电检测相关论文与数据网站、公共仓库中收集而来。如果您在电力数据集方面遇到了困难,这些数据集可能会有所帮助。本仓库仅供导航使用,不直接提供源数据集。
来自 HPCD 。
HPCD是电力相关变量的多变量时间序列数据集,用于描述单个家庭四年的用电量。数据是在2006年12月至2010年11月期间收集的,每分钟收集一次家庭用电量的观察结果。它是一个多变量序列,由七个变量组成,分别为:
- global active power:家庭消耗的总有功功率(千瓦)。
- global reactive power:家庭消耗的总无功功率(千瓦)。
- voltage:平均电压(伏特)。
- global intensity:平均电流强度(安培)。
- sub metering 1:厨房的有功电能(有功电的瓦时)。
- sub metering 2:洗衣的有功电能(有功电瓦时)。
- sub metering 3:气候控制系统的有功电能(有功电瓦时)。
关键词:单用户 多维度 无异常标签
来自 SGCC ,在论文 Wide and Deep Convolutional Neural Networks for Electricity-Theft Detection to Secure Smart Grids, TII 2017 中使用。
这是中国国家电网公司发布的现实用电量数据集。本数据集包含2014年1月1日至2016年10月31日1035天内 42372 个用电客户的用电量数据,带有真实异常标签。
这是目前窃电检测最广泛使用的数据集,因为其存在的标注标签。
关键词:多用户 单维度 有异常标签
来自 ETDatase ,在论文 Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting, AAAI 2021 中使用。
作者只公开了数据集的small版本,包含 2 台变压器在 2 个站点的数据,包括负载、油温等多个维度。数据的记录时间横跨两年,分为两个部分:
- 其中每个数据点每分钟记录一次(用 m 标记),它们来自中国一个省的两个地区,分别命名为 ETT-small-m1 和 ETT-small-m2。每个数据集包含 2 年* 365 天* 24 小时* 4 次 = 70080 个数据点。
- 此外,作者还提供了用于快速开发的每小时级别变体(以h标记记),即 ETT-small-h1 和 ETT-small-h2。每个数据点由 8 个特征组成,包括点的日期、预测值“油温”和 6 种不同类型的外部电源负载特征。
关键词:多用户 多维度 无异常标签
来自 Climate reanalysis datasets 。
作者列出了一些免费提供的基于气候再分析或气候变化预测的能源变量(其中涉及电力需求)重建数据集的列表。
关键词:数据集集合
来自 Smart Energy Meters in Bangalore India ,数据公开发布在Kaggle平台,用于时间序列预测任务。
数据集过大,还没来得及研究。
来自 Electricity Theft Data by Avin Joseph 。
数据集格式与SGCC类似,包含窃电标签。但数据可信度存疑,其出现了过于久远和未来的用电数据,仅供参考。
关键词:多用户 单维度 有异常标签
来自 Theft detection in smart grid environment ,在论文 Theft detection dataset for benchmarking and machine learning based classification in a smart grid environment 中被提出。
- 该数据集包含 16 种不同类型消费者的能源消耗。原始数据包括多个客户一年(12 个月)的多个能耗测量值。每小时进行一次测量。
- 六种不同类型的欺诈被添加到原始数据集中。它们由一些消费者可能造成的不同类型的盗窃组成。
- 第一种盗窃包括白天的电力消耗大幅减少。通过将消耗量乘以 0.1 到 0.8 之间的随机选择值来计算此减少量。
- 在第二种类型的盗窃中,电力消耗在任意时间段内随机下降到零。
- 第三种类型的盗窃与第一种类型类似,但每个消耗值(每小时)乘以一个随机数。
- 为第四种类型的盗窃生成平均消耗的随机部分。
- 第五种类型报告平均消耗量。
- 最后一种类型(即第六种类型)颠倒了读数顺序。
原始数据是从开放能源数据倡议 (OEDI) 平台收集的。它是从美国能源部的项目、办公室和国家实验室汇总的高价值能源研究数据集的集中存储库。
该数据集包含异常标签,涉及多用户与多变量,但时间序列的标注很模糊。
关键词:多用户 多维度 有异常标签
来自 Data from the Commission for Energy Regulation 。
该数据集使用爱尔兰智能能源试验(Irish Smart Energy Trials),包含了2009年至2010年535天内1000多名消费者的用电数据,每个SM每30分钟报告一次细粒度的用电数据。
- 由于原始数据集需经授权获得,我们暂时使用 https://github.com/Lanren9/Electricity-Theft-Detection 仓库中预处理后的该部分数据集,该仓库使用该数据集完成了工作 Privacy-Preserving Electricity Theft Detection Based on Blockchain, IEEE Transactions on Smart Grid 2023 。
- 我们同时收集了仓库 https://github.com/rqi7/Unsupervised_Electricity_Theft_Detection?tab=readme-ov-file 的预处理后数据集,其使用该数据集完成工作 A Novel Unsupervised Data-Driven Method for Electricity Theft Detection in AMI Using Observer Meters, IEEE Transactions on Instrumentation and Measurement 2022 。
- 后续我们将发送正式申请,获取完整数据集。
关键词:多用户 单(?)维度 有异常标签
该数据集包含来自美国新墨西哥州洛斯阿拉莫斯公用事业部 (LADPU) 的电力消耗数据。该数据由新墨西哥州洛斯阿拉莫斯北梅萨的 1,757 户家庭的 Landis+Gyr 智能电表设备收集。采样率为每 15 分钟 1 次观测值(即每天 96 次观测值)。对于大多数客户来说,数据跨度约为六年,从 2013 年 7 月 30 日到 2019 年 12 月 30 日。但是,对于某些客户来说,该期限会缩短。数据集包含缺失值和重复的测量值。
由于数据集过大,还没来得及研究。
关键词:多用户 (?)维度 (?)异常标签