我正在尝试使用Apache Spark对时间序列数据进行功耗预测。数据样本如下:
03.01.15;22:30;236,25
03.01.15;22:15;240
04.01.15;16:00;243,775
我已经观察了两年,每15分钟记录一次。
预测能源消耗的最佳方法是什么?
我尝试了线性回归、决策树等方法,但总是得到巨大的MSE(788)。我尝试将月份、日期、小时和分钟作为OneHotEncoder传递。我尝试只对每周进行预测等。
数据的平均值为year
,month
,day
:
[2014.3996710526321,5.726973684210525,15.713815789473673]
数据的方差
年
,月
,日
:[0.2403293809070049,10.218579294199253,77.46326844706495]
测试均方误差
788.2397552290726
如果我直接传递值,例如
LabeledPoint(236.25, 2015.0,1.0,3.0,22.0,30.0))
,均方误差将上升至1280.8
。 如果我每天只向模型传递一个观测值,而这是最大值,那么这并没有起到帮助的作用。但如果我使用
KNIME
,并尝试时间序列的示例,但使用我的数据时,它们不考虑日期和时间,而是将每个观测值的功耗延迟。我看到Cloudera有一个关于
时间序列
的库,但我不明白为什么需要它。能否有人描述一下在时间序列数据上进行良好预测的过程?最终我想输入日期和时间,并获得预测。