我有一组时间序列单变量数据,只包含时间戳和数值。现在我想要对接下来的一天/一个月/一年进行外推(预测)这个数值。我知道有一些方法例如Box-jenkins (ARIMA)等。
Spark有线性回归算法,我试过了,但是效果不太令人满意。有没有人在Spark中尝试过简单的时间序列预测,并可以分享他们的实现方法呢?
附注:我在用户邮件列表中查找了这个问题,几乎所有关于这个问题的提问都没有得到回答。
我有一组时间序列单变量数据,只包含时间戳和数值。现在我想要对接下来的一天/一个月/一年进行外推(预测)这个数值。我知道有一些方法例如Box-jenkins (ARIMA)等。
Spark有线性回归算法,我试过了,但是效果不太令人满意。有没有人在Spark中尝试过简单的时间序列预测,并可以分享他们的实现方法呢?
附注:我在用户邮件列表中查找了这个问题,几乎所有关于这个问题的提问都没有得到回答。
是的,我已经在Spark中应用了ARIMA进行单变量时间序列分析。
public static void main(String args[])
{
System.setProperty("hadoop.home.dir", "C:/winutils");
SparkSession spark = SparkSession
.builder().master("local")
.appName("Spark-TS Example")
.config("spark.sql.warehouse.dir", "file:///C:/Users/abc/Downloads/Spark/sparkdemo/spark-warehouse/")
.getOrCreate();
Dataset<String> lines = spark.read().textFile("C:/Users/abc/Downloads/thunderbird/Time series/trainingvector_arima.csv");
Dataset<Double> doubleDataset = lines.map(line>Double.parseDouble(line.toString()),
Encoders.DOUBLE());
List<Double> doubleList = doubleDataset.collectAsList();
//scala.collection.immutable.List<Object> scalaList = new
Double[] doubleArray = new Double[doubleList.size()];
doubleArray = doubleList.toArray(doubleArray);
double[] values = new double[doubleArray.length];
for(int i = 0; i< doubleArray.length; i++)
{
values[i] = doubleArray[i];
}
Vector tsvector = Vectors.dense(values);
System.out.println("Ts vector:" + tsvector.toString());
//ARIMAModel arimamodel = ARIMA.fitModel(1, 0, 1, tsvector, true, "css-bobyqa", null);
ARIMAModel arimamodel = ARIMA.autoFit(tsvector, 1, 1, 1);
Vector forcst = arimamodel.forecast(tsvector, 10);
System.out.println("forecast of next 10 observations: " + forcst);
}
这段代码对我来说可行。您需要预测的任何值都可以作为输入数据传递。