我有几个关于使用Java进行实时分析的Apache Spark问题。当提交Spark应用程序时,存储在Cassandra数据库中的数据将通过支持向量机(SVM)机器学习算法加载和处理。在Spark的流扩展中,当新数据到达时,它们被持久化到数据库中,现有数据集重新训练并执行SVM算法。此过程的输出也存储回数据库。
1. Apache Spark的MLLib提供线性支持向量机的实现。如果我想要非线性SVM实现,我应该实现自己的算法还是可以使用现有的库,如libsvm或jkernelmachines?这些实现不基于Spark的RDDs,是否有一种方法可以使用RDD集合而不从头开始实现算法?如果没有,那么如果我想测试几个算法,那将是一个巨大的工作量。
2. MLLib是否在执行SVM算法之前提供了数据缩放的开箱即用实用程序?如第2.2节所定义的http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf 3. 在流式传输新数据集时,我需要重新训练整个数据集吗?是否有任何方法可以仅将新数据添加到已经训练好的数据中?
1. Apache Spark的MLLib提供线性支持向量机的实现。如果我想要非线性SVM实现,我应该实现自己的算法还是可以使用现有的库,如libsvm或jkernelmachines?这些实现不基于Spark的RDDs,是否有一种方法可以使用RDD集合而不从头开始实现算法?如果没有,那么如果我想测试几个算法,那将是一个巨大的工作量。
2. MLLib是否在执行SVM算法之前提供了数据缩放的开箱即用实用程序?如第2.2节所定义的http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf 3. 在流式传输新数据集时,我需要重新训练整个数据集吗?是否有任何方法可以仅将新数据添加到已经训练好的数据中?