9得票2回答
为什么SparkR中的collect操作如此缓慢?

我有一个包含500K行的Spark DataFrame,保存在Parquet文件中。我正在使用Spark 2.0.0和SparkR包(在本地机器上运行RStudio和R 3.3.1),该机器有4个内核和8GB RAM。为了方便在R中构建数据集,我使用collect()方法将Spark Data...

9得票2回答
如何处理SparkR中的空值条目

我有一个SparkSQL数据框。 其中一些条目为空,但它们不像NULL或NA那样行为。我该如何删除它们?您有什么想法吗? 在R中,我可以轻松删除它们,但在sparkR中,它说S4系统/方法存在问题。 谢谢。

8得票2回答
如何在C#中调用Sagemaker训练模型的端点API

我已经通过Sagemaker实现了机器学习算法。 我安装了.NET的SDK,并尝试通过执行以下代码来使用它。 Uri sagemakerEndPointURI = new Uri("https://runtime.sagemaker.us-east-2.amazonaws.com/endp...

8得票1回答
Zeppelin与SparkR无法将数据框显示为表格。

齐柏林飞艇R解释器文档说明: If you return a data.frame, Zeppelin will attempt to display it using Zeppelin's built-in visualizations. 这可以在文档示例中看到: 然而,当我尝试...

7得票2回答
在SparkR中使用apply函数

我目前正在尝试使用SparkR 1.5.1版本实现一些功能。我看到过旧版(1.3版本)的示例,人们在数据框上使用了apply函数,但似乎这不再是直接可用的。例如: x = c(1,2) xDF_R = data.frame(x) colnames(xDF_R) = c("number") x...

7得票3回答
将日期转换为 Spark 中的月末日期

我是一个Spark DataFrame,如下所示: #Create DataFrame df <- data.frame(name = c("Thomas", "William", "Bill", "John"), dates = c('2017-01-05', '...

7得票4回答
SparkR在RStudio中出现sparkR.init(master="local")错误。

我已经将SparkR包从Spark分发安装到R库中。我可以调用以下命令,并且似乎可以正常工作:library(SparkR) 然而,当我尝试使用以下代码获取Spark上下文时, sc <- sparkR.init(master="local") 一段时间后,它会出现以下错误信息:...

7得票1回答
无法从创建的SparkR DataFrame中检索数据

我有一个简单的SparkR程序,目的是创建一个SparkR DataFrame并从中检索/收集数据。 Sys.setenv(HADOOP_CONF_DIR = "/etc/hadoop/conf.cloudera.yarn") Sys.setenv(SPARK_HOME = "/home/u...

7得票3回答
如何将csv文件读入SparkR版本1.4?

作为一个新版本的spark (1.4) 发布后,出现了一个很好的前端界面从 R 包名为 sparkR 的包。在 R for spark 的文档页面上,有一个命令可以将 json 文件读取为RDD对象。 people <- read.df(sqlContext, "./examples...

7得票1回答
如何在Spark中检查两个DataFrame列的交集

使用pyspark或sparkr(最好两者都用),如何获取两个DataFrame列的交集?例如,在sparkr中,我有以下DataFrames: newHires <- data.frame(name = c("Thomas", "George", "George", "John"),...