37得票3回答
createOrReplaceTempView和registerTempTable的区别

我是spark的新手,并尝试在python中使用sparkSql时,遇到了这两个命令: createOrReplaceTempView()和registerTempTable()。 这两个命令有什么区别?它们似乎具有相同的功能集。

12得票1回答
使用SparkR JVM调用来自Scala jar文件的方法

我想要能够将DataFrame打包到Scala jar文件中,并在R中访问它们。最终目标是创建一种方法,可以在Python、R和Scala中访问特定且经常使用的数据库表,而不需要为每个语言编写一个不同的库。 为了实现这一目标,我在Scala中制作了一个jar文件,其中包含使用SparkSQL...

7得票2回答
在SparkR中使用apply函数

我目前正在尝试使用SparkR 1.5.1版本实现一些功能。我看到过旧版(1.3版本)的示例,人们在数据框上使用了apply函数,但似乎这不再是直接可用的。例如: x = c(1,2) xDF_R = data.frame(x) colnames(xDF_R) = c("number") x...

7得票1回答
如何在Spark中检查两个DataFrame列的交集

使用pyspark或sparkr(最好两者都用),如何获取两个DataFrame列的交集?例如,在sparkr中,我有以下DataFrames: newHires <- data.frame(name = c("Thomas", "George", "George", "John"),...

7得票3回答
如何将csv文件读入SparkR版本1.4?

作为一个新版本的spark (1.4) 发布后,出现了一个很好的前端界面从 R 包名为 sparkR 的包。在 R for spark 的文档页面上,有一个命令可以将 json 文件读取为RDD对象。 people <- read.df(sqlContext, "./examples...

9得票2回答
如何处理SparkR中的空值条目

我有一个SparkSQL数据框。 其中一些条目为空,但它们不像NULL或NA那样行为。我该如何删除它们?您有什么想法吗? 在R中,我可以轻松删除它们,但在sparkR中,它说S4系统/方法存在问题。 谢谢。

65得票10回答
如何在R中读取Parquet文件并将其转换为R DataFrame?

我希望能够用R编程语言处理Apache Parquet文件(在我的情况下,这些文件是由Spark生成的)。 是否有可用的R读取器?或者正在开发中吗? 如果没有,最快的方法是什么?注意:有Java和C++绑定:https://github.com/apache/parquet-mr

10得票1回答
同时使用SparkR和Sparklyr

据我所了解,这两个包都为Apache Spark提供类似但主要不同的封装函数。Sparklyr较新,其功能范围仍需扩大。因此,我认为目前需要同时使用这两个软件包才能获得完整的功能范围。 由于这两个软件包本质上都将Java实例的引用包装在scala类中,因此我认为可以并行使用这些软件包。但实际...

52得票4回答
安装SparkR

我有R的最新版本 - 3.2.1。现在我想在R上安装SparkR。我执行以下操作后:> install.packages("SparkR") 我得到:Installing package into ‘/home/user/R/x86_64-pc-linux-gnu-library/3.2...

11得票4回答
Spark数据框中的重复列

我在Hadoop集群中有一个大小为10GB的CSV文件,其中包含重复列。我尝试在SparkR中分析它,所以我使用spark-csv软件包将其解析为DataFrame: df <- read.df( sqlContext, FILE_PATH, source = ...